Elon Musks AI-företag, xAI, gör framsteg med att lägga till multimodala indata till sin Grok chatbot, enligt offentliga utvecklardokument. Vad detta innebär är att användare snart kan ladda upp bilder till Grok och få textbaserade svar. Detta antyddes först i ett blogginlägg från xAI förra månaden, där det stod att Grok-1.5V kommer att erbjuda “multimodala modeller inom flera domäner.” Den senaste uppdateringen av utvecklardokumenten verkar visa på framstegen med att skicka ut en ny modell.
I utvecklardokumenten demonstrerar ett exempel på ett Python-skript hur utvecklare kan använda xAI:s programvaruutvecklingskit (SDK) för att generera ett svar baserat på både text och bilder. Skriptet läser en bildfil, sätter upp en textprompt, och använder xAI SDK för att generera ett svar. Detta är en stor uppdatering för Grok, som xAI först släppte i november 2024 och som är tillgänglig för användare som betalar för X Premium Plus-prenumerationen.
Multimodala konversationschatbots verkar vara nästa gräns för AI, med flera framsteg som meddelats vid Google I/O och OpenAI:s släpp av GPT-4o. Grok saknade multimodala funktioner och låg därför efter sina konkurrenter — fram till nu. Multimodal förmåga innebär att en AI-modell kan förstå och bearbeta flera typer av indata, exempelvis text, bilder, och kanske till och med ljud eller video. Detta är viktigt eftersom det gör AI:n mer mångsidig och användbar i olika situationer.
Att kunna ta emot och svara på indata från olika källor gör att AI:n kan hantera mer komplexa uppgifter och bättre förstå kontexten i det den arbetar med. Till exempel kan en användare ladda upp en bild av en teknisk ritning och få en förklaring eller teknisk insikt tillbaka. En multimodal AI kan också vara användbar inom områden som medicin, där en läkare kan ladda upp en röntgenbild och få en preliminär diagnos eller förslag på vidare undersökningar.
Grok släpptes först i november 2024 och har sedan dess sett flera uppdateringar. Den senaste versionen innan den nuvarande utvecklingen var Grok 1.5, som kom i mars 2024 och medförde förbättrade resonemangsförmågor. Modellen tränades “på en mängd textdata från offentligt tillgängliga källor från Internet upp till Q3 2024 samt datasätt granskade och kuraterade av mänskliga granskare,” enligt ett blogginlägg från X.
Det är värt att notera att Grok-1 inte tränades på X-data (inklusive offentliga X-inlägg). Däremot har Grok “realtidskunskap om världen,” inkluderas inlägg på X. xAI, grundat av Elon Musk i mars 2024, är relativt nytt inom AI-fältet och ligger efter konkurrenter som OpenAI:s ChatGPT. Men enligt ett blogginlägg från xAI, stänger deras Grok 1.5-modell gapet till GPT-4 på olika riktmärken som sträcker sig över ett brett spektrum av grundskole- till gymnasiekonkurrensproblem.
Det är viktigt att notera att riktmärken för stora språkmodeller ofta kritiseras. Modellerna kan prestera bra på riktmärken om dessa inkluderas i deras träningsdata. Det är lite som att memorera provsvar, snarare än att faktiskt lära sig materialet. Detta innebär att riktmärken inte alltid är en rättvis indikator på en modells verkliga förmåga att generalisera och lösa nya, osynliga problem.
Riktmärken har länge varit en standardmetod för att jämföra prestandan hos olika AI-modeller, men de måste användas med försiktighet. Om en modell tränas på specifika testfrågor kommer den sannolikt att prestera mycket bra på dem, men kan misslyckas när den ställs inför verkliga problem som den inte direkt har tränats på. Detta innebär en risk för överskattning av modellens kapabiliteter och kan leda till orealistiska förväntningar.
Multimodala konversationsmodeller representerar en betydande utveckling inom AI-området. Att kombinera olika typer av data kan ge en mer holistisk förståelse av den information som behandlas. Det möjliggör också en mer dynamisk och interaktiv användarupplevelse. Till exempel, i en pedagogisk miljö, kan en lärare använda en multimodal AI för att visa bilder eller videor tillsammans med textförklaringar för att ge en mer djupgående förståelse av ett ämne.
Inom hälso- och sjukvården kan multimodala AI-modeller användas för att analysera patientdata från flera källor, inklusive textjournaler, bilder och kanske till och med ljudinspelningar. Detta kan ge en mer omfattande bild av patientens tillstånd och förbättra diagnos och behandling. För företag kan multimodala AI-modeller underlätta bättre kundsupport genom att förstå och svara på frågor som involverar både text och visuella element.
xAI:s arbete med att göra Grok multimodal är ett spännande steg framåt för AI-tekniken. Genom att kunna ta emot och bearbeta indata från flera källor kan Grok bli en mer kraftfull och användbar verktyg för både individer och företag. Även om xAI fortfarande ligger efter konkurrenter som OpenAI, visar deras snabba framsteg att de är på rätt väg.
Samtidigt är det viktigt att vara medveten om de utmaningar och begränsningar som kommer med den här typen av teknik. Riktmärken och tester kan ge en viss indikation på en modells kapabiliteter, men de kan också vara missvisande om de inte används korrekt. Det är också viktigt att överväga de etiska och samhälleliga implikationerna av AI, särskilt när den blir mer sofistikerad och integrerad i våra dagliga liv.
Som med all ny teknik är det viktigt att fortsätta övervaka och utvärdera framstegen och att vara medveten om potentiella risker. Med fortsatt forskning och utveckling kan multimodala AI-modeller som Grok ha en djupgående inverkan på många aspekter av samhället, från utbildning och hälsa till affärer och kundservice.