Artificial Intelligence, Innovation

Microsofts AI-modell Kosmos-1 kan integrera text, bild, ljud och video

" "

Kristina Bate Holmberg, Journalist
@uxconnections

När den nya AI-modellen Kosmos-1, framtagen av Microsoft, presenterades var det inte bara en spännande technyhet. Kosmos-1 är enligt forskare även ett avgörande steg mot framtida utveckling av så kallad artificiell allmän intelligens (Artificial General Intelligence AGI). Med andra ord – en AI-maskins förmåga att tänka, förstå och agera som en människa.

Det är Microsofts egna forskare som har tagit fram den multimodala stora språkmodellen Kosmos-1. Denna modell har betydligt mycket större förmåga till tolkning än enbart att kunna läsa text. Kosmos-1 kan nämligen analysera innehållet i bilder och ljud. Detta innebära att den klarar av att lösa allt från visuella IQ-tester till att lösa visuella pussel. Den kan utföra såväl visuell textigenkänning som att förstå naturliga språkinstruktioner.

Förstår skämt och klädstil

De allra flesta som någon gång har utfört ett IQ-test skulle nog känna igen sig i det test som Kosmos-1 fick göra. Intelligenskvoten mäts genom att en sekvens av former presenteras varefter testtagaren (eller AI:n) ska slutföra frekvensen. Det visuella IQ-testet, utformat av Raven, klarade AI-modellen med en träffsäkerhet mellan 22 och 26 procent. Här tål det att nämnas att under ett slumpartat test får man i genomsnitt 17 procent träffsäkerhet.

Vad mer då? Kosmos-1 klarar av att “se” en bild på en matematisk beräkning och ge svaret. Den kan säga vilken kläd- eller hårstil en person på ett foto har. Kosmos-1 kan också förklara saker. Exempel på detta är visuella skämt. Det skämt som forskarna provat är när en person håller upp ett foto på en skrattande mun framför en katts mun. Pedagogiskt förklarar Kosmos-1 varför detta är roligt – om än mycket av det roliga försvinner när det förklaras…

Träning på nätet

Att Kosmos-1 är multimodal betyder alltså att språkmodellen kan integrera varierade sorters indata såsom text, ljud, bilder och rörlig media. Sin kunskapsbank har Kosmos-1 erhållit genom träning. Microsofts lät AI:n granska dels data från webben, dels utdrag från webbarkivet Common Crawl och The Pile. The Pile är en 825 GiB öppen källkodsmodelleringsdatauppsättning. Efter träningen kunde forskarna hos Microsoft, genom olika test, påvisa stor förståelse för flera områden. Exempel på detta var svar på webbsidor, bildklassificering, textklassificering, språkförståelse, språkgenerering, optisk teckenigenkänningsfri, bildtextning och visuella frågor.

Microsoft

Ett stort steg mot mänsklig AI

Att Kosmos-1 inte bara kunde klara av dessa testen, utan i vissa fall även lyckades överträffade nuvarande toppmoderna MLLM-modeller är stort. Enligt interna röster hos Microsoft är detta ett avgörande steg för framtidens AI. Förmågan att kunna integrera olika indata, och tolka dessa är avgörande för framtidens utveckling av AGI som kan utföra mänskliga uppgifter.

Skillnad mellan LLM och MLLM

Att Microsoft samarbetar mycket med OpenAI är nog känt för de allra flesta. De två företagen har varit blåsvädret den senaste tiden i samband med sin Large Language Model (LLM) ChatGPT (Generative Pre-trained Transformer). Skälen till stormen kring beror på ChatGPT:s förmåga att omvandla en textuppmaning eller inmatning till en utdata. Detta har skapat oro i bland annat universitetsvärlden. Trots detta är den multimodala språkmodellen (MLLM) Kosmos-1 inte ett gemensamt arbete. Många hävdar att detta därtill är ett nästa steg bortom ChatGPT:s förmåga. Den är ju trots allt multimodal. Något som inte bara innefattar språkinlärning utan även multimodal maskininlärning, dokumentintelligens och robotik. Om det kommer att storma upp lika mycket kring Kosmos-1 är dock svårt att avgöra.

Talförmåga och öppen kod

Nästa steg för forskarna är att skala upp Kosmos-1 i modellstorlek och även integrera talförmågan. Detta är två viktiga aspekter för att ge AI:n bättre förankring till den verkliga världen. Microsoft har även gått ut med att de har för avsikt att göra koden för Kosmos-1 tillgänglig för utvecklare. Om framtidens mänsklig AI-robotar där hemma kommer ha en mormor som heter Kosmos-1, tja, det återstår att se.

UX Connections, the UX design agency with UX/UI consultants to help your digital product succeed.

Prenumenera på bloggen
Gå med för att få det senaste inom tech och design, direkt till din inbox.

Vårt team av UX-designer skapar kundupplevelser som dina användare kommer att älska.

Följ oss på sociala medier

Related articles

Leave a Reply

Your email address will not be published. Required fields are marked *