Microsoft Kosmos-1 maakt de weg vrij voor AI op menselijk niveau

Begin deze week ontdekten onderzoekers van Microsoft presenteerde Kosmos-1, een multimodaal model voor kunstmatige intelligentie dat afbeeldingen op inhoud kan analyseren, visuele puzzels kan oplossen, visuele tekstherkenning kan uitvoeren, visuele IQ-tests kan afleggen en instructies in natuurlijke taal kan begrijpen. Volgens de onderzoekers zijn dergelijke AI-modellen de eerste stap op weg naar het creëren van een kunstmatige algemene intelligentie (AI) die gezamenlijke taken op menselijk niveau kan uitvoeren. Dat wil zeggen dat deze technologie een persoon bij elke intellectuele taak kan vervangen. En dit is het verklaarde doel van OpenAI, een belangrijke zakenpartner Microsoft op het gebied van kunstmatige intelligentie.

In dit geval is Kosmos-1 een puur persoonlijke ontwikkeling van het bedrijf Microsoft. De onderzoekers noemen hun creatie een ‘multimodaal breed taalmodel’ (MLLM), omdat de wortels ervan liggen in de verwerking van alleen tekst in natuurlijke taal, zoals LLM, zoals ChatGPT. Om ervoor te zorgen dat het model invoerafbeeldingen accepteert, moeten onderzoekers de afbeeldingen eerst omzetten in een speciale reeks tokens (voornamelijk tekst) die de LLM kan begrijpen.

Kosmos-1 werd getraind op een database van internet, inclusief fragmenten uit The Pile (een Engelse tekstbron van 800 GB) en Common Crawl. Het model werd vervolgens getest met verschillende tests voor spraakverstaan, spraakgeneratie, tekstclassificatie zonder optische tekenherkenning, ondertiteling van afbeeldingen, visuele vraagbeantwoording, beantwoording van webpaginavragen en beeldclassificatie met lokalisatie. Volgens MicrosoftKosmos-1 presteerde in veel van deze tests beter dan de huidige modellen.

Bijzonder interessant was de Raven's Progressive Reasoning-test, die het visuele IQ meet door een reeks vormen te presenteren en de proefpersoon te vragen de reeks te voltooien. Kosmos-1 wist in 22% van de gevallen het juiste antwoord te geven.

Deze vroege stappen, die met toekomstige optimalisatie nog meer significante resultaten zouden kunnen opleveren, waardoor AI-modellen elke vorm van media kunnen waarnemen en beïnvloeden, waardoor de mogelijkheden van kunstmatige assistenten aanzienlijk worden uitgebreid.

Lees ook:

bronArsTechnica

Aanmelden

0 Heb je vragen? Stel ze hier.

Ingesloten beoordelingen

Bekijk alle reacties

Andere artikelen

Microsoft presenteerde een multimodale aanpak die de weg vrijmaakt voor AI op menselijk niveau

Recent commentaar