Meta's ImageBind AI kan de menselijke perceptie nabootsen

Meta publiceert de code in de open access artificial intelligence onder de naam beeldbinden, dat relaties tussen gegevens voorspelt die vergelijkbaar zijn met hoe mensen hun omgeving waarnemen of zich voorstellen. Terwijl afbeeldingsgeneratoren zoals Midjourney, Stable Diffusion en DALL-E 2 woorden aan afbeeldingen binden, zodat u visuele scènes kunt maken op basis van alleen een tekstuele beschrijving, gaat ImageBind verder dan dat. Het kan tekst, afbeeldingen of video, audio, 3D-metingen, temperatuurgegevens en bewegingsgegevens koppelen - en doet dit zonder dat er bij elke gelegenheid een vooropleiding nodig is. Dit is een vroeg stadium van een raamwerk dat uiteindelijk in staat zal zijn om complexe omgevingen te genereren op basis van eenvoudige invoer, zoals een tekstprompt, afbeelding of audio (of een combinatie daarvan).

U kunt ImageBind zien als een benadering van machine learning en menselijk leren. Als u bijvoorbeeld in een dynamische omgeving staat, zoals een drukke straat in de stad, absorberen uw hersenen (meestal onbewust) beelden, geluiden en andere zintuiglijke sensaties om informatie te krijgen over passerende auto's, hoge gebouwen, het weer en meer . Mensen en andere dieren zijn geëvolueerd om deze gegevens te verwerken voor onze genetische voordelen: overleven en het doorgeven van ons DNA. (Hoe meer u weet over uw omgeving, hoe meer u gevaar kunt vermijden en u kunt aanpassen aan uw omgeving om beter te overleven en te gedijen). Naarmate computers dichter bij het nabootsen van de multisensorische verbindingen van dieren komen, kunnen ze die verbindingen gebruiken om volledig gerealiseerde scènes te genereren op basis van slechts beperkte stukjes gegevens.

Dus terwijl je Midjourney zou kunnen gebruiken om "een bassethond in een Gandalf-kostuum balancerend op een strandbal" te maken en een relatief realistische foto van die vreemde scène te krijgen, zou een multimodale AI-tool zoals ImageBind uiteindelijk een video kunnen maken met de hond met relevante geluiden, waaronder een gedetailleerde woonkamer, kamertemperatuur en de exacte locatie van de hond en alle anderen in de scène. "Dit creëert een uitstekende gelegenheid om animaties te maken van statische afbeeldingen door ze te combineren met audio-aanwijzingen", merken de Meta-onderzoekers op in hun op ontwikkelaars gerichte blog. "Een maker kan bijvoorbeeld een afbeelding combineren met een wekker en een kraaiende haan en een audiosignaal gebruiken om de haan of het geluid van de wekker te segmenteren om de klok te segmenteren en beide in een videosequentie te animeren."

Wat betreft wat er nog meer kan worden gedaan met dit nieuwe speelgoed, het wijst duidelijk op een van Meta's kernambities: VR, mixed reality en metaspace. Stel je bijvoorbeeld een toekomstige headset voor die volledig gerealiseerde 3D-scènes (met geluid, beweging, enz.) On the fly kan bouwen. Of virtuele game-ontwikkelaars zouden het uiteindelijk kunnen gebruiken om zichzelf een aanzienlijk deel van het moeizame werk in het ontwerpproces te besparen. Evenzo kunnen makers van inhoud meeslepende video's maken met realistische soundtracks en beweging op basis van alleen tekst, afbeeldingen of audio. Het is ook gemakkelijk voor te stellen hoe een tool als ImageBind nieuwe deuren opent op het gebied van toegankelijkheid door real-time multimediabeschrijvingen te genereren om mensen met visuele of auditieve beperkingen te helpen hun omgeving beter te begrijpen.

Ook interessant: De beste tools op basis van kunstmatige intelligentie

"In typische AI-systemen is er een specifieke inbedding (dwz vectoren van getallen die gegevens kunnen vertegenwoordigen en hun relaties in machine learning) voor elke relevante modaliteit", zegt Meta. “ImageBind laat zien dat het mogelijk is om een gemeenschappelijke inbeddingsruimte te creëren voor meerdere modaliteiten zonder te hoeven trainen op data met elke individuele combinatie van modaliteiten. Dit is belangrijk omdat onderzoekers geen datasets kunnen maken met samples die bijvoorbeeld audiodata en thermische data van een drukke straat in de stad bevatten, of dieptedata en een tekstuele beschrijving van een klif aan zee.”

Meta gelooft dat deze technologie uiteindelijk verder zal gaan dan de huidige zes "zintuigen", om zo te zeggen. "Hoewel we in onze huidige studie zes modaliteiten hebben onderzocht, zijn we van mening dat de introductie van nieuwe modaliteiten die zoveel mogelijk zintuigen met elkaar verbinden - zoals aanraking, spraak, geur en fMRI-hersensignalen - rijkere mensgerichte AI-modellen mogelijk zal maken." Ontwikkelaars die geïnteresseerd zijn in het verkennen van deze nieuwe sandbox kunnen beginnen door in de open source-code van Meta te duiken.

Lees ook:

bronEngadget

Aanmelden

0 Heb je vragen? Stel ze hier.

Ingesloten beoordelingen

Bekijk alle reacties

Andere artikelen

Meta's ImageBind AI kan de menselijke perceptie nabootsen

Recent commentaar