Root NationNieuwsIT-nieuwsMeta's spraak-AI herkent meer dan 4 gesproken talen

Meta's spraak-AI herkent meer dan 4 gesproken talen

-

meta een AI-taalmodel gemaakt dat geen ChatGPT-kloon is. Het Massively Multilingual Speech (MMS)-project van het bedrijf kan meer dan 4 gesproken talen herkennen en spraak (tekst-naar-spraak) reproduceren in meer dan 000 talen. Zoals de meeste van zijn publiekelijk aangekondigde AI-projecten, maakt Meta MMS vandaag open toegang om de taaldiversiteit te behouden en onderzoekers aan te moedigen deze te ontwikkelen. "Vandaag delen we onze modellen en code publiekelijk, zodat andere leden van de onderzoeksgemeenschap kunnen voortbouwen op ons werk", schreef het bedrijf. "Dankzij dit werk hopen we een kleine bijdrage te leveren aan het behoud van de ongelooflijke taalkundige diversiteit van de wereld."

meta

Spraakherkenning en tekst-naar-spraak-modellen vereisen doorgaans training van duizenden uren aan audio-opnamen met bijbehorende transcriptielabels. Maar voor talen die niet veel worden gesproken in geïndustrialiseerde landen – waarvan er vele de komende decennia met uitsterven worden bedreigd – “bestaan ​​deze gegevens gewoon niet”, zegt Meta.

Meta hanteerde een onconventionele benadering van het verzamelen van audiogegevens: luisteren naar audio-opnamen van vertaalde religieuze teksten. "We wendden ons tot religieuze teksten, zoals de Bijbel, die in veel verschillende talen zijn vertaald en waarvan de vertalingen uitgebreid zijn bestudeerd voor op tekst gebaseerd vertaalonderzoek", aldus het bedrijf. "Deze vertalingen hebben openbaar beschikbare audio-opnamen van mensen die deze teksten in verschillende talen lezen." Door ongemarkeerde vermeldingen uit de Bijbel en soortgelijke teksten op te nemen, verhoogden de Meta-onderzoekers het aantal beschikbare talen voor het model tot meer dan 4.

"Hoewel de inhoud van de audio-opnamen religieus is, laat onze analyse zien dat dit geen invloed heeft op de productie van meer religieuze taal door het model", schrijft Meta. "We denken dat dit komt omdat we een connectionistische temporele classificatie (CTC) -benadering gebruiken, die veel beperkter is in vergelijking met grote taalmodellen (LLM) of sequentiemodellen voor spraakherkenning." Ondanks het feit dat de meerderheid van de religieuze teksten door mannen werd gelezen, leidde dit niet tot een mannelijke vooringenomenheid - het systeem herkende zowel vrouwen- als mannenstemmen even goed.

Na het trainen van een afstemmingsmodel om de gegevens bruikbaarder te maken, gebruikte Meta wav2vec 2.0, het model van het bedrijf voor het "zelfbegeleid leren van taalrepresentatie" dat kan leren op niet-gelabelde gegevens. De combinatie van niet-traditionele databronnen en een zelfsturend spraakmodel leidde tot indrukwekkende resultaten. "Onze resultaten laten zien dat modellen van massale meertalige uitzendingen goed presteren in vergelijking met bestaande modellen en 10 keer meer talen dekken." Meta vergeleek met name MMS met Whisper van OpenAI en de resultaten overtroffen de verwachtingen. "We ontdekten dat modellen die zijn getraind op Massively Multilingual Speech-gegevens de helft van het percentage woordfouten hebben, maar Massively Multilingual Speech dekt 11 keer meer talen."

Meta waarschuwt dat haar nieuwe modellen niet perfect zijn. "Er is bijvoorbeeld een risico dat het spraak-naar-tekstmodel individuele woorden of zinsdelen onjuist vertaalt", schrijft het bedrijf. “Afhankelijk van de uitkomst kan dit leiden tot aanstootgevend en/of onnauwkeurig taalgebruik. We blijven geloven dat samenwerking binnen de AI-gemeenschap cruciaal is voor de verantwoorde ontwikkeling van AI-technologieën.”

meta

Nu Meta MMS heeft uitgebracht voor open-sourceonderzoek, hoopt het de trend om het aantal talen in de wereld terug te brengen tot 100 of minder, waarvan de meeste worden ondersteund door belangrijke technologieën, om te buigen. Ze ziet een wereld waarin ondersteunende technologie, TTS en zelfs VR/AR-technologieën iedereen in staat stellen om in hun moedertaal te spreken en te leren. Er staat: "We stellen ons een wereld voor waarin technologie het tegenovergestelde effect heeft en mensen aanmoedigt om hun taal levend te houden omdat ze toegang hebben tot informatie en technologie kunnen gebruiken terwijl ze hun moedertaal spreken."

Lees ook:

Aanmelden
Informeer over
gast

0 Heb je vragen? Stel ze hier.
Ingesloten beoordelingen
Bekijk alle reacties