Er verdwijnen steeds meer talen. Is AI de boosdoener of kan het een redding zijn?
Volgens een rapport van de Verenigde Naties sterft er elke twee weken een inheemse taal uit. Het gaat om de talen van oude etnische stammen uit Zuid-Amerika, Australië en Pacifische gebieden, maar ook Mongoolse en Indische dialecten behoren tot deze bedreigde taalsoorten. De aanleiding: de digitalisering die ons verplicht om een globale taal als Engels, Mandarijn-Chinees of Spaans als voertaal te gebruiken. Ook generatieve artificiële intelligentie krijgt nu de vinger gewezen, omdat de technologie voornamelijk op het Engels is gericht en zo minderheidstalen nog verder marginaliseert. Maar is AI echt de boosdoener in dit verhaal, of kan het juist een redding zijn?
80 talen versus 7.000
Als we kijken naar AI-gigant Chat GPT zou je denken dat de technologie een breed bereik heeft, omdat het wel 80 talen kan bedienen. Maar 80 is een heel klein getal als je weet dat er wereldwijd meer dan 7.000 talen worden gesproken. Volgens Glossika spreken we van top-to-bottom language death: talen die uitsterven omdat hun sprekers een meer ‘prestigieuze’ taal aanleren die meer voordelen biedt. Lees: waarin ze wél moderne technologie kunnen gebruiken.
In een artikel van The Atlantic getuigt een man dat hij zelfs geen vertaal-app kan gebruiken om met zijn moeder te communiceren die Fon spreekt, een taal uit Benin en omliggende landen. Door generatieve AI wordt die taal zelfs omschreven als ‘a fictional language’, terwijl Fon weldegelijk nog bij miljoenen mensen dagelijks op de tong ligt.
Met de opkomst van het internet en het Amerikaanse overwicht is Engels steeds meer de voertaal geworden. In entertainment, politiek, academische rapporten én in bedrijfsvoering. Volgens een globaal technologierapport is meer dan de helft van de websites op het net Engels, wat eigenlijk bizar is als je weet dat slechts 18,8% van de wereldbevolking de taal spreekt.
Maar het is een evolutie die moeilijk te stoppen valt: hoe digitaler we worden, hoe meer Engels op de voorgrond treedt. Het is bovendien een vicieuze cirkel: als de beschikbare data grotendeels Engels is en blijft, kan machine learning technologie geen andere talen als bron gebruiken. Laat staan bedreigde talen, waar vaak maar een honderdtal webpagina’s van bestaan.
AI als redding
Wat als artificiële intelligentie niet alleen de verstoorder, maar ook de redding kan zijn van uitstervende talen? Je vijand zou zomaar ineens je beste vriend kunnen worden. Moderne AI - zoals de semantische taaltechnologie van Nalantis - biedt immers de mogelijkheid om bedreigde talen te documenteren en het zo makkelijker te maken om ze te verspreiden.
Een onderzoeksgroep van IBM Research en de universiteit van Sao Paulo werkt aan AI-tools die uit slechts een klein aantal beschikbare bronnen toch een bedreigde taal in kaart kunnen brengen. Zo willen ze het makkelijker maken voor jonge mensen om een inheemse taal te leren, omdat daar in het klassieke onderwijs vaak geen mogelijkheid toe is. Maar ook zij stuiten op een probleem: lokale en inheemse talen bevatten vaak begrippen die je niet letterlijk kan vertalen naar het Engels of een andere globale taal.
Neem bijvoorbeeld het Sámi, gesproken door de lokale bevolking in de Arctische gebieden van Noorwegen, Zweden, Finland en Rusland. Een taal die duizenden woorden bevat die eigen zijn aan de Sámi-cultuur, van specifiek gebouwde hutten tot de ideale weersomstandigheden waarin elanden door de sneeuw kunnen lopen. Begrippen waar we in het Engels geen nood aan hebben en er dus ook geen woord voor is. In nog andere talen zorgen nuances in een zin ervoor dat de hele betekenis verandert, waardoor kleine vertaalfouten voor grote misverstanden zorgen.
Cultuur meets semantiek
Om bedreigde talen met AI te helpen overleven is dus niet enkel de hoeveelheid data en het verwerken ervan belangrijk. Men moet ook rekening houden met cultuur. AI op basis van semantiek (of betekenisleer) biedt daarvoor een grote meerwaarde. Die technologie gaat verder dan wat er naast een woord in het woordenboek zou staan, maar bekijkt dat woord in zijn context in een geschreven of gesproken tekst.
Bij Nalantis bouwen we al meer dan een decennium aan semantische AI-technologie. Die wordt breed ingezet voor onder andere HR-platformen en gemeentebesturen, maar zou in de toekomst ook kunnen helpen bij het in kaart brengen van bedreigde talen op basis van teksten, audio-opnames van gesprekken en zelfs ruwe notities van inheemse sprekers. Want onze baseline is niet voor niets: making data understand people.
Benieuwd naar de mogelijkheden van onze AI-technologie voor jouw project? Let’s talk.
Geschreven door Frank Aernout, CEO bij Nalantis.