Zomereditie juni 2018

 

Rubriek: 
Auteur: 
Mathilde Jansen

Hoe overleeft het Nederlands in de digitale wereld?

Even een whatsappje sturen of een skypegesprek voeren met iemand aan de andere kant van de wereld: we kijken er niet meer van op. We kunnen ook tegen onze computer praten. De snelheid van die ontwikkelingen wordt bepaald door de investeringen in taal- en spraaktechnologie. Maar hoe ziet de toekomst van het Nederlands eruit in de digitale wereld? Is die rooskleurig of verliest het Nederlands terrein?

Als je nu om je heen kijkt in de trein, zit iedereen over zijn telefoon gebogen. Wat weinig mensen weten, is dat er achter veel van de internetdiensten die we gebruiken, taaltechnologie schuilgaat. Ondertussen gaat ook de spraaktechnologie met sprongen vooruit: die maakt het mogelijk dat computers gesproken tekst kunnen ontcijferen. We hoeven geen vragen meer in te typen in Google, maar kunnen ze ook in het Nederlands inspreken in onze slimme telefoon, smartwatch of tv: Hoe laat is het? Op welke zender is het journaal? Wat voor weer wordt het morgen? De digitale assistent van Google, Google Assistant, kan waarschijnlijk dit jaar nog Nederlands spreken.

Het IJslands bedreigd

Google Assistant is de Android-variant van Siri - de spraakassistent van Apple, die ook Nederlands spreekt. Het Nederlands gaat dus goed mee in dit soort digitale ontwikkelingen, maar dat geldt niet voor elke taal. IJslanders zijn bij hun activiteiten op internet steeds vaker aangewezen op het Engels, omdat internetdiensten hun moedertaal slechts beperkt ondersteunen. Dat is funest voor de taal omdat jongeren steeds meer tijd online doorbrengen, en jongeren immers de sprekers van de toekomst zijn. Omdat dit ook de IJslandse regering zorgen baart, zal de komende jaren flink worden geïnvesteerd in taal- en spraaktechnologie.

Het voorbeeld van het IJslands laat zien dat de aanwezigheid op internet een steeds grotere rol speelt in de vitaliteit van een taal, naast bijvoorbeeld het aantal sprekers en het aanbod aan boeken of tv-series. In die zin is de digitale revolutie die zich momenteel voltrekt, vergelijkbaar met de komst van de boekdrukkunst. Die maakte namelijk een grotere uitwisseling van informatie mogelijk in Europa, maar tegelijkertijd werden regionale minderheidstalen zelden gedrukt. Het Cornish uit Cornwall kon zich als puur mondelinge taal niet staande houden. Hetzelfde lot dreigt nu voor talen die het niet redden op internet.

Het is dus zaak dat we ook in taal- en spraaktechnologie voor de Nederlandse taal blijven investeren, waarschuwt de Utrechtse hoogleraar taal- en spraaktechnologie Jan Odijk.

Technologisch gat

Het Nederlands doet het in de digitale wereld niet slecht, zo blijkt uit Het Nederlands in het digitale tijdperk. Dat is een witboek uit 2012, waarin Jan Odijk in opdracht van de Europese Commissie verslag legt van de digitale stand van zaken van 23 officiële Europese talen. Met zo’n 1,24 miljoen internetdomeinen kan Nederland wereldwijd goed meekomen. Het neemt een positie in vergelijkbaar met het Frans en het Duits. Odijk stelt dat dit komt door de sterke investering in taal- en spraaktechnologie in de afgelopen jaren.

Toch is er ook reden tot zorg. Want commerciële bedrijven maken hun taaltechnologie in eerste instantie geschikt voor het (Amerikaans-)Engels, en pas daarna komen andere talen aan bod, en sommige zelfs helemaal niet. En omdat de methodes en algoritmes die gebruikt worden voor taaltechnologische toepassingen in de eerste plaats worden gemaakt voor het Engels, werken ze voor die taal vaak beter dan voor andere talen. Het is dus zaak dat we ook in Nederland blijven investeren in taal- en spraaktechnologie, waarschuwt Odijk. Anders wordt het technologische gat tussen het Engels en het Nederlands almaar groter.

Steeds betere vertalingen

Google Assistant en Siri laten goed zien hoever de techniek nu reikt: de software herkent al hele woorden en zinnen. Je ziet het aan Google Translate, dat betere vertalingen genereert. Tolken en vertalers gebruiken het om een ruwe vertaling te maken, die ze dan nog flink moeten repareren. Maar het levert hun al een flinke tijdwinst op. Binnenkort zal deze technologie een nog grotere rol gaan spelen, bijvoorbeeld voor immigranten die de Nederlandse taal willen leren.

In vergelijking met sommige andere talen scoren de automatische vertalingen van het Nederlands vrij goed.

In vergelijking met sommige andere talen scoren de automatische vertalingen van het Nederlands vrij goed. Dat Google Translate zo verbeterd is, komt doordat steeds meer gewerkt wordt met een combinatie van twee systemen. Die systemen zijn vergelijkbaar met de manieren waarop wij mensen talen leren. De eerste is de klassieke methode bij het leren van een vreemde taal: aan de hand van woordenboeken en grammatica’s. Ook automatisch vertalen werkt met ‘regelgebaseerde’ systemen.

De tweede manier is ook wel bekend als de ‘onderdompelmethode’: je luistert zoveel mogelijk naar voorbeelden uit een taal, net als jonge kinderen doen bij hun moedertaal, om daar zelf de regels uit te destilleren. In de taaltechnologie spreekt men van ‘statistische’ of ‘datagedreven’ systemen. Een computerprogramma dat gebruikmaakt van zo’n model heeft vooral heel veel input (data) nodig uit de betreffende taal, waarin het zelf patronen kan ontdekken. Voor goede vertalingen moet Google Translate dus kunnen putten uit grote hoeveelheden digitale tekstcorpora in een taal.

Nog niet voldoende

In vergelijking met sommige andere talen scoren de automatische vertalingen van het Nederlands vrij goed. Het Nederlands gaat ongeveer gelijk op met het Duits, Frans en Spaans. Talen met minder goede resultaten zijn bijvoorbeeld het Hongaars, het Maltees en het Fins. De goede scores van het Nederlands zijn te danken aan een grote onderzoeksinspanning en het bestaan van parallelle tekstcorpora: teksten die in meerdere talen beschikbaar zijn op internet.

Toch zijn de bestaande aantallen tekstcorpora nog lang niet voldoende om het niveau van het Engels bij te benen. Hetzelfde geldt voor de technologie achter vraagbeantwoording, waarbij je een vraag aan je computer kunt stellen in plaats van een paar zoektermen in te vullen. Om de ontwikkelingen bij te houden, is overheidssteun essentieel. De relatief kleine markt voor de Nederlandse taal maakt het voor bedrijven minder aantrekkelijk om erin te investeren. Odijk pleit voor een gezamenlijk initiatief op Europees niveau, zodat ook talen zoals het IJslands kunnen overleven in de digitale wereld. Daarvoor kreeg hij bijval van andere deskundigen tijdens het Taalcongres van de Taalunie in 2015.

De Taalunie steunt al jaren initiatieven op het gebied van taal- en spraaktechnologie voor het Nederlands. Dankzij de investeringen van de Vlaamse en de Nederlandse overheid heeft het Nederlands een goede positie, maar overheidssteun blijft belangrijk om de technologie verder te verbeteren. Dit is o.a. noodzakelijk om die steeds meer voor specifieke doeleinden toe te kunnen passen, bijvoorbeeld in het onderwijs, de zorg en de ondersteuning van mensen met communicatieve beperkingen.

Bronnen