Editie juni 2017

 

Rubriek: 
Auteur: 
Maarten Dessing

Een betere spellingscontrole voor een miljard mensen

Iedereen wil een perfecte spellingscontrole. Maar dat is niet zo eenvoudig, legt Sander van Geloven uit. De Nederlandse ICT’er kreeg onlangs subsidie om de wereldwijd gebruikte spellingscontrole Hunspell te verbeteren.

Correct gespelde woorden die de spellingscontrole afkeurt omdat hij ze niet kent. Fouten die hij laat staan omdat de spelling in een andere betekenis wél goed is. Het ontbreken van suggesties ter verbetering. Een soms onlogische volgorde van suggesties. Enzovoorts. Sander van Geloven begrijpt dat spellingscontrole een slecht imago heeft. ‘Grote Nederlandse dagbladen publiceren bijna elk jaar een stuk waarin de auteur er tegen tekeer gaat, al gaat de helft van de klachten over grammaticale fouten en niet over spelfouten.’

Maar hebben mensen enig idee hoe ingewikkeld het is om een goede spellingscontrole te krijgen? De zelfstandig ICT-consultant zeker. Hij werkt al jaren aan deze software. Onlangs kregen een Macedoniër en hij 95.000 dollar subsidie van Mozilla Open Source Support – een fonds van het gelijknamige softwarebedrijf – om een geheel nieuwe versie van Hunspell te schrijven. Geld dat volledig opgaat aan de vele uren arbeid die beiden erin moeten steken.

Zo kun je alternatieven aangeven die beter Nederlands zijn zoals 'beeldscherm' voor 'monitor' en 'ontspannen' voor 'chill.

Tussencategorie

‘Je zou bijvoorbeeld ook een tussencategorie willen. Spellingscontrole geeft alleen aan of de spelling goed of fout is – of eigenlijk: goed en let op, hier is wat mee. Met een tussencategorie kun je aangeven bij een woord als fijt: het is correct gespeld, want het is het woord voor een ontsteking aan je vingertop, maar wellicht bedoel je feit. Daarnaast kun je zo alternatieven aangeven die beter Nederlands zijn zoals beeldscherm voor monitor en ontspannen voor chill. Of woorden die meer of minder formeel zijn. Zo’n tussencategorie kun je niet op een zondagmiddag ontwikkelen en invoeren.’

Hongaarse wortels

De naam Hunspell zal bij weinig mensen een belletje doen rinkelen. En dat terwijl vrijwel iedereen in Nederland het gebruikt – en nog een miljard mensen over de hele wereld. De spellingscontrole is geïntegreerd in browsers als Firefox, Safari en Chrome. In Adobe-producten. In officeproducten als LibreOffice. En nog veel meer. Eigenlijk zit Hunspell verwerkt in bijna alles wat geen Microsoftproduct is. Deze softwaregigant gebruikt zijn eigen spellingscontrole.

In het Nederlands kun je ongelofelijk veel woorden aan elkaar koppelen.

‘Hunspell is twintig jaar geleden ontwikkeld door de Hongaar László Németh’, vertelt Van Geloven. ‘Vandaar de naam. Hij vond de bestaande opensource spellingscontrole niet goed werken voor zijn taal en schreef een verbeterde versie. Dat bleek goed te werken voor meerdere talen. Ook voor het Nederlands. In 2010 is Németh naar Nederland gehaald om voor een paar duizend euro een aantal essentiële functies die wij misten voor onze taal in de spellingscontrole aan te passen.’

Inmiddels ondersteunt Hunspell ongeveer zeventig talen in 130 verschillende varianten. ‘Voor het Nederlands zijn de eisen voor samenstellingen een van de zwaarste. Je kunt ongelofelijk veel woorden aan elkaar koppelen. Nog moeilijker dan het Duits, mede doordat wij andere klinkerbotsingen hebben en ook woorden met verbindingsstreepje: re-integratie, aspirant-lid. Németh heeft dat zeven jaar geleden gefikst, zodat de spelling van die woorden niet spaak loopt met de regels voor afbreking.’

500.000 woorden

De Stichting OpenTaal, waar Van Geloven ook bij betrokken is, levert voor de Nederlandse versie de noodzakelijke bestanden aan: woordenlijsten en regels voor vervoegingen en samenstellingen. ‘Vooral dat laatste bestand is voor het Nederlands zeer groot. Onlangs hebben we een nieuwe versie van de woordenlijst ingeleverd bij de Taalunie: 500.000 woorden tegen 350.000 in de vorige versie. Als die het Keurmerk Spelling heeft gekregen, komt die beschikbaar voor gebruikers.’

Coherent geheel

Inmiddels is het tijd om Hunspell vanaf nul opnieuw op te bouwen. In al die jaren is het organisch gegroeid volgens de wetten van opensourcesoftware. Dan brengt de ene softwareontwikkelaar een paar verbeteringen aan – tot hij bijvoorbeeld door de geboorte van een kind geen tijd meer heeft. Of een bedrijf zet er een paar ontwikkelaars op om een paar dingen te veranderen, zodat de software beter geschikt is voor hun werk. Van Geloven en zijn partner maken er opnieuw een coherent geheel van.

‘Behalve het invoeren van een tussencategorie willen we ook links toevoegen naar taaladviessites’

Van de huidige aanpassingen zal de gewone gebruiker nog niet onmiddellijk iets merken, maar ze maken wel mogelijk dat er straks nieuwe ontwikkelingen plaatsvinden. ‘Behalve het invoeren van een tussencategorie willen we ook links toevoegen naar taaladviessites.’ Ook wil hij de suggesties verbeteren. 'Soms is de beste suggestie de vierde optie. Dan staan daarboven woorden die veel lijken op het fout gespelde woord, maar die hier nooit bedoeld kunnen zijn. De computer weet dat niet. Microsoft en Google kijken mee en verbeteren zo hun lerend algoritme. Hunspell niet, omdat wij absoluut niet met de gebruikers willen meekijken. Wij zijn afhankelijk van wat mensen ons laten weten. Er kan dus wel een systeem komen dat mensen automatisch vraagt om informatie door te geven – zonder dat wij hun documenten inzien.’