Nederlands woordenboek met 'dwangsom' en '2025' blijkt onderdeel van academisch onderzoek, geen nieuws over schoenmaker in Bergen op Zoom

alt
Nederlands woordenboek met 'dwangsom' en '2025' blijkt onderdeel van academisch onderzoek, geen nieuws over schoenmaker in Bergen op Zoom
0 Reacties

Op een server in Christchurch, Nieuw-Zeeland, ligt een bestand met de naam Dutch.Aranea.DIM=500.SG=1.HS=1.ITER=25.txt — geen nieuwsbericht, geen rechtszaak, geen bericht over een schoenmaker in Bergen op Zoom. Alleen maar woorden. En cijfers. 21 keer "dwangsom". 30 keer "2025". Twee keer "bergum". En 48 woorden die nooit voorkomen. Het is geen krant. Het is een wetenschappelijk hulpmiddel. En het is precies wat het zegt: een taalkundige dataset, gebouwd voor kunstmatige intelligentie, niet voor de dagelijkse pers.

Het bestand dat niemand verwachtte te vinden

Het bestand is onderdeel van een groter onderzoeksproject van het New Zealand Institute of Language, Brain and Behaviour (NZILBB) aan de University of Canterbury. Onderzoeker Jonathan Dunn en zijn team gebruikten de Aranea-webcorpus, een enorme verzameling tekst uit het web, om een digitale woordenlijst van het Nederlands te bouwen. De parameters in de bestandsnaam zijn technisch, maar belangrijk: DIM=500 betekent dat elk woord wordt voorgesteld door 500 getallen — een soort digitale DNA. SG=1 wil zeggen dat het model "Skip-gram" gebruikte, een methode die woorden leert op basis van hun omgeving. HS=1 en ITER=25 zijn optimalisatie-instellingen. Het resultaat? Een woordenboek waarin elke term een frequentie heeft — geen interpretatie, geen context, geen verhaal.

Wat staat er in het woordenboek — en wat ontbreekt

De frequentie van 21 komt voor bij vijf woorden: "dwangsom", "ressorteert", "enigerlei", "bediging" en "deugdelijkheid". Dat betekent niet dat deze woorden vaak worden gebruikt in de krant, maar dat ze in de Aranea-webcorpus 21 keer zijn opgedoken. Interessant is dat "2025" ook 30 keer voorkomt — een jaartal, geen naam, geen gebeurtenis. Dat wijst op hoe vaak dat jaar in technische documenten, webpagina’s of automatisch gegenereerde tekst wordt genoemd. Ook "kaders", "erfgoed", "organogram", "spoorboekje" en "publiek-private" staan op 30. Geen toeval. Waarschijnlijk komen ze vaak voor in overheidsdocumenten of wetenschappelijke artikelen.

De 48 woorden met frequentie 0 zijn een soort "ghost words" — termen die in de corpus nooit zijn aangetroffen. "1958"? Nee. "jouwstad"? Nee. "aff-info"? Nee. "reclamevrij"? Ook niet. Dat betekent niet dat ze niet bestaan. Het betekent gewoon dat de webcrawler die de corpus bouwde, ze nooit zag. Het is een reflectie van wat het internet *niet* zegt, niet wat het wel zegt.

Waarom "bergum" en niet "Bergen op Zoom"?

Er is een kleine, bijzonder interessante fout in veel zoekopdrachten: mensen denken dat "bergum" een verwijzing is naar Bergen op Zoom. Dat is het niet. Bergum is een dorp in Friesland, met ongeveer 2.000 inwoners. Het komt twee keer voor in de corpus — waarschijnlijk in lokale nieuwsartikelen of webpagina’s van dorpsverenigingen. Bergen op Zoom, daarentegen, komt niet voor. En geen enkel woord over schoenmakers, boetes of lokale bedrijven. Het is een herinnering: data is niet altijd wat je denkt dat het is. De zoekopdracht naar een schoenmaker in Bergen op Zoom die een dwangsom kreeg? Die bestaat niet in dit bestand. Niet omdat het niet gebeurd is, maar omdat het niet op het web stond — of niet in de juiste context.

Het verschil tussen data en nieuws

Deze dataset is geen bron voor journalistiek. Het is geen bron voor rechtbanken. Het is geen bron voor gemeentelijke archieven. Het is een hulpmiddel voor taalwetenschappers die willen begrijpen hoe het Nederlands zich ontwikkelt op het web — niet hoe het zich ontwikkelt in de realiteit. Een woord dat 21 keer voorkomt, is niet belangrijker dan een woord dat 100 keer voorkomt. Het is gewoon een meetwaarde. De frequentie van "dwangsom" zegt niets over hoe vaak Nederlandse gemeenten boetes opleggen. Het zegt alleen dat er 21 keer een webpagina is die dat woord bevat. Misschien in een wetgevingsdocument. Misschien in een blog over recht. Misschien in een automatisch gegenereerde tekst.

Wat betekent dit voor taaltechnologie?

Wat betekent dit voor taaltechnologie?

Deze dataset is een steen in het fundament van moderne taalmodellen. Als je een AI wilt trainen om Nederlands te begrijpen, dan heb je zoiets nodig. Maar het is ook een waarschuwing: als je een model baseert op webdata, dan leer je niet hoe mensen praten — maar hoe mensen op het web schrijven. En dat is vaak formeel, herhaald, technisch. "Publiek-private" komt 30 keer voor? Waarschijnlijk omdat het in overheidsrapporten staat. "Scoorde" en "scoren" komen vaak voor? Omdat voetbalblogs overvloedig zijn. De taal die hier wordt vastgelegd, is geen levende taal — het is een spiegel van wat het internet *gepubliceerd* heeft.

Wat komt er daarna?

De volgende versie van dit woordenboek, waarschijnlijk v.03, zal waarschijnlijk meer woorden uit sociale media bevatten. En misschien ook meer informele termen. Maar de kern blijft hetzelfde: het is geen nieuws. Het is geen archief. Het is een instrument. En het is een herinnering aan hoe moeilijk het is om uit data echte betekenis te halen. De AI leert uit woorden. Maar de mens moet leren begrijpen waar die woorden vandaan komen.

Frequently Asked Questions

Waarom komt "dwangsom" 21 keer voor in dit woordenboek?

De frequentie van 21 betekent dat het woord "dwangsom" 21 keer is aangetroffen in de Aranea-webcorpus — een verzameling webtekst. Dit zegt niets over het aantal boetes dat in Nederland is uitgevaardigd, maar wel dat 21 webpagina’s dit woord gebruikten, waarschijnlijk in juridische, overheids- of nieuwsartikelen. Het is een statistische meting, geen beleidsindicatie.

Is "bergum" een fout voor Bergen op Zoom?

Nee. Bergum is een echt dorp in Friesland, met een eigen geschiedenis en gemeente. Het komt twee keer voor in de dataset, waarschijnlijk in lokale webpagina’s of verenigingsnieuws. Bergen op Zoom komt niet voor in dit bestand. De verwarring komt voort uit de gelijkheid van de eerste twee woorden, maar de contexten zijn volledig verschillend.

Waarom staat "2025" in het woordenboek, en wat betekent dat?

Het jaartal "2025" komt 30 keer voor, wat wijst op een hoge frequentie in technische, planmatige of toekomstgerichte teksten — zoals overheidsprojecten, wetgevingsvoorstellen of automatisch gegenereerde content. Het is geen indicatie van een specifieke gebeurtenis, maar van hoe vaak toekomstige datums in webteksten worden genoemd.

Heeft dit bestand iets te maken met een schoenmaker in Bergen op Zoom?

Nee. Geen enkel woord in dit bestand verwijst naar schoenmakers, bedrijven, rechtbanken of lokale gebeurtenissen in Bergen op Zoom. De dataset is puur taalkundig en gebaseerd op webtekst. Elke veronderstelling dat dit een nieuwsbron is, is een misverstand van de aard van de data.

Hoe betrouwbaar is deze dataset voor het begrijpen van het moderne Nederlands?

Het is betrouwbaar voor het analyseren van hoe Nederlands op het web wordt gebruikt — niet hoe het in gesprekken, kranten of officiële documenten wordt gesproken. De dataset bevat veel formele, technische en herhaalde teksten. Informele taal, dialecten en sociale media zijn ondervertegenwoordigd. Het is een hulpmiddel, geen volledig beeld.

Wie gebruikt dit soort woordenboeken?

Taalkundigen, AI-onderzoekers en ontwikkelaars van taalmodellen gebruiken dit soort datasets om machinelearningmodellen te trainen. Het is essentieel voor vertalingssystemen, spellingscontrole, en taalanalyse. De NZILBB en andere instellingen gebruiken dit om te begrijpen hoe talen evolueren in digitale ruimtes.