Desambiguatie | Digital heritage for smart regions

De term desambiguatie (“disambiguation”, letterlijk: het eenduidig maken, van zijn dubbelzinnigheid ontdoen) duidt in de natuurlijke taalverwerking op het bepalen welke betekenis een woord heeft in de context van een tekst of zin. Het is in essentie een classificatieprobleem dat opduikt in de diverse stappen van de NLP-pipeline als lemmatisering, part-of-speech tagging, en named entity recognition. De verschillende methoden voor desambiguatie onderscheiden zich door de mate waarin ze zich beroepen op externe kennis voor de classificatie van tokens: van methoden zie die volledig op het woordenboek baseren tot gesuperviseerde en niet-gesuperviseerde “machine learning” benaderingen die enkel de context van de tekst gebruiken, resp. manuele annotaties en automatische clustering door een algoritme (“word embeddings”). Semi-gesuperviseerde methoden kunnen zowel externe kennis als de context van de tekst combineren, en gebruiken annotaties, woordenlijsten, of co-occurrence als basis om een “classifier” te trainen.

In het kader van een geografische vraagstelling, betekent desambiguatie ook het identificeren van het correcte coördinaat voor elke plaatsnaam op basis van de ruimtelijke context geschetst in de tekst. Deze extra bewerking nodig om de resultaten van de tekstextractie aan GIS te kunnen linken wordt “geoparsing” genoemd. “Geoparsing” onderscheidt zich van “geocoding”, waarbij coördinaten worden toegekend aan gestructureerde ruimtelijke informatie zoals adressen, i.t.t. de extractie en desambiguatie van toponiemen uit ongestructureerde tekst. Het “geoparsen” van historische teksten brengt naast het desambigueren van bv. twee identiek benoemde plaatsen nog bijkomende uitdagingen met zich mee: de factor tijd, m.a.w. het onderscheiden van locaties die doorheen de geschiedenis mogelijk meerdere plaatsnamen hadden. Een historische plaatsnamengazetteer, samengesteld uit kaart- en/of tekstannotaties, vormt daarbij een noodzakelijke kennisbasis.