Over data-extractie

Hoe haal je informatie over plaatsen uit geschreven bronnen? In het onderdeel data-extractie beperken we ons tot machine-leesbare digitale teksten. Het einddoel, nl. het bestuderen van de tekstuele gegevens in GIS, dient echter de methodologie te sturen. Data-extractie verloopt in drie stappen: het identificeren van plaatsnamen en sleutelwoorden in de ongestructureerde tekst (“named entity recognition”), het toekennen van de juiste coördinaten aan elke plaatsnaam (“disambiguation”), en het in verband brengen van plaatsnamen en relevante gegevens of sleutelwoorden (“co-occurrence”). In de eerste twee stappen is de gazetteer een cruciaal element. De resultaten van de data-extractie laten toe om de landschapsreconstructies gemaakt in GIS, als de historische plaatsnamengazetteer, met bijzonder gedetailleerde informatie te verrijken.