In zijn meest eenvoudige vorm is een gazetteer een lijst of lexicon van toponiemen met bijhorende coördinaten, die elk een bepaalde locatie op de aarde omschrijven. Aan een historische gazetteer voeg je nog bijkomende informatie toe: doorheen de tijd veranderden plaatsen van naam of toponiemen van spellingswijze, en ruimtelijke objecten als percelen, gebouwen, bosgebieden, wegen en waterlopen van vorm of bestemming. Een gazetteer is tegelijk een instrument dat helpt om plaatsnamen in een tekst te identificeren, als een bron voor landschapsgeschiedenis die je opbouwt aan de hand van kaarten, teksten, en afbeeldingen van een bepaalde regio.

De historische gazetteer: een set van complexe vereisten

Gazetteers hebben een lange geschiedenis. Kaarten vormen als abstracte representaties van de ruimte slechts één manier om zich in de wereld te oriënteren. In het verleden werden cartografische documenten voornamelijk ingezet daar waar exacte opmetingen van het terrein ertoe deden: bij het documenteren van eigendomsgrenzen, het in kaart brengen van de terreingesteldheid voor militaire doeleinden of van zeeën en binnenwateren voor veilige navigatie, en (doorgaans na 1800) het plannen en communiceren van instructies voor infrastructuurwerken. In alle andere gevallen refereerden mensen naar een bepaalde plaats door de karakteristieke elementen ervan te omschrijven.

Het is deze informatie die historici terugvinden in oude geschreven documenten. De directe integratie ervan in een GIS is niet eenvoudig. Met de opkomst van geografische informatiesystemen in de jaren 1990, werden digitale indexen gepubliceerd van locaties en hun coördinaten voor de “geocoding” van geografische gegevens. Het lokaliseren van ongestructureerde informatie uit teksten, of “geoparsing”, is echter een stuk complexer. Het rapport van de Digital Gazetteer Information Exchange Workshop (1999) definieerde de rol van toekomstige digitale gazetteers als: “Digitale gazetteers zijn de brug tussen het vage en het precieze in de representatie van geografische locatie; tussen menselijke kennisverwerking en de nauwgezetheid van wetenschappelijke representatie.”

Southall, Mostern, en Berman (2011) onderscheiden temporele gazetteers, die GIS-gebaseerd zijn en wijzigingen in zichtbare en onzichtbare landschapselementen (administratieve grenzen) dateren; historische gazetteers, lexica van plaatsnamen met een periodisering van hun voorkomen; en culturele gazetteers of digitale toponymische encyclopedieën, die plaatsen zowel lokaliseren als breder omschrijven. Digitale gazetteers op die manier uitgebouwd hebben het potentieel de brug te vormen tussen het “geoweb” en het “semantische web”, tussen online gepubliceerde geografische en tekstuele informatie. Vandaar dat de publicatie van gazetteers als linked open data, wat hen geschikt maakt voor hergebruik, complexe bevragingen, en als kennisautoriteit voor andere data, de laatste jaren als essentieel wordt gezien. Standaarden voor hoe deze linked data gazetteers eruit moeten zien, zijn echter nog volop in ontwikkeling. 

Over het algemeen wordt aangenomen dat een historische gazetteer volgende zaken moet kunnen omvatten. De Alexandria Digital Library (ADL) Gazetteer Content Standard definieert minimum drie elementen:

  • Een plaatsnaam
  • Een coördinatenpaar of andere geografische code (bv. ISO 3166-1 landcodes)
  • Een classificatie (het soort toponiem)

In de overige elementen die vooropgesteld worden binnen het veld van de “geo-semantiek” voor historische gazetteers, onderscheiden we vijf clusters: periodisering, naamvarianten, geometrische representatie, bron- en contextinformatie, en semantische relaties.

  1. ​Periodisering. Tijd vormt logischerwijs een variabele binnen een historische gazetteer. Het dateren van de diverse elementen (afzonderlijk) dient daarom mogelijk te zijn.
  2. Naamvarianten. Sommige plaatsnamengazetteers met een tijdscomponent omvatten de officiële wijzigingen van toponiemen, die exact te dateren zijn. Een plaats kan echter op meerdere manieren benoemd worden, en deze plaatsnamen leven vaak lang door in het dagelijks gebruik.
  3. Geometrische representatie. Niet alle plaatsen beschikken over een exacte locatie die kan worden weergegeven m.b.v. cartesische coördinaten. Het vraagt om het toevoegen van zowel collecties van GIS-features (lijnen en polygonen) als een geografisch bereik (“range”) of “fuzzy polygon”.
  4. Bron- en contextinformatie. Bronreferenties helpen gebruikers de plaatsnamen te contextualiseren, en o.m. gelijksoortige toponiemen van elkaar te onderscheiden. Omgekeerd verhoogt het verrijken van de gazetteer met informatie de bruikbaarheid als tool voor data-integratie (linked data principe).
  5. Semantische relaties. Het semantische web is een vorm van kennisrepresentatie dat concepten linkt die in hun betekenis met elkaar verbonden zijn. Plaatsen kunnen in verband staan door ruimtelijke nabijheid, als onderdeel van een netwerk, delen binnen een grotere plaats, associatie in teksten, etc.

Het “Linked Places Format”, ontwikkeld voor Pelagios en de World Historical Gazetteer, voldoet aan deze vereisten. Een dusdanig verrijkte gazetteer vormt een geschikte tool voor het “desambigueren” van plaatsnamen die voorkomen in teksten.