Georeferentie en vectorisatie | Digital heritage for smart regions

Alvorens de informatie die op een gescande historische kaart staat te kunnen analyseren, dienen de diverse kaartelementen te worden gedigitaliseerd. Dat gebeurt met behulp van een Geografisch Informatiesysteem of GIS-softwarepakket. We onderscheiden twee bewerkingen: het situeren van de digitale kaart in de ruimte door het toekennen van geografische coördinaten (georeferentie) en het digitaliseren van de kaartelementen als knooppunten en lijnen (vertices and paths, vectorisatie). In GIS-toepassingen neemt elk aangebracht knooppunt het geografische coördinaat over van de onderliggende gegeorefereerde kaart, waardoor op alle gegenereerde digitale kaartlagen berekeningen mogelijk worden als de onderlinge afstand, afmetingen en oppervlakten van de ruimtelijke elementen.

In dit onderdeel staan we stil bij de aandachtspunten bij de digitalisatie van kaartelementen met het oog op het aanmaken van landschapsreconstructies (landgebruik) en een historische plaatsnamengazetteer, en het automatiseren van de tijdsintensieve taak die het handmatig vectoriseren van omvangrijke kaartenreeksen nog steeds is. Voor een praktische introductie tot GIS, verwijzen we graag naar volgende “tutorials” over georeferentie en vectorisatie in de open sourcesoftware QGIS:

Van belang voor het begrip van de gebruikte methoden, is het onderscheid tussen het raster- en vectordatamodel in GIS. Rasters omvatten zowel afbeeldingen (gescande analoge kaarten, luchtfoto’s en andere digitale opnamen via zgn. “remote sensing”) waarbij elke pixel een RGB-kleurwaarde bevat, als kaarten waarbij de pixels een berekende waarde hebben voor de representatie van continue verschijnselen in het landschap (reliëf, temperatuur, bodembedekking, …). Bij de automatische vectorisatie van het landgebruik benutten we de rastereigenschappen van de gescande historische kaarten; bij de opbouw van een plaatsnamengazetteer, waarbij duidelijk te identificeren of “discrete” landschapselementen centraal staan, doen we dat niet.

Databeheer in GIS, de opbouw van een gazetteer indachtig

Georeferentie a.d.h.v. topogeografische referentiegegevens

Historische kaarten correct positioneren op het aardoppervlak - of georefereren - dient met de nodige zorgvuldigheid te gebeuren. Ongeacht de geometrische correctheid van de kaarten waarmee je werkt, zorgen de opeenvolgende stappen van georeferentie en vectorisatie voor een foutenmarge tijdens het proces van digitalisatie. Om een opeenstapeling van fouten te vermijden, is het aangewezen elke historische kaart te georefereren aan de hand van hedendaagse topogeografische referentiegegevens uitgegeven door het Nationaal Geografisch Instituut, door de Algemene Administratie van de Patrimoniumdocumentatie (CadGIS), of afgeleide producten (zoals het GRB, Grootschalig Referentiebestand of Basiskaart Vlaanderen). Op die manier minimaliseer je het risico om geometrische afwijkingen, die resulteren uit een vorige georeferentie, mee over te nemen. Het spreekt voor zich dat andere gegeorefereerde historische kaarten wel kunnen dienen als hulpmiddel om je te oriënteren in de historische ruimte die staat afgebeeld.

Georeferentie van het Primitief Kadaster (ca. 1830) voor Nijlen aan de hand van het Grootschalig Referentiebestand, GRB-object "Administratief perceel" (Adp). Ondanks dat het Primitief Kadaster bijzonder geometrisch correct is, stellen we bij de georeferentie van de kaartbladen voor de rurale gebieden (schaal 1/2.500) een afwijking vast van gemiddeld 7 meter.

Retrogressief werken, of niet?

Ook bij de digitalisatie van de kaartelementen - of vectorisatie - bestaat de optie om te vertrekken vanuit topogeografische (vectoriële) referentiegegevens. Opnieuw geldt dat je, om de foutenmarge zo klein mogelijk te houden, bij voorkeur hedendaagse geografische basislagen bewerkt eerder dan ze helemaal opnieuw te tekenen. Een dergelijke retrogressieve methode, m.a.w. een reconstructie van de historische situatie op verschillende momenten in de tijd te beginnen bij de hedendaagse, is bij landschapsreconstructies gebruikelijk.

Bij de uitbouw van een plaatsnamengazetteer hangt de keuze voor een retrogressieve aanpak af van het beoogde gebruik van de toponymische lijst die je construeert. Eenvoudig gesteld is een gazetteer een verzameling van benoemde elementen in het landschap, met hun namen, attributen, en eventueel hun ruimtelijke representatie. Een gazetteer vormt zo de brug tussen historische kaarten en teksten. Volgende overwegingen bepalen de methode:

Schaal van het project. Kadert de gazetteer in een kleinschalig, gespecialiseerd onderzoek, of is/wordt compatibiliteit en herbruikbaarheid op lange termijn belangrijk? (zie FAIR-principes)
Semantisch of geografisch uitgangspunt. Ligt je interesse bij de historische schrijfwijzen van plaatsnamen (focus op tekstanalyse), of bij de lokalisatie van de topografische of plaatsbeschrijvende elementen (GIS-gebaseerd onderzoek)?
Temporeel kader. Is het onderzoek synchroon (één tijdsdoorsnede) of diachroon (dwarsdoorsnede) opgevat?
Keuze voor het datamodel. Is de uitbouw van een relationele database wenselijk?

De mogelijkheden van de digitalisatiefase in GIS optimaal benutten is echter de tijdsinvestering waard. Historische plaatsbeschrijvende elementen in verband brengen met de hedendaagse schrijfwijze en coördinaten van de toponiemen door het gebruik van topogeografische referentiegegevens en bestaande gazetteers (zgn. "place name authorities") heeft enkele voordelen:

Vaak blijven gazetteers (en dus ook de geïnvesteerde onderzoektijd) onderbenut na afloop van een project. Het toevoegen van de hedendaagse officiële spelling, coördinaten, of de Uniform Resource Identifier (URI) die verwijst naar “authority files” voor plaatsnamen als GeoNames, Wikidata, of The Getty Thesaurus of Geographic Names (TGN) maken zelfs gazetteers met een beperkte ruimtelijke, temporele of thematische scope tot waardevolle open data.
Voor kaartelementen met duidelijke ruimtelijke en/of temporele grenzen (discrete entiteiten zoals gebouwen, wegen, waterlopen, en ook administratieve eenheden) ligt de adaptatie van hedendaagse vectoriële referentiegegevens voor de hand. Wanneer geometrische nauwkeurigheid minder van belang is en je interesse eerder uitgaat naar de historische schrijfwijze van toponiemen, is het toevoegen van een geografisch coördinaat toch bijzonder nuttig. Coördinaten (en post- of landcodes, adressen, …) toevoegen helpt in de fase van data-extractie (zgn. “disambiguation”) bij het onderscheiden van plaatsnamen in een tekst met eenzelfde of gelijkaardige schrijfwijze, a.d.h.v. hun locatie. Dit proces van “geocoding” kan op diverse manieren gebeuren. Indien je een gazetteer opbouwt door manuele annotatie van toponiemen op een historische kaart, is het gelijktijdig linken met een “authority file” steeds de betere praktijk (en GIS het middel bij uitstek!).
Indien je interesse hebt in de plaatsbeschrijvende elementen in het landschap op een welbepaald moment in de tijd, en ervoor kiest een plaatsnamenlijst op te bouwen o.b.v. één tijdsdoorsnede, is het mogelijk dat de schrijfwijze van de toponiemen op de kaart verschilt van die in de tekst waarop je de gazetteer wil loslaten. Je gazetteer verrijken met de informatie uit bestaande gazetteers (bv. via de Reconciliation Service van de World Historical Gazetteer) of “reverse geocoding” zal de link tussen de tekstuele bron en de historische ruimte, en zo ook de nauwkeurigheid en volledigheid (“precision and recall”) van je tekstanalyse, aanzienlijk verbeteren.
Retrogressief werken betekent het in verband brengen van de toponymische en geometrische reconstructies voor een aantal tijdsperioden. Het GIS datamodel is gericht op het construeren van tijdslagen van discrete entiteiten in het landschap (de shapefile), maar is minder sterk in het modelleren van culturele informatie zonder duidelijke temporele begrenzing of ruimtelijke representatie. Toch sluit werken met GIS een relationeel datamodel niet uit: de geodatabase, die kan bestaan uit ruimtelijke en niet-ruimtelijke tabellen met permanente relaties, is een grote verbetering in het GIS databeheer in vergelijking met een verzameling losse shapefiles. Kiezen voor de constructie van een plaatsnamengazetteer m.b.v. een geodatabase is dan ook aangeraden.

Digitalisatie als puntobjecten van de plaatsnamen op het Primitief Kadaster (ca. 1830) langs de Kleine Nete. Wanneer je ervoor kiest te annoteren per tijdsdoorsnede (shapefile) i.p.v. in een relationeel model (geodatabase), wees dan bewust dat de benaderde coördinaten en historische spellingswijze van de toponiemen een latere integratie van de gegevenslaag in een gazetteer kan bemoeilijken.

De geodatabase: het samenbrengen van ruimtelijke en tekstuele data

In een historische plaatsnamengazetteer wil je volgende informatie opnemen: de ruimtelijke representatie van de benoemde landschapselementen (coördinaten/geometrieën), de verschillende namen en schrijfwijzen van de topografische elementen, de aard (het type) van elk toponiem - een plaatsnaam kan meerdere landschapselementen in dezelfde regio aanduiden -, en de wijzigingen in deze gegevens doorheen de tijd. Het eenvoudige datamodel van de shapefile, waarbij elk “feature” één geometrie heeft en één rij met de overige niet-ruimtelijke eigenschappen in de attributentabel, is ontoereikend om de historische veranderingen in zowel de ruimte als de naamgeving ervan te omvatten. De meeste gazetteers zijn daarom relationeel opgebouwd, gebruik makend van een RDBMS. (De World Historical Gazetteer maakt gebruik van PostgreSQL.) Zelfs indien je interesse enkel uitgaat naar de historische spellingswijze van toponiemen die elk terugverwijzen naar één ruimtelijke locatie (coördinatenpaar), of eerder naar de historische wijzigingen in geometrieën (waterlopen, wegen, politiek-administratieve entiteiten, …), dan nog is het opslaan in afzonderlijke tabellen van resp. naamvarianten en coördinaten, of geometrieën en toponiemen, de betere keuze m.b.t. databasebeheer (i.p.v. het toevoegen van rijen of kolommen met delen van dezelfde data).

Er werden ruimtelijke databanksystemen ontwikkeld voor zowel propriëtaire als vrije GIS-software, voor gebruik in desktop- als in client-servertoepassingen. Binnen ArcGIS onderscheiden we file en enterprise geodatabases, waarbij de data resp. lokaal en op een server (in een RDBMS) worden opgeslagen. QGIS werkt met SpatiaLite. PostGIS is een extensie op PostgreSQL, waarvan de functionaliteiten ook via ArcGIS en QGIS gebruikt kunnen worden. Voor gebruikers van desktop-GIS verhoogt dit het gebruiksgemak. GeoPackage tot slot is een OGC standaardformaat en het default vectorformaat in QGIS. GeoPackage maakt gebruik van het SQLite RDBMS voor dataopslag, maar is als open en platformonafhankelijk formaat het overwegen waard, vanwege de flexibiliteit die de database op die manier biedt.

De diverse ruimtelijke databases delen allen dezelfde basisprincipes. Ze bestaan uit een geheel van tabellen, zowel gecreëerd door de gebruikers (die bevatten de eigenlijke gegevens) als metadata- of systeemtabellen (databaseschema met definities, regels en relaties, plus GIS-gerelateerde informatie als referentiesysteem, dimensionaliteit, en ruimtelijke “extent”). De relaties tussen de tabellen worden gelegd via het gebruik van primaire en vreemde sleutels (beter bekend als “primary” en “foreign keys”). Ruimtelijke databanken breiden de functionaliteiten van relationele databanken m.b.t. SQL query’s en indexen uit met ruimtelijke query’s (verbanden tussen geometrieën), en ruimtelijke indexen die ook de prestaties van deze query’s aanzienlijk verbeteren. De GeoPackage handleiding licht toe hoe een object-relationele geodatabase de restrictie van één geometrie per feature in het GIS-datamodel kan overstijgen door het toevoegen van niet-ruimtelijke tabellen, en dit zonder aan de kracht ervan voor de representatie van geodata te raken: een basisvoorwaarde voor de uitbouw van een historische gazetteer.

In het Time Machine project kozen we ervoor de features, hun geometrieën, en naamvarianten in afzonderlijke tabellen onder te brengen. Eén plaats kan immers doorheen de tijd diverse benamingen en ruimtelijke representaties hebben. De datering van de morfologische wijzigingen van de benoemde landschapselementen of de wijzigingen van plaatsnamen vallen daarnaast zelden samen. Hiermee volgen we het principe van het Linked Places Format ontwikkeld voor Pelagios en de World Historical Gazetteer, een uitbreiding op GeoJSON (en JSON-LD) waarbij alle eigenschappen van een feature afzonderlijk gedateerd kunnen worden. Het concept “plaats” is dus het uitgangspunt. Dit in tegenstelling tot het werken met tijdsdoorsneden (die vertrekken vanuit de bron: een reeks historische kaarten), of met thematische gegevenslagen (die features van een bepaald type en hun opeenvolgende wijzigingen documenteren). Die laatste aanpak (of een combinatie van beide) is gebruikelijker bij de reconstructie van het historische landschap. In een ArcGIS geodatabase kunnen de diverse thematische gegevenslagen die eenzelfde ruimte omschrijven, ondergebracht worden in een feature dataset.

Mogelijkheden tot automatisering van grootschalige landschapsreconstructie

Het combineren van tools uit het raster- en vectordatamodel maakt het mogelijk GIS-software in te zetten voor de interpretatie van het afgebeelde landschap en de omzetting ervan naar een digitale vectorlaag die verdere bewerking en analyse toelaat. De resultaten van dergelijke automatisering zijn echter sterk afhankelijk van de historische cartografische bron (kwaliteit en opmaak): de afweging tussen de eventuele tijdswinst en de gewenste nauwkeurigheid wordt dan ook per project gemaakt.

Gesuperviseerde beeldclassificatie (continue verschijnselen)

Beeldclassificatie (ENG: “image classification”) maakt gebruik van de rastereigenschappen van gedigitaliseerde kaarten, meer bepaald de mogelijkheid om numerieke waarden aan de individuele pixels toe te kennen. De GIS-software benadert kaartscans als kleurafbeeldingen: de pixels bevatten een RGB-kleurwaarde. Net als bij luchtfoto’s of andere producten van zgn. “remote sensing” zoals radar of LIDAR, waarvoor de “image classification” tools ontworpen zijn, kan je de RGB-kleurwaarden van de pixels waaruit de kaart is samengesteld groeperen in klassen (categorieën). Elke individuele pixel krijgt een integere waarde toegekend die overeenkomt met de categorie die deze pixel representeert, plus een arbitraire kleur. Een eenvoudige raster naar vectorconversie besluit het proces (optioneel).

Gesuperviseerde beeldclassificatie (i.p.v. gehele automatisering, gebaseerd op clustering van gelijksoortige pixels) verhoogt de nauwkeurigheid van de methode aanzienlijk, terwijl het nog steeds grote tijdswinst oplevert in vergelijking met manuele vectorisatie. De eerste stap in deze methode is het opzetten van een “training sample”: het manueel aanduiden van de RGB-kleurwaarden op de kaart of afbeelding die tot de diverse klassen behoren. Een algoritme berekent vervolgens de “signature file”: de grenzen van de klassen, die je op de kaart of afbeelding kan gaan toepassen. Beeldclassificatie van continue verschijnselen in het landschap (zoals bodem, reliëf, vegetatie) is een gevestigde methode en beschikbaar in nagenoeg elke GIS-software. Open source opties omvatten de Semi-Automatic Classification plug-in voor QGIS, OSGeo’s GRASS GIS image processing commando’s, en het HistMapR package, specifiek ontwikkeld voor de digitalisatie van landgebruik op historische kaarten in R (een softwareprogramma voor statistiek en data-analyse).

Net als bij historische documenten (teksten) vraagt beeldclassificatie mogelijk enige voorbewerking (pre-processing) om tot goede resultaten te komen. Beschadigingen aan de kaart vormen ruis op de RGB-kleurwaarden die de diverse landschapselementen representeren, en zijn door de ouderdom van de documenten en hun analoge oorsprong gebruikelijker dan bij recente hoge resolutie digitale “remote sensing” opnamen. Daarnaast bevat een historische kaart allerlei kaartsymbolen, lijnen en tekst (toponiemen). Je gebruikt daarvoor tools die de waarden van afwijkende pixels vervangen door de dominante waarde bij de omliggende pixels, zoals een “majority filter”. In HistMapR is de “smooth” functie voor dit doel meteen ingebouwd.

Een laatste aandachtspunt bij de digitalisatie van continue landschapselementen zijn afwijkingen in de georeferentie. Bij een retrogressieve aanpak werk je bij voorkeur met hedendaagse, geometrisch correcte, referentiedata die je telkens bewerkt i.p.v. met afzonderlijke tijdslagen die mogelijk niet geheel correct op elkaar projecteren. (zie Landschapsreconstructie) Eerder dan te opteren voor een directe raster naar vectorconversie, ga je in dat geval de geclassificeerde rasterwaarden ruimtelijk toekennen aan de hedendaagse referentievectorlaag.

Beeldsegmentatie (objecten en grenzen)

De automatische digitalisatie van discrete landschapselementen, zoals gebouwen en percelen, afgebeeld op historische kaarten wordt mogelijk mits een meer doorgedreven voorbewerking van de rasterbestanden. Het uitfilteren van de gewenste kaartinformatie kan op twee manieren: segmentatie en binarizatie (let op de overeenkomst in terminologie met de pre-processing tot het bekomen van machine-leesbare tekst).

Segmentatie is een fijnmazige vorm van pre-processing op beeldclassificatie, waarbij de software niet enkel de RGB-kleurwaarde van elke individuele pixel in rekening neemt, maar ook de kleurwaarde én de vorm van de omliggende pixels. Men spreekt daarom van objectgebaseerde beeldanalyse (OBIA), in contrast met de klassieke pixelgebaseerde methoden. Discrete landschapselementen, met een duidelijk herkenbare vorm, worden op deze wijze makkelijker onderscheiden van hun omgeving en van andere kaartelementen met dezelfde kleur. Beeldsegmentatie kan gebruikt worden om een training sample op te bouwen voor een daaropvolgende beeldclassificatie: de software doet dan de interpretatie van bij elkaar horende pixels. De gebruiker rest dan nog enkel de indeling in betekenisvolle klassen. Indien je interesse hebt in slechts één of enkele landschapselementen, kan je meteen die objecten op basis van hun unieke attribuutwaarde uitselecteren. Net als beeldclassificatie, is segmentatie ontworpen voor producten van “remote sensing”. Diverse tools werden ontwikkeld voor gebruik met GIS en andere software voor dataverwerking. ArcGIS heeft een relatief beperkte toolset voor segmentatie. QGIS maakt gebruik van de Orfeo ToolBox (OTB) plug-in. Toepassing ervan op historisch kaartmateriaal is voorlopig experimenteel.

Voor de digitalisatie van lijnen op gescande kaarten (perceelsgrenzen, hoogtelijnen, waterlopen, …) zijn er weinig open source softwaretools beschikbaar. De kost van gespecialiseerde software beperkt deze tot professionele gebruikers (bv. R2V). Een alternatief is de “ArcScan toolset” voor automatische vectorisatie beschikbaar als extensie in ArcGIS. De voorbewerking bestaat uit binarizatie van de rasterafbeelding en het verwijderen van ruis. Binarizatie omvat rasterclassificatie in twee klassen: 0 en 1 (i.p.v. genormaliseerde rasterwaarden 0 tot 255 van multiband kleurafbeeldingen), kaartelementen die je wél en niet wil laten vectoriseren. In de ArcScan tool doe je vervolgens een “raster cleanup”, het verwijderen van kleine groepen pixels. Scan- en kaartkwaliteit is bij deze stap bepalend: perceelsgrenzen die niet overal ononderbroken zijn, kunnen mee verdwijnen. Pre-processing kan in GIS gebeuren, of in grafische software (Adobe Photoshop). Tot slot activeer je de automatische vectorisatie.

Automatische vectorisatie van de bebouwing op de kaart van Graaf de Ferraris (1778) met ArcScan en voorbewerking in Adobe Photoshop. Op veelkleurige kaarten levert colour-based voorbewerking in grafische software goede resultaten op. Op eerder monochrome historische kaarten, waarbij het kleuronderscheid tussen perceelsgrenzen en de drager beperkter is, en de ruis bijgevolg aanzienlijk, is intensievere pre-processing vereist.

Meer weten?

David Rumsey & Meredith Williams, Historical maps in GIS, in: Anne Kelly Knowles, Past time, past place: GIS for history, ESRI, 2002, p. 1-18 over kaarten in het historisch onderzoek
J.A.J. Vervloet, Inleiding tot de historische geografie van de Nederlandse cultuurlandschappen, Wageningen: Pudoc, 1984 over retrogressief landschapsonderzoek
Marc Antrop, Perspectieven op het landschap. Achtergronden om landschappen te lezen en te begrijpen, Academia Press, 2007 over retrogressief landschapsonderzoek
The Sustainability of Digital Formats Website van de Library of Congress over Esri geodatabases
Gastblog van Paul Ramsey op de website van het "location intelligence" bedrijf CARTO over GeoPackage
Paul Ramsey's introductie tot PostGIS op de St. Louis PostGIS Day 2019 (YouTube)
Thierry Onkelinkx, Luc De Keersmaeker & Kris Vandekerkhove, Methodiek en proefdigitalisatie van historisch kaartmateriaal met het oog op analyse van de evolutie van habitats in Vlaanderen en toepassingen en het gebiedsgericht natuurbeleid. December 2004. IBW.Bb.R.2004.019. In opdracht van Instituut voor Natuurbehoud. Instituut voor Bosbouw en Wildbeheer, Geraardsbergen over georeferentie en beeldclassificatie van historische kaartenreeksen
Luca Congedo, Semi-Automatic Classification Plugin Documentation, 2016 over de plug-in voor gesuperviseerde beeldclassificatie in QGIS
Alistair G. Auffret, Digitizing Historical Land-use Maps with HistMapR, 2017 over automatische digitalisatie van topografische kaarten in R (YouTube)