Informatie vervat in een ongestructureerd bestandsformaat zoals een tekstdocument bruikbaar maken in het strikt gestructureerde GIS-datamodel, vraagt de extractie van enkel die gegevens die relevant voor het beantwoorden van je ruimtelijke onderzoeksvraag. 

De statistische samenvatting van een tekstcorpus heet "distant reading". GIS is een innovatieve verrijking van deze methode: de identificatie van de belangrijkste sleutelwoorden bij de toponiemen, brengt ook de ruimtelijke patronen in de tekst aan het licht. De extractie van de sleutelwoorden in hun tekstuele context, bieden de mogelijkheid om de patronen verder te bestuderen d.m.v. "close reading".  

Het Nieuws- en Advertentieblad met Voyant

Voyant is een open source tool voor “distant reading” en basistekstanalyse. Het is tekstanalyse zonder programmeren in R of Python. Dat betekent (relatief) gebruiksgemak, maar ook beperkingen.

Woordfrequenties visualiseren

Functie: "cirrus"

Meest voorkomende woorden in het hele corpus (die geen stopwoorden zijn).

Veranderingen in de verkochte houtsoorten?

Meest voorkomende woorden in de eerste editie van 1876.

Meest voorkomende woorden in de eerste editie van 1926.

Sleutelwoorden in context

Functie: "contexts"

Schaarhout: eiken en elzen

Dunsel: dennen en masten

Evoluties doorheen de tijd

Functie: "trends"

Typen bomen doorheen het corpus (= de tijd). Dennen* i.p.v. den* werd gebruikt, door andere betekenissen („den 1e Januari“). De steekproef is beperkt, maar we zien het aantal verkopen van bomen aangekondigd in het blad dalen tijdens WO 1. Het aantal verkochte eiken en masten (+ dunneling/schaarhout ervan) volgt eenzelfde trend. De uitschieter van eiken in 1926 zou bevestigd moeten worden a.d.h.v. een groter corpus.

Samenhang visualiseren

Functie: "collocates graph"

Welke woorden komen frequent samen voor? Context window = 15 tokens (aan weerszijden)

In beemden was vooral schaarhout te koop