Leer je digitale dataset kennen | Digital heritage for smart regions

Er zit meer in je data dan je denkt. Het is nuttig stil te staan bij de manier waarop digitale data opgebouwd zijn, alvorens met de inhoud aan de slag te gaan. Zo is een goed begrip van het bestandsformaat waarin een dataset ter beschikking gesteld wordt belangrijk om te evalueren hoe je de data precies zal kunnen gebruiken in je eigen toepassingen. Daarnaast wordt informatie over de digitalisatie en bewerking van open data door de auteurs meegegeven in de metadata, van belang voor de interpretatie van de gegevens.

Dataformaten

Een dataformaat, bestandsformaat, of bestandsindeling onderscheidt zich van een computer- of softwareprogramma: het duidt op de manier waarop informatie gestructureerd en opgeslagen wordt, en die structuur kan door bepaalde programma’s gelezen worden. Microsoft Excel heeft bijvoorbeeld de eigen XLSX-bestandsindeling, maar kan ook kommagescheiden bestanden (CSV-bestanden) lezen, een oud databaseformaat dat vaak als uitwisselingsformaat gebruikt wordt voor tabelgegevens. De ESRI shapefile (.shp + .shx, .sbn, .dbf, en .prj-extensies) ontwikkeld voor geografische vectordata in ArcGIS geldt tevens als specificatie voor data-interoperabiliteit en kan door de meeste andere geografische software worden gelezen. Om welk bestandsformaat het gaat, kan je in de meeste gevallen achterhalen door te kijken naar de bestandsextensie. In regel kunnen softwareprogramma’s die je gratis kan downloaden (open source), de grootste verscheidenheid aan bestandsformaten openen en bewerken (bv. QGIS en PostGIS voor geografische databases). Volgend overzicht is beperkt tot de uitwisselingsformaten, die het meest worden gebruikt.

Tekstgegevens

Bij het delen van open data op het web zijn in de loop der tijd bepaalde dataformaten als standaard uitwisselingsformaten gaan gelden. Tekst kan aangeboden worden als platte tekst in een txt-bestand. Extensible Markup Language (XML) en Hypertext Markup Language (HTML, voor webpagina’s) zijn de meest gebruikte formaten voor opgemaakte tekst: tekst met markeringen die de inhoud leesbaar maken voor computers. Het belang van XML als opmaakformaat voor tekst die zowel leesbaar is voor mens als machine wordt verder toegelicht bij de pagina over automatische tekenherkenning. Een opmaak- of markeertaal onderscheidt zich van een programmeertaal: de ene bewaart de structuur van een document, de andere bevat de code met de opdrachten die een computer moet uitvoeren.

JSON en RDF zijn beide specifiek ontworpen als uitwisselingsformaat. JavaScript Object Notation (JSON) gebruikt de syntaxis van JavaScript, een populaire scripttaal voor webpagina’s, en werd ontwikkeld voor de communicatie van gegevens tussen webpagina (browser) en server, vaak via een web API. Omdat JSON een gegevensformaat is gestructureerd als tekst, is het echter taalonafhankelijk en kan het door alle programmeertalen gelezen worden (en niet enkel door JavaScript). Dit maakt JSON erg bruikbaar als uitwisselingsformaat en als alternatief voor XML. Het Resource Descriptive Framework (RDF) wordt gebruikt voor het modelleren, publiceren, en delen van data op het web. RDF gaat een stap verder dan gestructureerde dataformaten als XML en JSON, en maakt gegevens niet enkel machine-leesbaar, maar ook machine-begrijpbaar door relaties tussen objecten te modelleren in een grafiek (in een zgn. “graph” of graaf-datamodel) en het gebruik van metadata. Het RDF datamodel kan gebruik maken van diverse talen of syntaxen, zoals N-Triples, RDF/XML, en JSON-LD. Het model vormt de basis voor het Semantic Web en linked (open) data.

Tabelgegevens

Databases onderscheiden zich van tekstgegevens door een systematische ordening van de gegevens in tabellen, rijen (records) en kolommen (velden). Databases die op deze manier gestructureerd zijn worden relationele databanken genoemd. Hiervan werd het rekenblad of de spreadsheet afgeleid, dat sterker is in statistische verwerking van de opgeslagen data. Het onderscheid met niet-relationele (“NoSQL”) databases is van belang voor de dataformaten die voor het bewaren en uitwisselen van gegevens gebruikt worden. NoSQL databases zijn gericht op het opslaan van grote hoeveelheden “big” data in samenhang met webapplicaties. Onder de gebruikte dataformaten bevinden zich XML en JSON (document-oriented databases) en RDF (graph databases).

Hoewel XML in principe voor alle soorten gestructureerde gegevens kan dienen (zie deze XML representatie van een relationele database), worden voor tabelbestanden (rekenbladen en relationele databanken) de twee oude databaseformaten CSV en DBF nog als uitwisselingsformaten gebruikt. Het kommagescheiden of CSV bestandsformaat is een eenvoudige specificatie voor tabelgegevens, waarbij de waarden door een (punt)komma of tab (“TSV-formaat”) van elkaar worden gescheiden. DBF werd in de jaren 1980 ontworpen als bestandsformaat voor dBASE, het eerste veelgebruikte databasebeheersysteem (DBMS) dat de standaard zette voor quasi alle relationele databanksoftware die volgde. De opkomst van nieuwe DBMS volgens het client-servermodel zoals Oracle, Microsoft SQL Server, PostgreSQL, en MySQL maken dat het dBASE gegevensstructuur vandaag als verouderd wordt beschouwd. Het bestandsformaat dient nog bijna uitsluitend als uitwisselingsformaat voor kleinere databases.

Geografische gegevens

Enkel voor geografische gegevens wordt dBASE nog actief gebruikt, als onderdeel van het Esri SHP (shapefile) formaat voor het opslaan van de attributendatabank in ArcGIS. Vanwege de limieten van de shapefile met betrekking tot opslagcapaciteit, versiebeheer, en databewerkingen (geoprocessing), krijgt in ArcGIS en andere GIS-software het werken in een zgn. “geodatabase” tegenwoordig de voorkeur, optioneel in combinatie met een databaseserver. Hoewel open source GIS-programma’s als QGIS Esri geodatabases kunnen openen en bewerken (en over eigen geodatabasefunctionaliteiten beschikken), is de shapefile een veelgebruikt formaat voor het uitwisselen van geodata tussen verschillende GIS-software en voor het aanbieden van open data.

Als gevolg van het toenemende belang van online kaarttoepassingen (web map applicaties), bestaan er naast de shapefile nog enkele andere formaten voor het opslaan en uitwisselen van vectorgegevens tussen desktop en (web)server. GeoJSON is een uitbreiding op JavaScript Object Notation (JSON) voor het definiëren van geometrische objecten, en is daarmee makkelijk in gebruik op het web. De overige uitwisselingsformaten zijn gebaseerd op Extensible Markup Language (XML) en bewaren net als GeoJSON geografische features als tekst. Geometry Markup Language Encoding Standard (GML) is een Open Geospatial Consortium (OGC) en International Organization for Standardization (ISO) standaard, en is naast een open uitwisselingsformaat ook een modelleertaal voor geografische systemen. Zo gebeurt de overdracht van vectorgegevens via een Web Feature Service (WFS) in GML. Keyhole Markup Language (KML) en de gecomprimeerde vorm KMZ werd ontwikkeld voor Google Earth en is ondertussen opgenomen als OGC standaard. De meeste desktop GIS-software en uitbreidingen op DBMS voor ruimtelijke datatypes als Oracle Spatial en PostGIS (extensie op PostgreSQL) volgen de OGC en ISO standaarden, en kunnen gegevens importeren uit en exporteren als deze uitwisselingsformaten voor (online) vectordata.

Rasterbestanden, zoals gegeorefereerde historische kaarten, worden doorgaans ter uitwisseling opgeslagen als GeoTIFF, een open uitbreiding van het Tagged Image File Format (TIFF) bestandsformaat waarbij geografische metadata als het coördinatenstelsel en de kaartprojectie samen met de afbeelding worden bewaard. Geospatial Data Abstraction Library (GDAL) is een softwarebibliotheek (“library”) van tools voor het lezen en converteren van geografische dataformaten, raster maar ook vector (OGR). Enkele van deze tools zijn in ArcGIS en QGIS ingebouwd voor rasterconversie.

Meer weten over dataformaten?

The Open Data Handbook van de Open Knowledge Foundation over dataformaten
De online cursus "Web Data Integration" van de Universität Mannheim over uitwisselingsformaten (slides)
Adam Lith & Jakob Mattsson, Investigating storage solutions for large data, Chalmers University of Technology Göteborg (Master of Science Thesis), 2010 over databases voor big data
The Sustainability of Digital Formats Website van de Library of Congress over de shapefile
Een compleet overzicht van geografische dataformaten

Open data

Steeds meer instanties stappen af van gegevensverstrekking op aanvraag of tegen betaling, en bieden hun gegevens aan met een open licentie, vrij voor hergebruik. Deze rechtenvrije datasets zijn “open data”. Open data hoeven niet machine-leesbaar te zijn, maar zijn dat bij voorkeur wel. Zo kunnen archieven gescande documenten op hun website aanbieden ter raadpleging en als download, zonder dat de inhoud doorzoekbaar is. Door het toevoegen van metadata bij elk document, kunnen gebruikers (en zoekmachines) makkelijker een selectie maken uit de digitale bestanden waarin ze de nodige informatie mogelijk terugvinden. Een volgende stap zou bestaan uit de extractie van de broninhoud naar een gestructureerd dataformaat (een database), wat het hergebruiken aanzienlijk vergemakkelijkt. Voor het aanbieden ervan is een open bestandsformaat of uitwisselingsformaat het meest aangeraden. Het vijfsterrenmodel ontwikkeld door Tim Berners-Lee, directeur van het World Wide Web Consortium (W3C), stimuleert partijen die open data publiceren om hun data in een zo herbruikbaar mogelijk formaat beschikbaar te stellen. Net als het model starten we bij open licenties, hebben we het over metadata, machine-leesbare bestandsformaten, het aanbieden van data via een API, en tot slot linked open data en het semantisch web.

Data aanbieden onder een open licentie

Open data kunnen geheel vrij van eigendomsrechten of met bepaalde gebruiksvoorwaarden worden aangeboden. Ga dus zeker na welke open datalicentie van toepassing is op de data die je wenst te gebruiken. In België werden de Europese richtlijnen m.b.t. het hergebruik van overheidsinformatie omgezet in wetgeving op het federaal niveau en dat van de regio’s (KB van 2 juni 2019; decreet van 7 december 2018; decreet van 12 juli 2017).

Met de zgn. Public Sector Information (PSI) of Open Data richtlijnen wil de Europese Unie de transparantie van overheden bevorderen en de ontwikkeling van een Europese digitale economie stimuleren. Zowel wat betreft Belgische als Vlaamse overheidsgegevens werkt men met drie modellicenties voor open data, geënt op de Creative Commons (CC) gestandaardiseerde licenties. In regel worden deze open data gepubliceerd onder de CC0-licentie, waarbij eigendomsrechten worden opgegeven en de data deel gaan uitmaken van het publieke domein. In bepaalde gevallen kan een voorwaarde tot bronvermelding (Creative Commons Attribution of CC-BY) of hergebruik tegen vergoeding aan de licentie worden toegevoegd.

Metadata

De meest eenvoudige definitie omschrijft metadata als data over data (descriptieve metadata). Ze leggen alle relevante informatie vast over bepaalde gegevens: de auteur, datum van vervaardiging en/of wijziging, gebruikslicentie, omschrijving van de inhoud, plaats van opname (bij afbeeldingen), referentiesysteem (bij geodata), etc. Metadata zijn een onderdeel van de documentatie die een dataset beschrijft. De documentatie en metadata zorgen ervoor dat de gegevens vindbaar, toegankelijk, compatibel, en herbruikbaar zijn (Findable, Accessible, Interoperable, Reusable: de zgn. FAIR-principes) Metadata onderscheiden zich van documentatie in dat opzicht dat ze gestructureerd zijn (meestal volgens een bepaalde standaard) en machine-leesbaar. De overige documentatie kan in allerlei bestandsformaten worden aangeleverd (PDF en TXT zijn gebruikelijk), en dient in de eerste plaats om de gegevens voor de gebruiker beter begrijpbaar te maken. Als gebruiker is het dus aangeraden de bijgeleverde documentatie en metadata te raadplegen om degelijk voorbereid met de open data aan de slag te gaan.

Om de vindbaarheid van open data op het web te vergroten, worden de bijhorende descriptieve metadata gestructureerd volgens internationale standaarden. Er zijn diverse standaarden beschikbaar voor verschillende soorten gegevens: gegevens van bibliotheken, archieven, overheden, wetenschappelijke instellingen, standaarden voor webpagina’s, digitale teksten, geografische data, enz. Eén van de meest bekende standaarden is Dublin Core Metadata Initiative. Initieel waren de meeste metadataschema’s XML-gebaseerd. Met de ontwikkeling van RDF (oorspronkelijk ontworpen voor het beschrijven van metadata) en de uitbouw van het “semantisch web” (een web van data naast het klassieke web van documenten) werden metadatastandaarden gericht op het linken van data echter belangrijker.

De standaarden voor metadata bij overheidsinformatie vandaag in gebruik binnen Europa, België, en Vlaanderen werden ontwikkeld met het oog op de centralisatie van de toegang tot publieke data via dataportalen. Ze zijn daarom grotendeels RDF-gebaseerd. Alle metadata die je terugvindt op data.europa.eu, data.gov.be, en metadata.vlaanderen.be gebruiken het door de in opdracht van de Europese Commissie ontwikkelde Data Catalog Vocabulary Application Profile (DCAT-AP). DCAT is een World Wide Web Consortium (W3C) RDF vocabularium voor het bevorderen van de interoperabiliteit tussen gegevenscatalogi. Dankzij deze standaard zijn de metadata over de gegevens van de Belgische overheid ook doorzoekbaar via het Europese dataportaal, die van de Vlaamse overheid ook via het Belgische portaal, en die van verscheidene publieke instellingen ook via het Vlaamse portaal. De datasets zelf (de inhoud) blijven op de website van de datavormer staan.

Voor het beschrijven van geografische gegevens geldt de Europese INSPIRE-richtlijn m.b.t. metadata. Het harmoniseren van de ruimtelijke data-infrastructuren van de Europese lidstaten heeft in de eerste plaats tot doel de uitwisseling van data relevant voor milieubeleid te bevorderen; in praktijk betreft dit echter het gros van de geografische data die door publieke diensten worden geproduceerd. In de Belgische context verzorgt de federale overheid de technische infrastructuur met een federaal geoportaal (geo.be) en de algemene administratieve, statistische, en wetenschappelijke data voor het Belgische grondgebied. De gewesten leveren de geodata die betrekking hebben op het milieubeheer. De INSPIRE-richtlijnen zijn gebaseerd op de International Organization for Standardization (ISO) standaard 19115 voor geografische metadata, aangevuld met ISO 19119 specificaties voor webservices. Ontwikkeld in de Jaren 2000, beschrijft INSPIRE geografische data met behulp van Geography Markup Language (GML), en is de richtlijn dus XML-gebaseerd. Hoewel een API intussen toelaat de metadata “on the fly” om te vormen naar het op RDF-gebaseerde (Geo)DCAT-AP, werkt men nog aan oplossingen om INSPIRE-data werkelijk naar RDF te converteren en te kunnen aanbieden als linked open data.

Europeana tot slot is een portaalsite voor cultureel erfgoed, en ontsluit de digitale collecties van Europese archieven, bibliotheken en musea. Europeana ontwikkelde een eigen metadatamodel, het Europeana Data Model (EDM), uit de noodzaak diverse metadatastandaarden zoals het veelgebruikte Dublin Core, Encoded Archival Description (EAD, voor archieven), Lightweight Information Describing Objects (LIDO, voor museumcollecties), en Metadata Encoding and Transmission Standard (METS, voor digitale bibliotheken) samen te brengen. EDM volgt geen welbepaalde standaard, maar biedt een overkoepelend kader dat bestaande standaarden compatibel maakt volgens de principes van het semantisch web (het hergebruik en de verrijking van digitale data). Europeana gebruikt een XML schema (EDM XSD), dat echter geldig RDF/XML is.

Werk je aan een onderzoek waarbij je zelf data zult genereren, dan is het een goede praktijk om bij de start een datamanagementplan (DMP) op te stellen. Dat beschrijft hoe je tijdens en na het onderzoek met de data zult omgaan. De FAIR-principes vormen hierbij de leidraad. Om de gegevens na het project vindbaar te maken voor andere gebruikers, dienen de metadata op een gestandaardiseerde manier reeds tijdens de loop van het onderzoek bijgehouden te worden.

Informatie structureren

Open data worden bij voorkeur aangeboden in een gestructureerd dataformaat, zoals een rekenblad of relationele database. Dat maakt de informatie machine-leesbaar en dus tevens geschikt voor geautomatiseerd hergebruik. Een gestructureerd datamodel laat toe complexe vragen te stellen aan de data, en snel de verschillende onderdelen van een dataset te doorzoeken en met elkaar in verband te brengen. De meeste relationele databasemanagementsystemen (DBMS) werken met de Structured Query Language (SQL) standaardprogrammeertaal. “NoSQL” databases worden gerekend onder ongestructureerde data, net als tekst-, audio- en videobestanden.

Bestanden in de XML of JSON dataformaten vormen een tussencategorie van semigestructureerde data. Hoewel het geen tabelbestanden zijn, geeft de “markup” aan hoe mens en machine de informatie moeten lezen, en zijn ze daardoor makkelijker te analyseren dan ongestructureerde data. Ook RDF behoort tot de categorie van de semigestructureerde data. Als datamodel is RDF (i.t.t. een opmaaktaal) echter analytisch krachtiger, en kan het gestructureerde en semigestructureerde informatie met elkaar linken.

Volgend schema illustreert helder het onderscheid tussen de verschillende datastructuren:

Gestructureerde, ongestructureerde, semigestructureerde data, en metadata. (bron)

Data beschikbaar stellen via een API

API’s zijn essentieel in het hergebruiken van open data. Een Application Programming Interface (API) is een verzameling definities op basis waarvan een programma kan communiceren met een ander programma. In tegenstelling tot het aanbieden van een volledige download van de data (een “data dump”) of het uitbouwen van een webapplicatie die de achterliggende database rechtstreeks bevraagt met SQL-query’s, geeft een API enkel toegang tot de onderdelen van de data die de gebruiker nodig heeft voor de ontwikkeling van een applicatie. Een API werkt daarom sneller en is herbruikbaar in meerdere toepassingen. De gebruiker werkt steeds met de meest actuele informatie zelfs indien de gegevens vaak wijzigen, de ontwikkelaar behoeft geen grondige kennis van de achterliggende data, en de dataverstrekker behoudt de controle en een veilige dataopslag. De data, metadata en hypermedialinks (samen de “resource representation”) worden aangeleverd in uitwisselingsformaten zoals XML, HTML of JSON.

Een webservice is de communicatie tussen twee systemen via een API over het internet. De meest gebruikte protocollen zijn Simple Object Access Protocol (SOAP) en Representational State Transfer (REST of RESTful). Zo werken de Web Feature Service (WFS) en Web Map Service (WMS) raadpleegdiensten voor geodata op basis van de Open Geospatial Consortium (OGC) API standaarden, geënt op de RESTful principes.

API’s zijn niet enkel relevant voor de toegang tot databanken of GIS-gegevens. De International Image Interoperability Framework (IIIF) standaarden bestaan uit vier API’s die de annotatie en uitwisseling van digitaal beeldmateriaal mogelijk maken. Daarvoor gebruikt IIIF JSON-LD, linked data, en het W3C Web Annotation Data Model. Annotatieplatformen als Recogito en Madoc ondersteunen het uploaden van beelden vanop een IIIF-server. IIPImage Server is zo een IIIF-compatibele beeldenserver.

Ondanks het belang van API’s voor open data, hebben ze geen plaats in het vijfsterrenmodel van Tim Berners-Lee. De vierde ster, linked open data uitgedrukt in het Resource Description Framework (RDF), steunt immers op SPARQL eindpunten (“endpoints”) voor complexe bevragingen van de hele dataset. SPARQL is de zoek- of querytaal voor RDF-gegevens, zoals SQL dat is voor relationele databanken. RDF en SPARQL worden echter vaak als te complex beschouwd voor wie geen ervaring heeft als (linked) dataspecialist. Een API maakt de data toegankelijker voor een bredere groep gebruikers en laat webontwikkelaars toe met de gegevens aan de slag te gaan, voor o.m. het maken van visualisaties. De JSON-LD RDF syntax (“serializatie”), gebaseerd op de JSON scripttaal voor webpagina’s, vormt de schakel tussen de wereld van het databeheer en de webapplicatie. Vanwege de plaats die API’s ondertussen innemen binnen de linked open data, spreekt men ook van het “zessterrenmodel”, al heeft de term nog geen algemene ingang gevonden.

Het linken van open data

Het semantisch web verwijst naar het onderdeel van of de uitbreiding op het wereldwijde web dat bestaat uit machine-leesbare data (gestructureerde data, i.t.t. webpagina’s met hypertekst). Het is het “web of data” in RDF naast het “web of documents” in HTML. Tussen de datasets worden relaties gelegd, die ook door computers geïnterpreteerd kunnen worden (machine-begrijpbaar). Het geheel aan gelinkte datasets is Linked Data.

Om gegevens met elkaar te kunnen linken, zijn er enkele basisprincipes omtrent het op een uniforme manier beschrijven, modelleren, opslaan, publiceren, en onderling koppelen van de gestructureerde data via het internet.

Elk stuk informatie of elke entiteit heeft een URI (). Het is een unieke naam die toelaat gelijkaardige gegevens van elkaar te onderscheiden.
Er wordt gebruik gemaakt van HTTP URI’s, beter bekend als URL’s (Uniform Resource Locator). Elk stuk informatie krijgt dus ook een eigen webpagina die gebruikers kunnen opzoeken. In linked data spreekt men van de “dereferentie” van een URI. Het gebruik van een HTTP protocol heeft het grote voordeel dat de registratie van de domeinnaam in het Domain Name System (DNS) verzekert dat de URI of naam van de entiteit uniek is. In de loop der tijd werden ook andere URI schema’s ontwikkeld voor specifieke doeleinden (zoals de Digital Object Identifier of DOI voor elektronische publicaties), maar het gebruik ervan wordt afgeraden omdat deze het linken van datasets kunnen bemoeilijken.
W3C standaarden als het Resource Description Framework (RDF) en de SPARQL Protocol And RDF Query Language (SPARQL) structureren en ontsluiten de data via het web. Het kernconcept bij RDF is de “triple” subject-predicaat-object of onderwerp-eigenschap-waarde: twee entiteiten en de omschrijving van de relatie tussen beide. Alle drie onderdelen hebben een unieke URI. Enkel het object kan tevens een zgn. “literal” zijn, zoals een getal of een datum. Alle “triples” samen vormen een netwerk of “graph” van data die met behulp van SPARQL eindpunten bevraagd kunnen worden. I.t.t. SQL is SPARQL niet enkel een zoektaal, maar ook een HTTP protocol, waardoor niet één maar meerdere als open data gepubliceerde databanken tegelijk doorzocht kunnen worden.
Links met andere URI’s, binnen de eigen dataset én met gegevens uit andere datasets. Om relaties te leggen met entiteiten uit verschillende datasets, wordt bij voorkeur gebruik gemaakt van conventies of formele modellen die bepalen hoe informatie te representeren. Ontologieën of vocabularia (de termen zijn nagenoeg inwisselbaar) omschrijven de soorten van entiteiten die bestaan (klassen), hun onderlinge relaties (eigenschappen), en de logische combinaties van klassen en eigenschappen (axioma’s). Dat laatste zorgt ervoor dat automatisch nieuwe links tussen gegevens kunnen worden gevonden, i.t.t. relationele databanken waarbij verbanden expliciet moeten worden gedefinieerd. Basisontologieën zijn o.m. RDF Schemas (RDFS), Simple Knowledge Organization System (SKOS), en Web Ontology Language (OWL). Er bestaan echter tal van meer specifieke vocabularia, zoals we al zagen voor metadata (Dublin Core, DCAT voor dataportalen, etc.).

Onderdelen van een RDF triple: subject, predicaat, en object (onderwerp, eigenschap, waarde). The Programming Historian

Hoe met linked open data aan de slag gaan? Voor wie vertrouwd is met SQL, is het bevragen van data met SPARQL geen grote aanpassing. De resultaten van de query op één of meerdere open “graph databases” (of relationele databanken omgevormd naar RDF via middleware) worden teruggestuurd in de vorm van een tabel, en aangeboden in tal van dataformaten van XML, JSON en CSV tot Turtle en N-Triples. Deze tutorial bevraagt het SPARQL eindpunt van het British Museum, en toont hoe je de resultaten daarna inlaadt in Excel of in datavisualisatiesoftware voor het opstellen van data stories. Voor enkele belangrijke geodatasets (GeoNames, DBpedia, Pleiades) bestaat de mogelijkheid de SPARQL eindpunten rechtstreeks in QGIS te bevragen, dankzij de SPARQLing Unicorn Plugin. Tot slot bieden de meeste datavervaardigers zgn. RDF data dumps aan, waarbij de hele dataset ter beschikking wordt gesteld en je die zelf kan inladen in een NoSQL databank (of “triplestore”). De linked open data van de Vlaamse overheid worden aangeboden als Turtle-bestanden (.ttl).

De principes van linked open data worden ook toegepast bij de constructie van de historische plaatsnamengazetteer.

Meer informatie over open data

Het Platform Linked Data Nederland over het vijfsterrenmodel voor open data
Erfgoed Leiden en Omstreken: "Data voor dummies" met zes lessen over open data
Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 over de implementatie van de FAIR-principes
Kirstein F., Dittwald B., Dutkowski S., Glikman Y., Schimmler S., Hauswirth M. (2019). Linked Data in the European Data Portal: A Comprehensive Platform for Applying DCAT-AP. In: Lindgren I. et al. (eds) Electronic Government. EGOV 2019. Lecture Notes in Computer Science, vol 11685. Springer, Cham over de Europese DCAT-AP metadatastandaarden
Jenn Riley (2017). Understanding Metadata: What is Metadata, and What is it For?, A Primer Publication of the National Information Standards Organization (NISO): een complete gids over metadata in de erfgoedsector
Carl Reed in de Open Geospatial Consortium (OGC) blog over de INSPIRE metadatastandaarden voor geografische data
De Cultureel Erfgoed Standaarden Toolbox (CEST) over het International Image Interoperability Framework (IIIF)
Informatie Vlaanderen over Web Feature Service (WFS) 3.0 als RESTful API
Blogpost van Dimitri van Hees over de rol van API's in linked open data
Het Linked Data Glossary van de World Wide Web Consortium Working Group (27 juni 2013)
Jonathan Blaney, "Introduction to the Principles of Linked Open Data," Programming Historian 6 (2017)
Het Netwerk Digitaal Erfgoed Nederland over werken met SPARQL endpoints (in TriplyDB)
James Baker, "Preserving Your Research Data," Programming Historian 3 (2014) over duurzaam databeheer