logo

Linked open data

Il termine linked open data si riferisce a una serie di best practices per pubblicare dati strutturati sul web e collegarli tra loro. Questa best practices sono state adottate da un crescente numero di data providers portando alla creazione del cosiddetto spazio globale dei dati, un gigantesco data base aperto e distribuito, che contiene miliardi di dati granulari collegati tra loro, il cosiddetto web of data.
Il web dei dati ha conosciuto un’evoluzione incredibile in soli 10 anni: basti pensare che la sua rappresentazione grafica (la cosiddetta linked data cloud) mostra una certa conformazione nel 2007, cresce nel 2009, per poi assumerne e un’altra già ingigantita nel 2011, per poi crescere ancora nel 2014 fino ad arrivare all’ultima rappresentazione grafica del 2017 che dà il senso di quanto queste tecnologie siano evolute di quante istituzioni le abbiano adottate e di quanti dati siano oggi disponibili in formato aperto e collegato.
L’interesse dei Linked Open data è la loro intrinseca duplice valenza collegata innanzitutto ai due aggettivi linked e open. Il concetto di apertura dei dati è volta a favorire la trasparenza e la riusabilità da chiunque ne abbia interesse. Tale concetto si arricchisce del concetto di linked cioè di correlazione tra i dati medesimi.

Tim Berners-Lee enuncia quattro regole fondamentali per la realizzazione del semantic web (o web of data):

  1. Utilizzare URI per identificare le risorse;
  2. Rendere disponibile risorse identificate da URI secondo il protocollo HTTP in modo che possano essere raggiungibili da chiunque;
  3. Fornire, per ciascuna risorsa identificata da URI, delle informazioni utili a descriverla, secondo formalismi e tecnologie standard (RDF e SPARQL );
  4. Fornire, per ciascuna risorsa, collegamenti qualificati con altre risorse in modo da estendere le possibilità di conoscenza

Alla base dell’idea del web of data vi è la progressiva creazione di un database partecipato e distribuito secondo un modello relazionale in cui ciascun dato viene univocamente identificato da un URI dereferenziabile e in cui il collegamento (link) esprime esplicitamente una relazione concettuale.

L’utilizzo del linguaggio RDF e la disponibilità di ontologie, costituiscono la base tecnologica necessaria per la pubblicazione sul web di dati secondo il paradigma dei linked open data (LOD), ovvero dati in formato aperto e collegati tra di loro.
Tale modalità di pubblicazione consente di ottenere il massimo punteggio sulla base del sistema di rating definito da Tim Berners-Lee “le 5 stelle dei linked open data”, ove la prima stella è la più semplice e la quinta la più complessa da ottenere:
* rendere i propri dati disponibili sul web (in qualsiasi formato);
** rendere disponibile sul web le risorse come dati strutturati (per esempio, in excel anziché come scansione dell’immagine di una tabella;
*** scegliere formati non proprietari (per esempio, in formato csv invece che excel);
**** utilizzare URL per identificare gli oggetti, in modo che gli utenti possano puntare a questi oggetti;
***** collegare i propri dati a dati prodotti da altri in modo da definire un contesto (c.d. interlinking).

La scelta di pubblicare e collegare dati (e collezioni di dati) per costruire il web of data si accompagna alla necessità di evitare il rischio che tali operazioni possano provocare un appiattimento delle strutture di dati a discapito della loro stessa capacità espressiva. Per minimizzare tale rischio e far coesistere diversi sistemi di rappresentazione della conoscenza, è necessario utilizzare le ontologie.