
Azioni principali: raccogliere o creare i dati, elaborare i dati per renderli utilizzabili (pulizia, combinazione, trasformazione, controllo qualità), analizzare i dati per generare risultati utili, produrre la documentazione dei dati e delle metodologie utilizzate.

I dati sono record fattuali raccolti, generati o riutilizzati come base di analisi, ragionamenti, discussioni o calcoli.
Vengono usati da studiosi e scienziati come strumenti per comprendere il mondo e generare conoscenza.
Molti ricercatori usano come dati di ricerca fonti primarie, che spesso sono fisiche e raramente digitalizzate.
I sistemi semiotici delle discipline umanistiche tendono ad essere specifici, impliciti, individualistici, dati per scontato.
I dati sono difficilmente accessibili a causa di copyright stringenti e licenze inadatte alle dinamiche della ricerca contemporanea.
I dati culturali sono complessi e raramente documentati in modo da facilitarne l’integrazione, la comprensione e il riutilizzo da parte di altri.

Una rappresentazione semplificata di qualcosa (un sistema, oggetto, fenomeno, ecc.).
Ne cattura le caratteristiche fondamentali, permettendo di descrivere, comprendere, analizzare, predire o interagire con quella cosa.
Es. una mappa, un'equazione, uno schema di metadati...

L’insieme di attività di rappresentazione formale di un segmento di realtà in modo tale da renderlo computabile.
I modelli di dati forniscono una struttura precisa che permette ai dati di essere trattati, compresi, e gestiti.
Es. creazione di database, definizione di schemi XML, sviluppo di ontologie, ecc.
Tra i vari fattori che determinano lo sviluppo di un modello di dati, c’è anche il linguaggio.
In breve, un modello di dati traspone pattern presenti nel linguaggio naturale in una forma che possa essere processata e compresa dalle macchine.
Questo comporta l’individuazione di:
Neuromante, scritto da William Gibson e pubblicato nel 1984, è un libro di 271 pagine e di genere cyberpunk.
Individuiamo classi, entità, attributi e relazioni.
Neuromante, scritto da William Gibson (una persona) e pubblicato nel 1984, è un libro di 271 pagine e di genere cyberpunk (un genere).
Individuiamo classi, entità, attributi e relazioni.
Annotazione (o codifica) del testo per definire esplicitamente i ruoli strutturali e semantici degli elementi di cui è costituito.
Un modo per rendere esplicito ciò che nel testo è implicito o congetturale.
Reso tramite un linguaggio di marcatura, un insieme di convenzioni usate per annotare un testo.

L'eXtensive Markup Language (XML) è un metalinguaggio: un linguaggio usato per descrivere altri linguaggi (di marcatura).
Permette di specificare come la marcatura viene distinta dal testo, quale marcatura è permessa e quale è obbligatoria.
Basato su elementi e attributi (e altre cose, che però non vedremo).


Quando interagiamo con un testo, percepiamo sia le informazioni linguistiche (contenuto) sia le meta-informazioni che otteniamo tramite la contestualizzazione e l’interpretazione (es. il corsivo può essere utilizzato per dare enfasi, cambiando completamente il significato della frase).
I computer però non colgono queste strutture nascoste: hanno bisogno di un meccanismo (il markup, appunto) che faccia emergere questo tipo di informazioni, così da poterle processare.
Il markup è adatto a fare questo perché separa in maniera esplicita il contenuto dal significato.
TEI è uno schema di codifica e un modello di dati standard, formulato come un’applicazione di XML, per descrivere oggetti e fenomeni testuali in ambito umanistico.
Obiettivo: contemplare tutta la serie dei fenomeni di interesse umanistico e trovare, per ciascuno di essi, un vocabolario unico al fine di arrivare ad una formalizzazione utile a normalizzare i criteri, le modalità e il lessico del markup, di fronte alla polisemia del linguaggio naturale.
Documentazione ufficiale: http://www.tei-c.org/guidelines.
Un testo codificato in TEI è costituito da almeno tre elementi:
TEI, contenente tutti gli altri;teiHeader, contenente i metadati del documento;text, contenente il corpo (body) del testo.<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<title>
TITOLO
</title>
</titleStmt>
<publicationStmt>
<p>
INFORMAZIONI SULLA PUBBLICAZIONE
</p>
</publicationStmt>
<sourceDesc>
<p>
INFORMAZIONI SULLA FONTE ORIGINALE
</p>
</sourceDesc>
</fileDesc>
</teiHeader>
<text>
<body>
<p n="1">
PARAGRAFO 1...
</p>
<p n="2">
PARAGRAFO 2...
</p>
</body>
</text>
</TEI>

La Scienza Aperta è un insieme di movimenti e pratiche che mirano a rendere la conoscenza scientifica più trasparente, accessibile e riutilizzabile per tutti.
Processo di trasformazione di dati non-FAIR in una loro versione FAIR.
Include la definizione di un modello semantico e la sua applicazione per collegare i dati tra loro.
Per fare questo, si utilizzano tecnologie legate al paradigma dei Linked Open Data (LOD).

Dati semi-strutturati, pubblicati in formato aperto e descritti tramite modelli semantici.
Sono rappresentati tramite triple soggetto-predicato-oggetto su cui si basa il Resource Description Framework (RDF).

Resource Description framework: modello di dati standard che permette di rappresentare, descrivere, e pubblicare i dati sul Web in un formato accessibile e interpretabile dalle macchine tramite l'utilizzo di triple soggetto-predicato-oggetto.

Costrutto astratto minimo di modellazione dei LOD.
Le triple si collegano tra loro, formando un grafo di dati.

Se abbiamo più dataset con licenza aperta, e descritti dagli stessi standard di metadati (cioé modellati nella stessa maniera), possiamo collegarli, effettuare più facilmente interrogazioni e analisi incrociate, integrazioni su larga scala, ecc.
In altre parole: interoperabilità e riusabilità!
Utilizzare formati standard riconosciuti: i dati devono essere strutturati con standard riconosciuti per permettere l’elaborazione coerente da parte delle macchine (RDF, appunto, e modelli semantici, come ontologie e vocabolari controllati).
Riferimento univoco alle entità: i dati devono essere identificati univocamente e in maniera persistente, in modo da poterli disambiguare tra tutti i dataset (tramite URI).
Pubblicare i dati apertamente: i dati devono essere accessibili con licenze aperte, e in formati che non richiedano software proprietario.
Un URI è un identificatore unico per una risorsa.
Diversamente da un URL, non è necessario che un URI punti fisicamente a una risorsa, ma deve essere comunque unico.
Esempi di URI che disambiguano entità:
Link: https://5stardata.info/en/.
Schema di pubblicazione dei dati in formato LOD:
Link: https://www.wikidata.org.
I dati sono resi disponibili sotto la licenza Creative Commons CC0.
I dati sono modellati secondo un modello proprio di Wikidata, ma sono serviti anche in RDF.
I dati sono identificati da URI.
I dati sono collegati tra di loro e con altri dati, dataset, database, pagine Web.
Dice cosa fare, ma non dice:
Vocabolari controllati nei quali sono presenti anche relazioni di varia natura, es. gerarchiche, associative (sinonimia, iperonimia, iponimia, olonimia, meronimia), ecc.
Esempio di tassonomia: https://vocabs.dariah.eu/tadirah/en/.
Esempio di tesauro: https://www.getty.edu/research/tools/vocabularies/aat/.
Catalogo di vocabolari controllati: https://bartoc.org/.
Modello di dati che descrive un particolare dominio di conoscenza, definendo una terminologia comune per entità, proprietà (relazioni e attributi), e vincoli logici e regole di inferenza.
Esempi: https://w3id.org/dharc/ontology/chad-ap, https://w3id.org/spar/cito, http://www.cidoc-crm.org/cidoc-crm…
Catalogo di ontologie: https://lov.linkeddata.es/dataset/lov/.