COLLECT: Descrivere

Lezione 07 del corso di Digital Humanities e Data Management per i Beni Culturali (2024/2025)

Sebastian Barzaghi | sebastian.barzaghi2@unibo.it | https://orcid.org/0000-0002-0799-1527 | https://www.unibo.it/sitoweb/sebastian.barzaghi2/

Produzione, raccolta e analisi

Fonte: Gualandi, B., Caldoni, G., & Marino, M. (2022). Research Data Management: Data Lifecycle. Zenodo. https://doi.org/10.5281/zenodo.7249051.

Azioni principali: raccogliere o creare i dati, elaborare i dati per renderli utilizzabili (pulizia, combinazione, trasformazione, controllo qualità), analizzare i dati per generare risultati utili, produrre la documentazione dei dati e delle metodologie utilizzate.

Un dato è una fonte di conoscenza

Fonte: Noppe, N., Vanvelk, J., & Callens, N. (2023). The hands-on guide to research data management for KU Leuven researchers, students, and research support staff in the humanities and social sciences. Zenodo. https://doi.org/10.5281/zenodo.8010618.

I dati sono record fattuali raccolti, generati o riutilizzati come base di analisi, ragionamenti, discussioni o calcoli.

Vengono usati da studiosi e scienziati come strumenti per comprendere il mondo e generare conoscenza.

La ricerca umanistica è dominata da paradigmi tradizionali

Molti ricercatori usano come dati di ricerca fonti primarie, che spesso sono fisiche e raramente digitalizzate.

I sistemi semiotici delle discipline umanistiche tendono ad essere specifici, impliciti, individualistici, dati per scontato.

I dati sono difficilmente accessibili a causa di copyright stringenti e licenze inadatte alle dinamiche della ricerca contemporanea.

I dati culturali sono complessi e raramente documentati in modo da facilitarne l’integrazione, la comprensione e il riutilizzo da parte di altri.

Semplifichiamo

Un modello è un’astrazione

Fonte: Kučerová, H. (2018). The concept of model and conceptual model in information science. https://knihovnarevue-en.nkp.cz/archives/2018-2/reviewed-articles/the-concept-of-model-and-conceptual-model-in-information-science.

Una rappresentazione semplificata di qualcosa (un sistema, oggetto, fenomeno, ecc.).

Ne cattura le caratteristiche fondamentali, permettendo di descrivere, comprendere, analizzare, predire o interagire con quella cosa.

Es. una mappa, un'equazione, uno schema di metadati...

Cos’è la modellazione dei dati?

Fonte: Barzaghi, S., Heibi, I., Moretti, A., & Peroni, S. (2024). Developing Application Profiles for Enhancing Data and Workflows in Cultural Heritage Digitisation Processes. arXiv preprint arXiv:2404.12069. https://doi.org/10.48550/arXiv.2404.12069.

L’insieme di attività di rappresentazione formale di un segmento di realtà in modo tale da renderlo computabile.

I modelli di dati forniscono una struttura precisa che permette ai dati di essere trattati, compresi, e gestiti.

Es. creazione di database, definizione di schemi XML, sviluppo di ontologie, ecc.

Estrarre elementi dai dati osservati a partire da un’interpretazione

Tra i vari fattori che determinano lo sviluppo di un modello di dati, c’è anche il linguaggio.

In breve, un modello di dati traspone pattern presenti nel linguaggio naturale in una forma che possa essere processata e compresa dalle macchine.

Questo comporta l’individuazione di:

  • Classi: categorie di oggetti con proprietà e comportamenti simili (es. “Persona”);
  • Entità: individui appartenenti alle classi (es. “Tizio”);
  • Attributi: proprietà delle classi (e quindi anche delle entità) (es. età, altezza, ecc.);
  • Relazioni: rapporti logici e semantici tra classi (e quindi anche tra entità) (es. “conosce”).

Un esempio grossolano, giusto per capire

Neuromante, scritto da William Gibson e pubblicato nel 1984, è un libro di 271 pagine e di genere cyberpunk.

Individuiamo classi, entità, attributi e relazioni.

Un esempio grossolano, giusto per capire

Neuromante, scritto da William Gibson (una persona) e pubblicato nel 1984, è un libro di 271 pagine e di genere cyberpunk (un genere).

Individuiamo classi, entità, attributi e relazioni.

Un esempio grossolano, giusto per capire

  • Neuromante è un libro;
  • William Gibson è una persona;
  • cyberpunk è un genere;
  • Neuromante ha creatore William Gibson;
  • Neuromante ha data di pubblicazione “1984”;
  • Neuromante ha numero di pagine “271”;
  • Neuromante ha genere cyberpunk.

Strutture nascoste

Quanto abbiamo appena fatto lo possiamo vedere anche come una sorta di marcatura…

Fonte: https://basic-inf.github.io/2022-2023/chapters/08.pdf.

Annotazione (o codifica) del testo per definire esplicitamente i ruoli strutturali e semantici degli elementi di cui è costituito.

Un modo per rendere esplicito ciò che nel testo è implicito o congetturale.

Reso tramite un linguaggio di marcatura, un insieme di convenzioni usate per annotare un testo.

I linguaggi di marcatura sono definiti tramite XML

Fonte: Buzzoni, M. (2020). Towards the Construction of a Stemma. Handbook of Stemmatology: History, Methodology, Digital Approaches, 139-207. https://doi.org/10.1515/9783110684384-004.

L'eXtensive Markup Language (XML) è un metalinguaggio: un linguaggio usato per descrivere altri linguaggi (di marcatura).

Permette di specificare come la marcatura viene distinta dal testo, quale marcatura è permessa e quale è obbligatoria.

Basato su elementi e attributi (e altre cose, che però non vedremo).

Nella marcatura, un elemento è un termine che esprime la semantica del testo a cui si riferisce

Fonte: https://basic-inf.github.io/2022-2023/chapters/08.pdf.
Fonte: https://basic-inf.github.io/2022-2023/chapters/08.pdf.

Nella marcatura, un attributo è un’informazione aggiuntiva assegnata ad un elemento

Fonte: https://basic-inf.github.io/2022-2023/chapters/08.pdf.
Fonte: https://basic-inf.github.io/2022-2023/chapters/08.pdf.

Perché marcare un testo?

Quando interagiamo con un testo, percepiamo sia le informazioni linguistiche (contenuto) sia le meta-informazioni che otteniamo tramite la contestualizzazione e l’interpretazione (es. il corsivo può essere utilizzato per dare enfasi, cambiando completamente il significato della frase).

I computer però non colgono queste strutture nascoste: hanno bisogno di un meccanismo (il markup, appunto) che faccia emergere questo tipo di informazioni, così da poterle processare.

Il markup è adatto a fare questo perché separa in maniera esplicita il contenuto dal significato.

Esempio di modello di dati: Text Encoding Initiative

TEI è uno schema di codifica e un modello di dati standard, formulato come un’applicazione di XML, per descrivere oggetti e fenomeni testuali in ambito umanistico.

Obiettivo: contemplare tutta la serie dei fenomeni di interesse umanistico e trovare, per ciascuno di essi, un vocabolario unico al fine di arrivare ad una formalizzazione utile a normalizzare i criteri, le modalità e il lessico del markup, di fronte alla polisemia del linguaggio naturale.

Documentazione ufficiale: http://www.tei-c.org/guidelines.

Struttura di un documento TEI

Un testo codificato in TEI è costituito da almeno tre elementi:

  • un elemento TEI, contenente tutti gli altri;
  • un elemento teiHeader, contenente i metadati del documento;
  • un elemento text, contenente il corpo (body) del testo.
<TEI xmlns="http://www.tei-c.org/ns/1.0">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>
          TITOLO
        </title>
      </titleStmt>
      <publicationStmt>
        <p>
          INFORMAZIONI SULLA PUBBLICAZIONE
        </p>
      </publicationStmt>
      <sourceDesc>
        <p>
          INFORMAZIONI SULLA FONTE ORIGINALE
        </p>
      </sourceDesc>
    </fileDesc>
  </teiHeader>
  <text>
    <body>
      <p n="1">
        PARAGRAFO 1...
      </p>
      <p n="2">
        PARAGRAFO 2...
      </p>
    </body>
  </text>
</TEI>

Spazi semantici

La scienza fatta bene

Melanie Imming, Jon Tennant, & Ivo Grigorov. (2018). Stickers Open Science just science done right (IT). Zenodo. https://doi.org/10.5281/zenodo.2613332.

La Scienza Aperta è un insieme di movimenti e pratiche che mirano a rendere la conoscenza scientifica più trasparente, accessibile e riutilizzabile per tutti.

La FAIRificazione

Fonte: https://www.go-fair.org/fair-principles/fairification-process/.

Processo di trasformazione di dati non-FAIR in una loro versione FAIR.

Include la definizione di un modello semantico e la sua applicazione per collegare i dati tra loro.

Per fare questo, si utilizzano tecnologie legate al paradigma dei Linked Open Data (LOD).

Dati aperti e contestualizzati

Fonte: Bernard, C. (2019). Immersing evolving geographic divisions in the semantic Web (Doctoral dissertation, Université Grenoble Alpes). https://theses.hal.science/tel-02524361v1.

Dati semi-strutturati, pubblicati in formato aperto e descritti tramite modelli semantici.

Sono rappresentati tramite triple soggetto-predicato-oggetto su cui si basa il Resource Description Framework (RDF).

Esempio di modello di dati: RDF

Fonte: Bernard, C. (2019). Immersing evolving geographic divisions in the semantic Web (Doctoral dissertation, Université Grenoble Alpes). https://theses.hal.science/tel-02524361v1.

Resource Description framework: modello di dati standard che permette di rappresentare, descrivere, e pubblicare i dati sul Web in un formato accessibile e interpretabile dalle macchine tramite l'utilizzo di triple soggetto-predicato-oggetto.

L’unità minima nei LOD: la tripla RDF

Fonte: Jonathan Blaney, "Introduction to the Principles of Linked Open Data," Programming Historian 6 (2017), https://doi.org/10.46430/phen0068.

Costrutto astratto minimo di modellazione dei LOD.

  • Soggetto: un'entità (sempre identificata da un URI);
  • Predicato: una caratteristica del soggetto (sempre identificata da un URI);
  • Oggetto: un'entità (identificata da un URI) o un valore (letterale, numerico, temporale, ecc.).

Le triple si collegano tra loro, formando un grafo di dati.

Esempio di triple RDF

Fonte: Bernard, C. (2019). Immersing evolving geographic divisions in the semantic Web (Doctoral dissertation, Université Grenoble Alpes). https://theses.hal.science/tel-02524361v1.

Gli obiettivi: interoperabilità e riusabilità dei dati

Se abbiamo più dataset con licenza aperta, e descritti dagli stessi standard di metadati (cioé modellati nella stessa maniera), possiamo collegarli, effettuare più facilmente interrogazioni e analisi incrociate, integrazioni su larga scala, ecc.

In altre parole: interoperabilità e riusabilità!

Un paio di principi fondamentali

Utilizzare formati standard riconosciuti: i dati devono essere strutturati con standard riconosciuti per permettere l’elaborazione coerente da parte delle macchine (RDF, appunto, e modelli semantici, come ontologie e vocabolari controllati).

Riferimento univoco alle entità: i dati devono essere identificati univocamente e in maniera persistente, in modo da poterli disambiguare tra tutti i dataset (tramite URI).

Pubblicare i dati apertamente: i dati devono essere accessibili con licenze aperte, e in formati che non richiedano software proprietario.

Usare URI per dare nomi alle cose

Un URI è un identificatore unico per una risorsa.

Diversamente da un URL, non è necessario che un URI punti fisicamente a una risorsa, ma deve essere comunque unico.

Esempi di URI che disambiguano entità:

5 ★ Open Data

Link: https://5stardata.info/en/.

Schema di pubblicazione dei dati in formato LOD:

    1. I dati sono disponibili sul Web con una licenza aperta (es. Creative Commons);
    1. I dati sono in un formato strutturato e leggibile dalle macchine (es. Excel);
    1. I dati sono in un formato non proprietario (es. CSV, XML, RDF, ecc.);
    1. I dati sono identificati in maniera persistente ed univoca sul Web tramite URI;
    1. I dati sono collegati ad altri dati e risorse esterne per fornire ulteriore contesto.

Esempio: Wikidata

Link: https://www.wikidata.org.

I dati sono resi disponibili sotto la licenza Creative Commons CC0.

I dati sono modellati secondo un modello proprio di Wikidata, ma sono serviti anche in RDF.

I dati sono identificati da URI.

I dati sono collegati tra di loro e con altri dati, dataset, database, pagine Web.

Un piccolo limite di RDF in quanto modello di dati

Dice cosa fare, ma non dice:

  • Come scrivere triple: per questo ci sono le serializzazioni (es. RDF/XML, Turtle, ecc.) che specificano la sintassi da usare;
  • Come esprimere entità e proprietà: per questo esistono i modelli semantici (es. vocabolari controllati, ontologie, ecc.) che specificano il lessico da usare.

Esempio di modello semantico: Tassonomia, tesauro, ecc.

Vocabolari controllati nei quali sono presenti anche relazioni di varia natura, es. gerarchiche, associative (sinonimia, iperonimia, iponimia, olonimia, meronimia), ecc.

Esempio di tassonomia: https://vocabs.dariah.eu/tadirah/en/.

Esempio di tesauro: https://www.getty.edu/research/tools/vocabularies/aat/.

Catalogo di vocabolari controllati: https://bartoc.org/.

Esempio di modello semantico: Ontologia

Modello di dati che descrive un particolare dominio di conoscenza, definendo una terminologia comune per entità, proprietà (relazioni e attributi), e vincoli logici e regole di inferenza.

Esempi: https://w3id.org/dharc/ontology/chad-ap, https://w3id.org/spar/cito, http://www.cidoc-crm.org/cidoc-crm

Catalogo di ontologie: https://lov.linkeddata.es/dataset/lov/.

Fine

Lezione 07 del corso di Digital Humanities e Data Management per i Beni Culturali (2024/2025)

Sebastian Barzaghi | sebastian.barzaghi2@unibo.it | https://orcid.org/0000-0002-0799-1527 | https://www.unibo.it/sitoweb/sebastian.barzaghi2/