
Azioni principali: raccogliere o creare i dati, elaborare i dati per renderli utilizzabili (pulizia, combinazione, trasformazione, controllo qualità), analizzare i dati per generare risultati utili, produrre la documentazione dei dati e delle metodologie utilizzate.

Nel 2016 sono stati pubblicati i Principi FAIR per la gestione e la stewardship dei dati scientifici, volti a migliorare una serie di caratteristiche fondamentali per la gestione scientifica delle risorse digitali.
La capacità dei sistemi computazionali di trovare, accedere, interagire e riutilizzare i dati con un intervento umano minimo o nullo.
È importante perché gli esseri umani si affidano sempre più a strumenti computazionali per gestire i dati a causa dell’aumento del loro volume, complessità e velocità di creazione.
Il primo passo per (ri)utilizzare i dati è trovarli!
Per essere reperibile, i dati dovrebbero essere identificati in maniera univoca e persistente.
I dati sono reperibili tramite i metadati e identificabili e localizzabili tramite un meccanismo di identificazione standard.
Gli identificatori persistenti (PID) sono importanti perché identificano in modo univoco e persistente i dati e ne facilitano la citazione.
Un esempio di PID è un Digital Object Identifier (DOI). Quando depositi i dati in un archivio, assicurati di selezionare un archivio che assegni un identificatore persistente (ad esempio Zenodo).
I metadati che descrivono i dati ne supportano la reperibilità, la citazione e il riutilizzo, poiché forniscono un contesto importante per la loro interpretazione e rendono più facile per le macchine eseguire analisi automatizzate.
Segui schemi di metadati standard, generali come Dublin Core, o specifici per disciplina.
Se il primo passo per (ri)utilizzare i dati è trovarli, il secondo è sapere come e a quali condizioni possono essere accessibili.
I dati sono accessibili quando possono essere sempre recuperati online sia dalle macchine che dagli esseri umani:
Se i dati non sono aperti, lo devono essere almeno i metadati che li descrivono.
Non tutti i dati devono essere resi aperti per essere FAIR! Se l’accesso è consentito, i dati devono essere recuperabili senza la necessità di protocolli specializzati.
Inoltre, anche se il contenuto completo non è reso completamente disponibile, i dati devono essere il più possibile reperibili, in un luogo sicuro a lungo termine.
Dovresti cercare un archivio (generico o specializzato) che faccia quanto segue:
I dati di solito devono essere integrati con altri dati e devono essere interoperabili con applicazioni o flussi di lavoro per favorirne l’analisi, l’archiviazione e l’elaborazione.
I dati possono essere interoperabili solo se:
I (meta)dati devono quindi essere sintatticamente analizzabili e semanticamente comprensibili dalle macchine.
Ottimizzare il riutilizzo dei dati è l’obiettivo finale, e - per raggiungerlo - i metadati e i dati dovrebbero essere ben descritti in modo che possano essere utilizzati, replicati e combinati in contesti differenti.
Affinché i dati siano riutilizzabili, devono:
La documentazione dei dati dovrebbe fornire informazioni chiare su:
metadati, identificatori);repository, condizioni d'accesso);formati, ontologie);licenze, documentazione).Il processo in cui vengono raccolti o creati i dati.
Pone anche le basi per la qualità sia dei dati che della loro documentazione.
È importante registrare le decisioni prese riguardo:
.txt) o Markdown (.md);Stabilisci la struttura delle cartelle:
Documenta i dettagli nei vari README e/o nel DMP.
Esempi: https://dmeg.cessda.eu/Data-Management-Expert-Guide/2.-Organise-Document/File-naming-and-folder-structure, https://libguides.graduateinstitute.ch/rdm/folders, https://datamanagement.hms.harvard.edu/plan-design/directory-structure.
Stabilisci il sistema di nomenclatura dei file:
YYYY-MM-DD);/, \, :, *, ?, ", <, >, |);Documenta i dettagli nei vari README e/o nel DMP.
[ProjectName]_[DocumentType]_[Date]_[Version].[Extension]
ClimateStudy_Report_20240522_v1.0.docx

Conserva almeno tre (3) copie dei tuoi dati, archiviando le copie di backup su due (2) supporti di archiviazione differenti (es. computer, chiavetta, ecc.), con una (1) di esse situata su un servizio esterno (es. OneDrive, GitHub, ecc.).
.csv);Contiene definizioni dei simboli, abbreviazioni, variabili, intestazioni delle colonne, unità di misura, e formati dei dati, e documenta altri aspetti metodologici, come il trattamento dei dati mancanti.
Esempio: https://www.nycja.org/assets/Example-Court-Notification-Codebook.pdf
Leggendo i principi FAIR, si capisce quanto sia fondamentale la disponibilità di metadati leggibili dalle macchine.
Sono le informazioni contestuali che descrivono i dati, di solito più strutturate del resto della documentazione, in quanto conformi a standard stabiliti e strutturati.
Strutture concettuali che specificano quali metadati (chiamati elementi) utilizzare e secondo quali regole.
In particolare, specificano:
È buona pratica utilizzare schemi di metadati standard internazionali per organizzare e descrivere i dati in modo strutturato.
Liste utili:
Dublin Core è composto da 15 elementi “core”. È uno degli schemi di metadati più semplici e più utilizzati, pensato per descrivere risorse Web ma applicabile anche a risorse fisiche.
Nel standard sono incluse definizioni di ciascun elemento, che stabiliscono quali tipi di informazioni devono essere registrati, dove e come.
Documentazione ufficiale: https://www.dublincore.org/specifications/dublin-core/dcmi-terms/
Gli schemi di codifica sono insiemi di regole che specificano la sintassi e il lessico utilizzati nei metadati, garantendo coerenza e interoperabilità nell’inserimento e nell’interpretazione dei dati.
2024-11-24);Stabiliscono come formattare i dati in un modo standardizzato e coerente, in modo da favorire la ocerenza dei dati, garantire la loro interoperabilità, e facilitarne il trattamento automatico.
Esempio: ISO 8601 per una rappresentazione standardizzata di date, orari e combinazioni di data e ora.
2024-11-24;14:30:00;2024-11-24T14:30:00.Elenchi strutturati di termini o entità che vengono utilizzati come riferimenti autoritativi per garantire l’accuratezza e la coerenza nelle informazioni.
Vengono utilizzati per evitare ambiguità e variazioni nei dati, specialmente quando ci sono diverse rappresentazioni per lo stesso concetto.
Esempio: VIAF per controllare la rappresentazione dei nomi di persona, organizzazione, luogo, o opera.
Leopardi, Giacomo, 1798-1837 (http://viaf.org/viaf/12311353);Buonarroti, Michelangelo, 1475-1564 (http://viaf.org/viaf/24585191).Lista strutturata e normativa di termini, organizzati in un esplicito sistema di relazioni.
Metodo per la descrizione coerente dei dati e per controllare i possibili valori applicabili ad un elemento.
Lista esemplare di vocabolari controllati: https://bartoc.org/
Affinché i metodi e gli strumenti computazionali funzionino e i dati possano avere un utilizzo più generalizzato, è necessario che ci siano accordi, contratti sociali e protocolli condivisi che ne consentano l’interoperabilità (e quindi il riuso).
Poiché trattiamo di principi FAIR, inevitabilmente dobbiamo affrontare le nozioni di Linked (Open) Data e Resource Description Framework (RDF).
Questo significa essenzialmente che non possiamo parlare di metadati azionabili dalle macchine senza parlare di modelli semantici e ontologie (ma sarà per la prossima volta).