
Azioni principali: raccogliere o creare i dati, elaborare i dati per renderli utilizzabili (pulizia, combinazione, trasformazione, controllo qualità), analizzare i dati per generare risultati utili, produrre la documentazione dei dati e delle metodologie utilizzate.
Trovare o creare dei dati è una cosa, ma capirli è un’altra.
Attraverso l’elaborazione di questi dati possiamo cercare di fornirgli un contesto e determinarne il significato.
Però, anche la più semplice interrogazione richiede che abbiamo una certa comprensione di ciò che c’è in quel dataset, capire se si tratta di “dati buoni”.
“L’appuntamento con il Dott. Watt è martedì alle 14:30 presso il centro medico di Heslington Lane.”
Questo testo contiene i seguenti campi di dati:
Se volessimo registrare gli appuntamenti in un sistema informatico, dovremmo utilizzare campi separati per questi dati — ad esempio, colonne separate in una tabella; elementi e attributi in TEI; classi, proprietà ed entità in RDF; ecc.
I sistemi informatici e i software sbagliano a leggere i nostri dati, se questi campi non sono separati bene (cioé come ne abbiamo veramente bisogno), oppure se i datatype (stringa, numero, data, booleano, ecc.) sono errati (es. una data che viene riconosciuta come una stringa, oppure una stringa riconosciuta come un numero).
Perché un software possa analizzare correttamente i dati, questi devono essere formattati in modo che il programma possa interpretarli (essere cioé di qualità).
Se i dati non sono di qualità, non sarà possibile eseguire operazioni come ordinare, sommare, calcolare medie, eseguire operazioni di NLP, ecc.
… per essere compresi da te in futuro.
… per essere leggibili dalle macchine (Interoperable secondo FAIR).
… per essere compresi dagli altri (esseri umani e macchine) (Reusable secondo FAIR).
Colonne o altri campi potrebbero contenere una miscela di testo e dati numerici, alcune righe potrebbero avere dati mancanti, oppure l’unione di due dataset separati è ostacolata dai nomi dei campi che non corrispondono esattamente.
Dobbiamo avere i dati in un formato utile per le nostre necessità: se stiamo analizzando o visualizzando dati, quali informazioni (e tipi di dati) richiede quell’analisi o visualizzazione?
L'80% del lavoro sui dati è dedicato al processo di pulizia dei dati e alla loro preparazione per ulteriori manipolazioni e analisi.
La pulizia e la preparazione dei dati sono operazioni continue ed iterative.
Si tratta di garantire che i tuoi dati siano validati e trattabili come vorremmo.
Se abbiamo un campo contenente date “vaghe” — date contenenti annotazioni di testo (ad esempio c.1810 o 1990-1997), potremmo volere invece delle date leggibili dalla macchina (ad esempio 1810, 1990, ecc.).
Questo potrebbe significare perdere alcune informazioni e sfumature dai dati, e dovremo tenerne conto nell’analisi; ma almeno avremo dati parsabili dalla macchina che potremo analizzare in modo efficace.
Ogni valore appartiene a una variabile e a un’osservazione.
Ogni variabile forma una colonna.
Ogni osservazione forma una riga.



Può essere riassunta in una serie di attività:
Fai sempre una copia prima di apportare modifiche.
Esegui il backup dei file.
Tieni traccia di tutti i passaggi.
Salva i tuoi file in codifiche permissive e largamente utilizzate, come UTF-8.
Documenta tutto il necessario per capire cosa c’è nel dataset e come utilizzarlo.
Considera di indicare:
Inserimento di più di un tipo di informazione in una cella (es. commenti, unità di misura, metadati, ecc.).
Aggiungi le informazioni aggiuntive al titolo della colonna o in una colonna separata.
Aggiungi i metadati in un documento separato.
Es. evidenziare celle, righe o colonne che dovrebbero essere escluse da un'analisi; lasciare righe vuote per indicare separazioni nei dati, ecc.
Aggiungi le unità al titolo della colonna o in una colonna separata.
Aggiungi le informazioni in una colonna separata.
Aggiungi i metadati in un documento separato.
Es. più di una tabella o scheda all'interno di un singolo foglio di calcolo.
Se possibile, combina tutto in una tabella unica o mantieni ogni tabella in un file separato.
Se possibile, evita caratteri speciali almeno nelle intestazioni delle colonne: / \ : * . ? ‘ < > [ ] ( ) & $ æ Æ ...
Evita sempre di utilizzare spazi nei titoli delle colonne: invece, utilizza underscore (_) o CamelCase (es. TitoloPrincipale).
,, ;, /, ecc.) nei dati stessi;In un’eventuale eliminazione dei dati includi:
Sono tutte interpretazioni: considera sempre molto attentamente se un’osservazione o una variabile debbano essere eliminate o meno!
Usa un metodo coerente che sia compatibile e che non causi errori (come lasciare la cella vuota).
Considera che:
) o tabs (/) sono usati come delimitatori;NA e NULL sono valori nulli ragionevoli.Verifica:
Utilizza una licenza aperta per far sapere agli altri esattamente cosa possono e non possono fare con i dati (es. Creative Commons Zero (CC0)).
Utilizza formati aperti per rendere i dati interoperabili (es. CSV), quando possibile.
Considera di condividere i tuoi dati su GitHub e/o di pubblicarli su un repository (es. Zenodo, Figshare, ecc.) per renderli visibili, accessibili, e versionati.