1988, Cape Canaveral, 2 settimane a Natale.
La NASA lancia la missione Mars Climate Orbiter, con l'obiettivo di inserire una sonda nell'orbita di Marte per effettuare investigazioni scientifiche sul clima del pianeta rosso e per fare da ponte radio con la Terra.
Il 23 settembre 1999, dopo 283 giorni di viaggio nello spazio, la sonda, dal valore di 125 milioni di dollari, eseguì una manovra ad alta quota nell'orbita di Marte con 49 secondi di anticipo: in altre parole, non stava seguendo la traiettoria prevista.
Alle 2:27 del mattino, la sonda scompare dietro Marte per non riapparire mai più.
Una settimana dopo la perdita della sonda, la NASA rilascia una dichiarazione, attribuendo l'incidente a un errore legato al sistema usato per ricalcolare la posizione della sonda nello spazio.
Tra la sonda e la NASA c'era uno scambio continuo di dati, che permetteva il ricalcolo della traiettoria della sonda rispetto all'obiettivo finale.
La Lockheed Martin, azienda incaricata di realizzare la sonda e alcuni strumenti usati dai tecnici per gestirla, aveva adottato la libbra-forza per secondo come unità di misura per il ricalcolo.
La NASA, invece, utilizzava il Newton per secondo.
Senza le unità di misura, i dati numerici non hanno significato, e assumere erroneamente determinate unità può portare a gravi problemi.
I comandi di navigazione dovevano essere codificati correttamente nelle unità appropriate per essere compresi da entrambi i sistemi.

Linguaggio caratterizzato da ricchezza espressiva, ambiguità e ridondanza, per cui un qualsiasi costrutto formulato è potenzialmente polisemico.
Esempio: "Sposto il cavallo".

Linguaggio caratterizzato da ricchezza espressiva, ambiguità e ridondanza, per cui un qualsiasi costrutto formulato è potenzialmente polisemico.
Esempio: "Sposto il cavallo".

Linguaggio per formulare costrutti dotati di significato in modo preciso e non ambiguo.
Per comunicare con un computer, l'ambiguità del linguaggio naturale è un problema (servono altre informazioni relative al contesto e alla pragmatica che un computer, di base, non recepisce), quindi vengono usati linguaggi formali.
{a, b, c} (un alfabeto costituito da tre simboli: a, b e c);G → a ∣ b ∣ c (G è una grammatica che stabilisce che possiamo solo usare a, b o c separatamente);a: "rosso" ; b: "blu" ; c: "verde" (ad ogni simbolo ed eventuali combinazioni viene associato un significato).Tecnica con la quale un dato viene rappresentato mediante un definito insieme di simboli.
Con tali simboli è possibile formare sequenze che possono essere messe in relazione biunivoca con gli elementi costituenti l’informazione.
Esempi:
La codifica più comunemente adottata oggi per la rappresentazione dei numeri interi.
Il termine decimale indica il numero di simboli utilizzati (cifre): {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}.
Il termine posizionale indica che il significato dei simboli cambia in base alla loro posizione. Il numero rappresentato da ogni simbolo è moltiplicato per una potenza di 10 (il numero di simboli che cotituiscono l’alfabeto, la base).
Con n cifre è possibile rappresentare 10n numeri naturali: da 0 a 10n-1.
Es. con 4 cifre possiamo rappresentare 104 numeri (da 0 a 9999).
Il significato di ogni simbolo dipende dalla posizione di questo all’interno della sequenza di simboli creata in base alla loro combinazione.
2 X 103 + 4 X 102 + 6 X 101 + 5 X 100
Che equivale a 2 migliaia + 4 centinaia + 6 decine + 5 unità.
Il sistema di numerazione romano!
Si tratta di un sistema additivo basato su:
Esempi:
VIII = 5 + 1 + 1 + 1 = 8;IV = 5 - 1 = 4."Bistabile" indica qualcosa che può assumere nel tempo solo due stati stabili (es. interruttore). Nel caso del computer, si tratta della presenza / assenza di corrente elettrica.
Per ogni tipo di informazione (numerica, testuale, grafica, sonora, ecc.) che vogliamo trattare con un computer, dobbiamo individuare una codifica che si avvalga esclusivamente di questa caratteristica.
Alfabeto: {0, 1}.
Bit: cifra binaria, ovvero uno dei due simboli del sistema numerico binario, classicamente chiamati zero (0) e uno (1).
Allo zero sono spesso associate le idee di “chiuso”, “spento”, “assente”, “falso”.
All’uno sono spesso associate le idee di “aperto”, “acceso”, “presente”, “vero”.
Solo 2 diverse informazioni:
Proviamo a rappresentare le stagioni con una codifica binaria. Le stagioni sono 4, quindi ci servono 2 bit (22 sequenze possibili).
Mettendo insieme più bit possiamo rappresentare più informazioni e quindi più complessità.
2 bit : 4 (22) sequenze possibili: 00, 01, 10, 11.
3 bit: 8 (23) sequenze possibili: 000, 001, 010, 100, 011, 101, 110, 111.
…
Con n bit possiamo rappresentare 2n sequenze: da 0 a 2n-1.
8 bit costituiscono un byte.
Moltiplicare ogni bit per il suo peso (attenzione a partire da 2n-1!) e sommare le potenze.
10100
1 X 24 + 0 X 23 + 1 X 22 + 0 X 21 + 0 X 20
= 1 X 16 + 0 X 8 + 1 X 4 + 0 X 2 + 0 X 1
= 16 + 0 + 4 + 0 + 0
= 20
Dividere il numero per 2 ripetutamente fino ad arrivare a zero e disporre i resti in ordine inverso.
12
12 / 2 → resto 0 = 6 / 2 → resto 0 = 3 / 2 → resto 1 = 1 / 2 → resto 1
Prendiamo i resti dall’ultimo al primo:
= 1100
Come digitalizziamo invece la lettera a?
L’alfabeto anglosassone ha circa 120 caratteri (maiuscole + minuscole + numeri + interpunzione + …)
Quanti bit ci servono per coprirli tutti?
Bastano 7 bit = 27 = 128 sequenze.
Codifica secondo la quale ogni carattere è rappresentato da una sequenza di 7 bit.
Esempi:
A → 1000001;B → 1000010;BABA → 1000010 1000001 1000010 1000001.Esempi:
CAT → 01000011 01000001 01010100;cat → 01100011 01100001 01110100.
La digitalizzazione - cioé codificare contenuto informativo in binario - è solo metà del problema.
Dobbiamo anche codificare le caratteristiche del contenuto, cioé contestualizzarlo (“specificare le unità di misura”, nel caso della sonda spaziale).



I metadati possono essere visti come l'insieme di tutto ciò che si può dire su un dato (oggetto informativo) in un determinato momento, a qualsiasi livello di aggregazione.

I metadati dovrebbero focalizzarsi su:
L’applicazione dei metadati in un caso concreto, però, è complessa: da dove partiamo? Come descriviamo i dati in modo tale da renderli consistenti e gestibili da me e altre persone? Come lo facciamo in una maniera scalabile?
Fortunatamente, esistono gli schemi di metadati.
Strutture concettuali che specificano quali metadati utilizzare e secondo quali regole.
Stabiliscono un significato unico e non ambiguo per i metadati, costituendo una sorta di lingua semplificata comune per caratterizzare i dati.
Per farlo, usiamo una serie di metadati come:
I termini, molto comuni, li abbiamo decisi noi.
Volendo, li possiamo ri-utilizzare per descrivere anche altri libri.
Abbiamo creato uno schema di metadati per i libri.
Schema di metadati per descrivere risorse pubblicate sul Web.
Include quindici elementi (poi estesi ulteriormente) ritenuti fondamentali.
Una tendenza in aumento potrebbe essere dovuta a un numero maggiore di rapimenti, ma anche a un numero maggiore di notizie in generale o a una maggiore attenzione dei media verso il fenomeno.
Il problema maggiore è l’assunzione che un singolo evento o luogo nel database corrisponda a un singolo rapimento.
È molto probabile che più rapporti di notizie nel database facciano riferimento allo stesso evento.
Di conseguenza, l’articolo è stato aggiornato, precisando: “Questo post dovrebbe fare riferimento ai rapporti dei media sui rapimenti, non ai rapimenti stessi”.
Il giornalista di FiveThirtyEight ha preso i dati nel database GDELT per ciò che erano, senza considerare come i dati vengano raccolti e cosa rappresenta ogni record nel database.
Questa è un’informazione cruciale sui dati (= metadati) per interpretare correttamente le informazioni.