Standardizzazione del valori dei campi¶
L'utilizzo di classificazioni, vocabolari e più in generale di metadati "standard" permette di combinare tra loro dati provenienti da fonti differenti, abilitandone in questo modo l'interoperabilità.
Vanno considerati tecnicamente corretti quei dati che:
- usano la stessa codifica e normalizzazione per lo stesso tipo di dati, pubblicati in diversi dataset di un catalogo, per esempio, gli indirizzi sono sempre pubblicati con la stessa struttura, tipo, formato, in qualsiasi dataset e i dati geografici hanno lo stesso sistema di coordinate;
- la codifica e la standardizzazione utilizzate si basano su alcuni standard comuni proposti e utilizzati da altre organizzazioni nazionali o internazionali come ad eempio EUROSTAT o ISTAT.
Si raccomanda:
- di utilizzare vocabolari comunemente usati, per standardizzare la struttura e i valori delle informazioni pubblicate nei dataset1;
- nel caso in cui non si utilizzino vocabolari di riferimento, il valore assegnato ad un dato attributo deve essere unico e coerente in tutta la tabella; in altre parole, se si sceglie di usare il valore "Barcellona" per riferirsi a questa città, non si dovrebbe usare ad esempio il valore "Città di Barcellona".
Esempio 1¶
Un caso che si presenta di frequente è quando abbiamo un dato in cui in una colonna compare la dimensione territoriale. Abbiamo ad esempio una colonna "Comune" oppure "Provincia" o "Regione". Spesso ci si limita a valorizzare il campo con la descrizione di quel Comune, quella Provincia o quella Regione, ma diventa così molto facile utilizzare descrizioni non standard. Ad esempio "Reggio Emilia" al posto di "Reggio nell'Emilia" o "Reggio Calabria" al posto di "Reggio di Calabria". Generando peraltro ulteriore confusione sul fatto che andrebbe specificato se ci si sta riferendo al comune o alla provincia "Reggio di Calabria" . Per ovviare a questo problema è possibile introdurre nel nostro dataset una nuova colonna con il codice standard Istat di quella provincia o di quel comune.
Cattiva prassi
territorio | popolazione_residente_al_31_dicembre |
---|---|
Reggio nell'Emilia | 524856 |
Reggio di Calabria | 523791 |
Napoli | 2986745 |
Buona prassi
territorio | codice_territorio | popolazione_residente_al_31_dicembre |
---|---|---|
Reggio nell'Emilia | 35 | 524856 |
Reggio di Calabria | 80 | 523791 |
Napoli | 63 | 2986745 |
o, nel caso ci si sta riferendo a dati a livello comunale
Buona prassi
territorio | codice_territorio | popolazione_residente_al_31_dicembre |
---|---|---|
Reggio nell'Emilia | 35033 | 170601 |
Reggio di Calabria | 80063 | 173026 |
Napoli | 63049 | 922094 |
Tutti i dati hanno poi un "tempo" a cui si riferiscono. Poichè il dato sulla popolazione residente è un dato annuale, diventa importante l'inserimento di una colonna che specifichi l'anno di riferimento. La tabella con i dati comunali diventa coì la seguente
Buona prassi
territorio | codice_territorio | popolazione_residente_al_31_dicembre | anno |
---|---|---|---|
Reggio nell'Emilia | 35033 | 170601 | 2020 |
Reggio di Calabria | 80063 | 173026 | 2020 |
Napoli | 63049 | 922094 | 2020 |
Esempio 2¶
Un altro esempio lo possiamo avere con la standardizzazione del nome e del codice dell'attività economica. Nell'esempio che segue è stato introdotto nella tabella il codice NACE delle attività economiche così come descritte da EUROSTAT
Cattiva prassi
marca | attivita_vendite |
---|---|
chevrolet | Vendite di auto |
buick | Vendita di veicoli |
plymouth | Vendita |
Buona prassi
marca | codice_venditore | attivita_vendite |
---|---|---|
chevrolet | 45.11 | Vendita di automobili e veicoli a motore leggeri |
buick | 45.11 | Vendita di automobili e veicoli a motore leggeri |
plymouth | 45.19 | Vendita di altri veicoli a motore |
I valori del campo codice_venditore
sono quelli corrispondenti alla classificazione statistica EUROSTAT delle attività economiche della Comunità Europea2 per la standardizzazione delle attività economiche dei concessionari di veicoli.
-
Lo standard AENOR 137801:2015 include un elenco di vocabolari di riferimento: http://vocab.linkeddata.es/datosabiertos/ ↩
-
NACE Rev. 2 ↩