FAIR Data

I principi FAIR sono linee guida per rendere Reperibili (Findable), Accessibili (Accessible), Interoperabili (Interoperable) e Riutilizzabili (Reusable) tutti i risultati della ricerca come, ad esempio, i dati, i software e i protocolli. Tali princìpi sono stati formulati e pubblicati formalmente nel 2016 su Nature Scientific Data.

REPERIBILI

Innanzitutto i dati dovrebbero essere facili da trovare sia dagli umani che dalle macchine (machine-readable) e questo può essere fatto attraverso identificati attraverso metadati appropriati (informazioni che descrivono i dati ) e attraverso identificativi univoci e persistenti (URL stabili cui corrisponderà per sempre quella risorsa, DOI, handles, ecc.).

Inoltre, i dati andrebbero conservati per almeno 10 anni in un archivio che offra garanzie, in molteplici copie e in ambienti sicuri anche durante la ricerca, non solo al termine.

ACCESSIBILI

I dati e i metadati devono essere accessibili, il che non significa “aperti”, ma significa sapere come arrivare ai dati e come poterli eventualmente visionare e scaricare attraverso un protocollo aperto, libero e implementabile ovunque. Possono essere previste procedure di autenticazione e autorizzazione e/o accordi di riservatezza.

Il principio guida da seguire è “il più aperto possibile, chiuso il necessario” a seconda delle specifiche esigenze, ad esempio ai fini della protezione di dati sensibili o della proprietà intellettuale.

I metadati giocano anche in questo caso un ruolo fondamentale, anche per segnalare la necessità di particolari protocolli di trasmissione (diversi da http://) o la presenza di API – Application programming Interface.

Idealmente, per essere Accessibili, i dati dovrebbero essere salvati in formati non proprietari, non compressi, non criptati e con standard documentati.

INTEROPERABILI

I dati devono essere descritti utilizzando standard rilevanti per la comunità di riferimento. Uno strumento prezioso in questo senso è il registro FAIR sharing, una risorsa curata e informativa sugli standard dei dati e dei metadati, correlati alle banche dati e alle politiche sui dati.

RIUTILIZZABILI

L'obiettivo finale dei principi FAIR è quello di ottimizzare il riutilizzo dei dati. Per raggiungere questo obiettivo, i metadati e i dati dovrebbero essere ben descritti in modo da poter essere replicati e/o combinati in contesti diversi e dovrebbero avere una licenza d'uso dei dati chiara e accessibile, come ad esempio le Creative Commons (qui il License Selector Tool utile per la scelta della licenza).

Ogni lettera dell'acronimo "FAIR" si riferisce a un elenco di principi, per un totale di 15 principi. L'elenco completo e ulteriori informazioni sono disponibili alla pagina web di GOFAIR ad essi dedicata.

Verificare se i propri dati della ricerca sono stati gestiti secondo i principi FAIR può essere un lavoro difficile e laborioso. Per aiutare in questo compito, negli anni sono stati definiti diversi strumenti e diverse metriche. EUDAT, in particolare, ha elaborato una lista di controllo di autovalutazione, che può facilmente essere tradotta in una serie di domande:

Findable / Rintracciabili

E' stato assegnato un identificatore persistente (es. DOI, Handle, URL) al dataset?
Il dataset è stato descritto con metadati dettagliati, informativi e accurati?
I metadati sono registrati in un catalogo online o in un data repository che sia indicizzato nei motori di ricerca?
Nei i metadati è incluso anche l'identificatore persistente assegnato al dataset?

Accessible / Accessibili

Seguendo l'identificatore persistente si accede correttamente ai dati o ai metadati associati?
Il protocollo di recupero dei dati e dei metadati rispetta un linguaggio standardizzato e riconosciuto come ad esempio quello della pagine web (HTTP)?
I metadati saranno sempre pubblici, visibili e indicizzabili anche se i dati non sono in open access o non sono più disponibili?

Interoperable / Interoperabili

I dati sono disponibili in formati aperti o almeno in formati documentati e diffusi?
I metadati seguono schemi standard riconosciuti e condivisi?
Sono stati utilizzati quanto più possibile vocabolari controllati o ontologie?
Sono resi disponibili link o relazioni con altre risorse rilevanti per la comprensione dei dati come pubblicazioni o rapporti tecnici o applicazioni software?

Re-usable / Riutilizzabili

I dati sono accurati, completi e descritti in modo che siano facilmente comprensibili e riproducibili?
Al dataset è attribuita una licenza che ne specifica le modalità di riutilizzo?
Dai metadati e dalla documentazione allegata è possibile evincere in maniera chiara le responsabilità scientifiche e le finalità dei dati prodotti?
I dati e i metadati rispettano gli standard e i protocolli di qualità del dominio di ricerca di riferimento?

Oltre a questa lista di autovalutazione, sono disponibili anche alcuni strumenti online per la valutazione automatica del rispetto dei principi FAIR dei propri dataset. Nessuno di questi è completamente esaustivo, ma servono a dare delle indicazioni di massima sui propri dataset.

F-UJI è un servizio web che permette di valutare la "FAIRness" dei propri dati in maniera automatica se si possiede un PID (DOI o URL) associato al dataset che si vuole valutare. E' basato su metriche sviluppate dal progetto FAIRsFAIR.

FAIR self assessment tool strumento di autovalutazione della "FAIRness" dei propri dati a cura dell’Australian Research Data Commons.

FAIR Enough anche questo è un servizio web grazie al quale inserendo il DOI, la URL o l'handle di una risorsa online (=il proprio dataset o altro prodotto della ricerca) si ottiene una valutazione sulla conformità ai principi FAIR. E' un servizio sviluppato dalla Maastricht University.

Gestire i dati della ricerca significa curarli e organizzarli in modo consapevole e responsabile durante tutto il ciclo della ricerca.

Le strategie di gestione dei dati vanno quindi elaborate sin dalle fasi di iniziali di progettazione della ricerca, coinvolgendo poi tutte le fasi operative di produzione, raccolta e analisi dati, per concludersi con la loro preservazione (archiviazione a lungo termine) e possibilmente con la condivisione.

Ciascuna fase prevede però di prendere in considerazione aspetti diversi e ben precisi della gestione dei dati.

FASE DI PIANIFICAZIONE: in questa fase del progetto occorrerà innanzitutto identificare la tipologia e la natura dei dati che si andrà a generare ex-novo o a riutilizzare e le possibili problematiche annesse (privacy, proprietà intellettuale, principi etici). Si dovrà anche pensare all’identificazione dei metadati da associare ai dati per una loro corretta descrizione e interpretazione, all’organizzazione dei dati in cartelle e alle regole di nomenclatura dei file. Il Data Management Plan dovrebbe cominciare a prendere vita in questa fase.

FASE DI RACCOLTA, GENERAZIONE ED ELABORAZIONE DATI: durante questi stadi del progetto si dovrà pensare alla conservazione dei dati in storage adeguati e alle strategie di backup. Si dovrà inoltre tenere traccia del “versioning” dei files e definire le modalità di condivisione dei dati con gli eventuali partner del progetto, prevedendo, qualora necessario, sistemi di accesso con autenticazione e autorizzazione. Sarà anche fondamentale decidere l'organizzazione dei file e delle cartelle in modo gerarchico, seguendo una nomenclatura coerente e prediligendo formati per i dati possibilmente aperti e standard.

FASE FINALE DEL PROGETTO: con l'approssimarsi della fine del progetto, occorrerà valutare quali dati depositare per la conservazione a lungo termine, scegliendo il repository più adatto e affidabile e in linea con i principi FAIR. La scelta del repository dovrebbe ricadere su quelli certificati e che garantiscano standard di sicurezza e controllo. Altro aspetto da considerare è l’associazione di una licenza ai dati che ne specifichi le modalità di riutilizzo, laddove possibile.

Per maggiori informazioni vedere le sezioni sottostanti "Che cos'è un repository e come posso sceglierne uno?" e "Criteri per selezionare i dati da conservare a lungo termine".

Le diverse discipline di ricerca possono avere output di ricerca molto diversi tra di loro e potrebbe essere necessario considerare vari elementi per decidere cosa selezionare e preservare. Non tutto va preservato e archiviato.

Di seguito alcune linee guida generali che si applicano alla maggior parte delle discipline di ricerca. Per la tua disciplina, verifica le migliori pratiche seguite dalla tua comunità di ricerca e/o consulta l'esperto di dominio per la Scienza Aperta del Politecnico (mauro.paschetta@polito.it).

Depositare sicuramente:

Set di dati originali, codice software originale, dati grezzi ottenuti dall'analisi di campioni fisici, dati osservazionali che non possono essere rigenerati.
Set di dati non originali e non facilmente disponibili o reperibili online, di cui si hai il permesso di condividere.
Per i dati delle scienze sociali, includere descrizioni di studi, libri di codici e statistiche riassuntive.

Eventualmente depositare:

Versioni intermedie di analisi o codice se potenzialmente utili ad altri o se sono state utilizzate in pubblicazioni o tesi.

Non è necessario depositare:

Versioni di codice incomplete, non funzionali o intermedie che sarebbero di utilità marginale per altri.
File di output dalle analisi se il set di dati e il codice utilizzati per generare l'output sono depositati e se è abbastanza facile rigenerare l'output dai file depositati.
Set di dati conservati e accessibili tramite altre istituzioni o organizzazioni.
Grafici o tabelle creati dai dati originali che potrebbero essere facilmente rigenerati.

Non depositare:

Qualsiasi dato che contenga informazioni personali che identifichino soggetti umani o dati che potrebbero violare contratti legali.

Eccezioni:

I file di output delle analisi possono essere depositati se richiedono molto tempo per rigenerarsi o se non sono eccessivamente grandi o non possono essere facilmente ricreati dal set di dati e dal codice depositati.

FAIR Data

Che cosa sono i principi FAIR?

Vuoi verificare se i tuoi dati sono FAIR?

FAIR è uguale a OPEN?

Perché i dati FAIR e la condivisione dei risultati della tua ricerca sono importanti?

Dove posso trovare gli standard per i metadati relativi al mio campo di ricerca?

La gestione dei dati nelle diverse fasi del ciclo della ricerca.

Criteri per selezionare i dati da conservare a lungo termine.

Che cos'è un repository e come posso sceglierne uno?

Quali sono i costi per il RDM?

E per quanto riguarda software e codice?