FAIR Data

  • Reperibili; ossia identificati attraverso metadati appropriati [etichette che descrivono autore, titolo, data, provenienza…] e identificativi univoci e persistenti [URL stabili cui corrisponderà per sempre quella risorsa].

Per essere reperibili, i dati vanno conservati per almeno 10 anni in un archivio che offra garanzie e conservati in molteplici copie e in ambienti sicuri anche durante la ricerca, non solo al termine.

  • Accessibili; metadati devono essere accessibili, il che non significa “aperti” ma sapere come arrivare ai dati e come poterli eventualmente scaricare attraverso un protocollo aperto, libero e implementabile ovunque.

Possono essere previste procedure di autenticazione e/o accordi di riservatezza.

Il principio deve essere “as open as possible, as closed as necessary”.

I metadati descrittivi giocano di nuovo un ruolo fondamentale, anche per segnalare la necessità di particolari protocolli di trasmissione (diversi da http://) o la presenza di API – Application programming Interface.

Idealmente, per essere Accessibili, i dati dovrebbero essere salvati in formati non proprietari, non compressi, non criptati, con standard documentati.

Inoltre, alcuni archivi assicurano la conservazione solo per alcuni formati (es. DANS, l’archivio olandese), un aspetto di cui va tenuto conto fin dall’inizio del progetto.

  • Interoperabili; i dati devono essere descritti utilizzando standard rilevanti per la comunità di riferimento. Uno strumento prezioso in questo senso è il registro FAIR sharing;
  • Aperti; I dati FAIR possono essere aperti: ricordiamo che “Accessibile” non è sinonimo di “Aperto”, possono esserci dati FAIR chiusi per ragioni di sicurezza o di privacy.

Il principio guida da seguire è “il più aperto possibile, chiuso il necessario” a seconda delle specifiche esigenze, ad esempio ai fini della protezione di dati sensibili o della Proprietà Intellettuale.

Il primo requisito per rendere aperti i dati è ovviamente aprirli anche dal punto di vista giuridico attraverso una Licenza Open.

I dati aperti sono uno dei pilastri della open science e uno degli obiettivi del Piano Strategico del Politecnico di Torino "PoliTo4Impact".

L’argomento è stato affrontato da un programma pilota specifico in Horizon 2020 e svolgerà un ruolo importante in Horizon Europe, il prossimo programma quadro europeo (2021-2027) con l’obbligo di rendere aperti i dataset che supportano i risultati della ricerca.

 

 

I principi FAIR sono linee guida per rendere Reperibili (Findable), Accessibili (Accessible), Interoperabili (Interoperable) e Riutilizzabili (Reusable) tutti i risultati della ricerca come (ma non solo) dati della ricerca, software e protocolli.

Vedi: https://doi.org/10.1038/sdata.2016.18

 
REPERIBILI (Findable)

F1. ai (meta)dati viene assegnato un identificativo unico e persistente

F2. i dati sono descritti con metadati completi (definiti da R1 di seguito)

F3. i metadati includono in modo chiaro ed esplicito l'identificativo dei dati che descrivono

F4. i (meta)dati sono registrati o indicizzati in una risorsa ricercabile

 

ACCESSIBILI (Accessible):

A1. i (meta)dati sono recuperabili tramite il loro identificativo utilizzando un protocollo di comunicazione standardizzato

   A1.1 il protocollo è aperto, gratuito e universalmente implementabile

   A1.2 il protocollo consente una procedura di autenticazione e autorizzazione, ove necessaria

A2. i metadati sono accessibili, anche quando i dati non siano più disponibili

 

INTEROPERABILI (Interoperable):

I1. i (meta)dati utilizzano un linguaggio formale, accessibile, condiviso e ampiamente applicabile per la rappresentazione della conoscenza

I2. i (meta)dati utilizzano vocabolari che seguono i principi FAIR

I3. i (meta)dati includono riferimenti qualificati ad altri (meta)dati

 

RIUTILIZZABILI (Reusable):

R1. i meta(dati) sono riccamente descritti con una pluralità di attributi accurati e rilevanti

   R1.1. i (meta)dati vengono rilasciati con una licenza di utilizzo dei dati chiara e accessibile.

           Se hai bisogno di aiuto puoi usare il  License Selector Tool 

   R1.2. i (meta)dati forniscono informazioni dettagliate sulla provenienza      

   R1.3. i (meta)dati soddisfano gli standard rilevanti per l’ambito disciplinare di una comunità scientifica

FAIR self assessment tool strumento di autovalutazione della "FAIRness" dei propri dati a cura dell’Australian Research Data Commons.

F-UJI è un servizio web che permette di valutare la "FAIRness" dei propri dati in maniera automatica se si possiede un PID (DOI o URL) associato al dataset che si vuole valutare. E' basato su metriche sviluppate dal progetto FAIRsFAIR.

FAIR Enough anche questo è un servizio web grazie al quale inserendo il DOI, la URL o l'handle di una risorsa online (=il proprio dataset o altro prodotto della ricerca) si ottiene una valutazione  sulla conformità ai principi FAIR. E' un servizio sviluppato dalla Maastricht University.

Dati FAIR NON significa dati APERTI.

La "A" dell'acronimo "FAIR" indica che i dati devono essere in qualche modo accessibili, ma non per forza aperti a tutti.

Ricorda che i dati possono essere riservati ma essere comunque gestiti secondo i principi FAIR. Il principio guida da seguire è “il più aperto possibile, chiuso quanto necessario” a seconda delle specifiche esigenze. Per esigenze etiche, di privacy o di protezione della proprietà intellettuale alcuni dati potrebbero dover rimanere chiusi.

Per saperne di più:

What is the difference between “FAIR data” and “Open data” if there is one?

Three camps, one destination: the intersections of research data management, FAIR and Open

Pensa a come la ricerca e l'innovazione potrebbero avanzare più velocemente grazie alla maggiore riproducibilità e trasparenza consentite da dati FAIR/Aperti e pensa alle persone che potrebbero trarre vantaggio dai tuoi dati. Il primo in assoluto a beneficiare dei dati FAIR sei tu!

"Come scienziato, dovresti trattare i tuoi dati come una lettera d'amore al tuo sé futuro" (Lambert Heller, Biblioteca nazionale tedesca di scienza e tecnologia - Nature Index 360o Feb 2019) 

Fonte: Sara Jones, DCC, University of Glasgow, Open Science Days 2015, 21st & 23rd April, Prague & Brno

FAIR Data

Gli standard dei metadati variano da disciplina a disciplina. Alcune risorse che possono essere utili per trovare gli standard per il tuo specifico campo di ricerca sono:

  • FAIRSharing, una risorsa accurata, istruttiva e ricca di informazioni sugli standard di dati e metadati, correlati ai database e alle policy dei dati.   
  • Dublin Core, uno schema di metadati generico
  • DCC metadata directory, è una raccolta di standard di metadati specifici per disciplina  
  • Data Documentation Initiative o DDI, offre standard internazionali per dati qualitativi e osservativi
  • RDA alliance ha un github repository di standard di metadati specifici per soggetto

In alcuni campi dell'ingegneria, della tecnologia e del design gli standard per i dati e i metadati sono ancora in evoluzione. È utile verificare con la propria comunità di ricerca lo sviluppo e la co-creazione di questi standard.

Il viaggio verso i dati FAIR comincia ancor prima di iniziare il tuo progetto di ricerca. Redigere un Data Management Plan ti costringerà a pensare alle tue pratiche per la gestione dei dati della ricerca fin dall'inizio. Durante il ciclo della ricerca, come mostrato nella figura sottostante, dovrai pensare a come gestire e archiviare i tuoi dati durante la ricerca (fase di gestione "attiva" dei dati). È importante elaborare una strategia di archiviazione e backup per la gestione attiva dei dati durante la scrittura del DMP: per fare questo considera anche le risorse messe in campo dalla tua istituzione.

Verso la fine del progetto, dovrai invece fare delle scelte sul tipo di dati che desideri preservare a lungo termine. Questo processo si chiama archiviazione a lungo termine. Per archiviare i risultati della tua ricerca a lungo termine hai bisogno di un repository certificato che ti garantisca alcuni standard di sicurezza e controllo. Puoi trovare qualche informazione nella sezione sottostante "Che cos'è un repository e come posso sceglierne uno?".

FAIR Data

Discipline di ricerca diverse hanno risultati di ricerca diversi e potrebbe essere necessario considerare vari elementi per decidere cosa selezionare e preservare. Ecco alcune linee guida generali che si applicano alla maggior parte delle discipline di ricerca. Per la tua disciplina, verifica le migliori pratiche seguite dalla tua comunità di ricerca e/o consulta il tuo consulente RDM.

Depositare sicuramente:

  • Set di dati originali, codice software originale, dati grezzi ottenuti dall'analisi di campioni fisici, dati osservazionali che non possono essere rigenerati.
  • Set di dati non originali e non facilmente disponibili o reperibili online, di cui si hai il permesso di condividere.
  • Per i dati delle scienze sociali, includere descrizioni di studi, libri di codici e statistiche riassuntive.

Eventualmente depositare:

Versioni intermedie di analisi o codice se potenzialmente utili ad altri o se sono state utilizzate in pubblicazioni o tesi.

Non è necessario depositare:

  • Versioni di codice incomplete, non funzionali o intermedie che sarebbero di utilità marginale per altri.
  • File di output dalle analisi se 1) il set di dati e il codice utilizzati per generare l'output sono depositati e 2) è abbastanza facile rigenerare l'output dai file depositati.
  • Set di dati conservati e accessibili tramite altre istituzioni o organizzazioni.
  • Grafici o tabelle creati dai dati originali che potrebbero essere facilmente rigenerati.

Non depositare:

Qualsiasi dato che contenga informazioni personali che identifichino soggetti umani o dati che potrebbero violare contratti legali.

Eccezioni:

I file di output delle analisi possono essere depositati se richiedono molto tempo per rigenerarsi o se non sono eccessivamente grandi o non possono essere facilmente ricreati dal set di dati e dal codice depositati.

Il repository nel contesto dei dati/output della ricerca è un ambiente digitale che consente di preservare i dati della ricerca e altri output digitali a lungo termine. Essenzialmente dovrebbe offrire le seguenti funzionalità:

  1. Memorizza i dati in modo sicuro
  2. Assicura che i dati siano reperibili
  3. Descrive i dati in modo appropriato (metadati)
  4. Aggiunge informazioni sulla licenza

È possibile depositare i dati in un repository generico (ad es. ZenodoHarvard Dataverse) o in un repository specifico per soggetto (ad es. Dryad). Cerchi la tua disciplina? Cerca su www.re3data.org per altri repository di dati più adatti. Guarda una dimostrazione della ricerca di repository di dati utilizzando la directory re3data.

Preferibilmente ti consigliamo di depositare i tuoi dati in un repository di riferimento della tua comunità scientifica.

Come buona pratica, dopo il deposito, ti invitiamo ad archiviare i metadati  (DOI) nell’archivio istituzionale PORTO@IRIS nella tipologia “9. FAIR Data Collection”.

Openaire  fornisce una guida dettagliata ai costi che ti darà un'indicazione su tempo, impegno e budget necessari per le attività relative al RDM che vanno dall'archiviazione dei dati, dalla pulizia dei dati, dai costi delle licenze software all'analisi dei dati, fino all'archiviazione in un repository.

Ricorda che questi costi possono essere messi a budget ​​nelle tue proposte di finanziamento.

Non possiamo immaginare di condurre ricerche senza software. I ricercatori utilizzano il software per attività di ricerca o sviluppano il proprio software come parte dei risultati della ricerca.

Per una buona pratica scientifica, il software di ricerca dovrebbe aderire ai principi FAIR per consentire la piena ripetibilità, riproducibilità e riutilizzo. Il software di ricerca dovrebbe essere archiviato per la riproducibilità e manutenuto attivamente per il riutilizzo.

La pubblicazione di software di ricerca open source è una pratica consolidata nella scienza su piattaforme come Github e Gitlab.

Crescenti iniziative di comunità come  software carpentries aiutano a formare i ricercatori, che non hanno un background specifico nello sviluppo o nella programmazione di software, per stabilire flussi di lavoro che li aiutino a gestire, monitorare, preservare e, se possibile, condividere o pubblicare software di ricerca utilizzando strumenti di automazione delle attività e sistemi di controllo delle versioni come Git.

Per ulteriori informazioni su come rendere FAIR il software: