Achtergrondinformatie over FAIR-data

Op deze pagina staan een toelichting over datamanagement en FAIR-data en voorbeelden van de toepassing daarvan in ZonMw’s programma’s.

Waarom besteedt ZonMw aandacht aan datamanagement en FAIR-data?

Data vormen de grondstof voor kennisontwikkeling in ZonMw-projecten. Daarmee zijn data – naast de publicaties over de wetenschappelijk resultaten van een project - de vorm waarin kennis wordt vastgelegd (geborgd) en verspreid. Door data herbruikbaar te maken kun je ze gebruiken om onderzoeksresultaten te verifiëren, voor het doen van nieuw onderzoek en voor onderbouwing van beleid en praktijk. Het doel is uiteindelijk dat de databestanden op die manier bijdragen aan de kwaliteit van het onderzoek en aan de kennisontwikkeling en innovatie op het gebied van preventie, gezondheid en zorg.

FAIR-principes

Om data herbruikbaar te maken is databeheer dat zoveel mogelijk voldoet aan de FAIR-principes nodig. FAIR staat voor Findable, Accessable, Interoperable en Reusable en betekent dat data gevonden, begrepen en gebruikt kunnen worden door zowel mensen als computers. De methoden voor datamanagement en FAIR data zijn in binnen- en buitenland volop in ontwikkeling. Waar mogelijk implementeert ZonMw nieuwe inzichten in de instructies voor de subsidieprocedure. Onderstaande tekst richt zich op FAIR-datamanagement, dat wil zeggen datamanagement in lijn is met de FAIR-principes.

Wat omvat FAIR-datamanagement?

Alle databestanden en andere bronnen voor onderzoek die worden gegenereerd en/of gebruikt, zijn zo snel als mogelijk gedurende een project vindbaar (middels FAIR-metadata) en direct na het project beschikbaar volgens het principe ‘zo open als mogelijk en gesloten als nodig’. De bronnen worden zoveel als mogelijk voor mens en machine herbruikbaar (FAIR) opgeleverd: nieuw gegenereerde databestanden zijn ‘FAIR-by-design’ (dus vanaf het begin FAIR ingericht); bestaande databestanden en fysieke bronnen zijn tenminste goed beschreven met FAIR-metadata.

Data en andere wetenschappelijke output

Waar het gaat over databestanden, gaat het ook over andere bronnen waarmee het onderzoek wordt/is gedaan. Denk aan kwantitatieve en kwalitatieve databronnen, de software om de data te gebruiken, geluids- en beeldopnames, collecties van fysieke bronnen zoals biologische materialen, etc. Na afloop van een project moeten tenminste de data en de metadata beschikbaar zijn die ten grondslag liggen aan de projectresultaten en publicaties. Deze moeten herbruikbaar zijn en (al dan niet onder voorwaarden, afhankelijk van bijvoorbeeld privacywetten) toegankelijk.

Andere (wetenschappelijke) output bestaat onder meer uit diverse soorten publicaties, rapporten en protocollen. Wetenschappelijke publicaties laat ZonMw via Open Access-tijdschriften openbaar maken. Andere output, inclusief producten uit (praktijk)projecten worden gerapporteerd in het eindverslag en bijvoorbeeld via de website openbaar gemaakt.

Fair-metadata

FAIR-data gaan vooral over metadata. Metadata beschrijven de dataset, de context waarin deze is geproduceerd, waar deze is te vinden, de voorwaarden om er toegang toe te krijgen en de informatie die nodig is om de data te kunnen gebruiken. Ook metadata moeten FAIR zijn. Zonder FAIR-metadata zijn FAIR-data niet mogelijk. Dat (meta)data FAIR zijn betekent dat de computer ze kan vinden, begrijpen en gebruiken. Dat kan als de metadata worden genoteerd met gecontroleerde termen, die zijn voorzien van een persistent identifier. In het Engels spreek je dan van ‘machine-actionable’ of ‘machine readable’ (meta)data. Met behulp van FAIR-metadata zijn ook andere (niet digitale) bronnen FAIR te maken. Denk bijvoorbeeld aan biologische materialen. Metadata bevatten in principe geen gevoelige informatie en kunnen daarom open beschikbaar zijn.

Wat moet je doen voor FAIR-datamanagement?

De basis is goed datamanagement. Wat je moet doen om datamanagement te plannen en uitvoeren kun je je het beste voorstellen aan de hand van de concrete activiteiten in de ‘data life cycle’.  Lees meer over de praktische aanpak in Data life cycle | RDMkit (elixir-europe.org) (engelstalig).

De activiteiten voor het FAIR maken van data (‘FAIRificeren’) zijn een onderdeel van het datamanagement. De activiteiten voor datamanagement en voor data FARificeren zijn heel verschillend van aard: generiek of juist domein-specifiek, technisch, institutioneel, en/of sociaal. Afhankelijk van het type project, kan ZonMw verschillende aanwijzingen daarvoor geven. Indien van toepassing, staan deze uitgelegd in de programmatekst en/of de subsidieoproep. Naarmate het veld verder groeit en er duidelijkere stappen zijn voor FAIRificeren, zal ook het ZonMw-beleid aangepast worden.

Lees verdere instructies voor subsidieaanvragers en projectleiders in FAIR-metadata en data in onderzoeksprojecten.

Data FAIRificeren

Hoe je data kunt FAIRificeren, staat omschreven in de FAIR-principes die je opvolgt tijdens de activiteiten van datamanagement/-stewardship. De FAIR-principes zijn echter vrij abstract geformuleerd en geven geen handvat voor wat je concreet moet doen. Een toelichting op ieder van de FAIR-principes is te vinden bij Interpreting FAIR (engelstalig).

Er zijn verschillende manieren, instrumenten en diensten beschikbaar om het FAIRificeren aan te pakken:

  • De ‘three-point-FAIRification’-framework’  (3-PFF) (engelstalig) van GO FAIR Foundation is een samenhangend geheel van verschillende typen middelen om dat FAIR te maken. 
    De hoofdcomponenten zijn: (1) M4M, ofwel metadata-for-machines, (2) FIP, het FAIR Implementation Profile, en (3) FDP, het FAIR data point waarmee (meta)data beschikbaar komen op het internet.
  • De Dienstencatalogus (engelstalig)(FAIR service desk) van Health-RI geeft een overzicht van tools, diensten en infrastructuur voor het FAIRificeren, vooral voor het Nederlandse domein van gezondheidsonderzoek.
  • Het FAIR Cookbook (engelstalig) is een Europees platform met ‘recepten’ voor het FAIRificeren en verwijzingen naar infrastructuur en toepassingen in de life sciences.
  • Bij ODISSEI (de nationale onderzoeksinfrastructuur voor de Nederlandse sociale wetenschappen) is meer uitleg en ondersteuning te vinden voor FAIR data in sociaal-wetenschappelijk onderzoek

De werkwijzen voor FAIR-datamanagement zijn in binnen- en buitenland vol in ontwikkeling. Waar mogelijk implementeert ZonMw nieuwe inzichten in de instructies voor de subsidieprocedure.

Domeinspecifiek

De domeinspecifieke aanpak is essentieel voor FAIR-data (evenals voor goed datamanagement). ZonMw stimuleert dat onderzoekers in eenzelfde onderzoeksdomein en/of consortium zoveel mogelijk gebruik maken van standaarden (bijv. terminologieën, datamodellen, of een infrastructuur voor dataverzameling), die gebruikelijk zijn in het betreffende vakgebied. Dit vergemakkelijkt het onderling vergelijken en koppelen van data (ook bekent als interoperabiliteit).

Criteria

Om uiteindelijk van FAIR-data te mogen spreken, heeft GO FAIR Foundation criteria (engelstalig) geformuleerd. De criteria gaan over:

  • De minimale standaard waarmee (meta)data ‘machine-actionable’ zijn (‘center of the hourglass’). Dat betekent dat de computer de (meta)data kan vinden, lezen, begrijpen en analyseren.
  • Openheid van de data. FAIR-data zijn zoveel mogelijk open, tenzij dat niet mogelijk is in verband met privacy of bepaalde belangen. Met behulp van de FAIR-principe A (Accessible) is de beperkte toegang te definiëren. Data die beperkt toegankelijk zijn, moeten nog wel F, I, R zijn.
  • Distributie van de data. FAIR-data blijven zoveel mogelijk bij de bron waar ze zijn gegenereerd (‘gedistribueerd’). Dit bevordert de veiligheid, privacy en efficiëntie en het voorkomt fouten, kosten en afhankelijkheid van een leverancier of systeem. Data worden niet, of zo min mogelijk overgebracht naar een centrale opslaglocatie.
  • Vrijheid voor alle partijen om de data te gebruiken en geen ‘vendor lock-in’. Dat wil zeggen dat de toegang tot data niet afhankelijk mag zijn van een leverancier of specifiek systeem.

Voorbeelden in ZonMw’s programma’s

Lees de onderstaande artikelen en kom erachter over beter (her)gebruik van data en hoe we ervoor zorgen dat data ook echt hergebruikt wordt.