FAIR-metadata en data in onderzoeksprojecten
Instructies FAIR-metadata in het kort
Voor wie?
- Onderzoekers die subsidie aanvragen en/of ontvangen.
- Datastewards die aan de subsidieaanvraag en/of het project meewerken of de onderzoeker adviseren.
Wanneer?
- Bij de voorbereiding van een project (tijdens de subsidieaanvraag, of na honorering bij het schrijven van een DMP).
- Bij de uitvoering van een project.
Waarbij?
Bij extra aanwijzingen van programma’s (in subsidieoproepen) voor het produceren van FAIR-metadata en data.
Waarover?
- Algemene uitleg over hoe ZonMw in de projecten die zij subsidieert, FAIR metadata en data laat produceren.
- Specifieke aanwijzingen voor de aanvrager of ontvanger van subsidie in een subsidieronde.
Algemene uitleg over ZonMw’s aanpak voor FAIR-metadata en data
In de achtergrondinformatie staat dat ZonMw stimuleert dat in steeds meer programma’s de FAIR- principes (engelstalig) worden toegepast tijdens het datamanagement. Hieronder gaan we iets dieper in op FAIR-metadata in verband met ZonMw’s aanwijzingen daarvoor in subsidierondes.
FAIR in het kort
Door de FAIR-principes toe te passen maak je data (of andere bronnen voor onderzoek) Findable, Accessible, Interoperable en Reusable (vindbaar, toegankelijk, uitwisselbaar en herbruikbaar). Het resultaat is dat data door mensen en computers zijn te vinden, te begrijpen en te gebruiken. Het proces van data FAIR maken legt GO FAIR Foundation (GFF) uit in het ‘three-point-FAIRification’-framework’ (3-PFF) (engelstalig).
Metadataschema’s voor ZonMw-projecten
Hier gaan we verder in op de metadata. Metadata ‘vertellen’ onder meer waar de data zijn te vinden, over de context waarin ze zijn geproduceerd, de voorwaarden om er toegang toe te krijgen en de informatie die nodig om de data te kunnen gebruiken.
Je spreekt van FAIR-metadata als ze computerleesbaar zijn. In Engels wordt dat ‘machine-readable’ of ‘machine-actionable’ genoemd. Hier spreken we daarom van ‘metadata-for-machines’, afgekort M4M. Onderzoekers en/of datastewards maken metadata die een project beschrijven en de databestanden (en eventueel andere bronnen voor het onderzoek), die daarin zijn gebruikt (‘used assets’) en gegenereerd (‘produced assets’). Metadata leg je vast in metadataschema’s.
ZonMw werkt met drie hoofdonderwerpen, die ieder in een apart metadataschema’s staan. Een overzicht van de schema’s staat op de M4M resource page (engelstalig) van GO FAIR Foundation (GFF). Voor de gebruiker is zo’n schema een soort enquêteformulier met vragen. De antwoorden zijn in feite de metadata over de betreffende data (of andere bron voor onderzoek).
De drie metadataschema’s voor de beschrijving van de data in een ZonMw-project gaan over:
- M4M Project Admin: de metadata over het project waarin de data zijn gebruikt (of het nou bestaande data zijn, of nieuwe geproduceerde). Het betreft voornamelijk administratieve informatie over het project en de dataproducent.
- M4M Project Content: inhoudelijke informatie over het project (onderzoeksdomein, thema’s, doelgroepen, setting, etc).
- M4M Dataset (Catalogue, Form, Distribution): informatie over de dataset zelf, zoals de onderwerpen waarover de dataset gaat en de variabelen en de eenheden in de dataset. Maar ook informatie over de plaats waar de dataset is opgeslagen, de voorwaarden voor toegang ertoe, etc.
Generiek en domeinspecifiek
De metadataschema’s M4M Project Admin en M4M Dataset (catalogue, form en distribution) zijn generiek. D.w.z. de metadata-elementen (de ‘vragen’) zijn hetzelfde voor ieder project en hetzelfde voor iedere dataset. Het metadataschema M4M Project Content is domeinspecifiek, omdat een onderzoekers en datastewards in eenzelfde onderzoeksdomein en/of consortium samen afspraken hebben gemaakt over de metadata-elementen waarmee zij hun datasets willen beschrijven.
Zo heeft ZonMw schema’s laten maken voor de onderwerpen COVID-19 en voor infectieziekten en antimicrobiele resistentie. Op de M4M-pagina staan ook schema’s over andere onderwerpen, die op initiatief van andere organisaties zijn gemaakt. De metadataschema’s zijn open en door iedereen te gebruiken. Indien nodig kunnen de schema’s uitgebreid worden.
Onder de motorkap
Een paar technische kenmerken van deze M4M-metadataschema’s zijn goed om te weten:
- De metadataschema’s verwijzen naar elkaar zodat steeds duidelijk is dat de informatie over de dataset hoort bij de informatie over het project.
- De metadataschema’s en de antwoorden van de gebruiker zijn in het enquêteformulier leesbaar voor mensen. ‘Onder de motorkap’ van het formulier is de informatie in computertaal en zijn er ‘persistent identifiers’ aan gekoppeld, zodat er ook voor de computer geen misverstand kan zijn over wat de mens (de gebruiker van het metadataschema) bedoelt.
- De schema’s werken zoveel mogelijk met gestandaardiseerde of gecontroleerde termen (in Engels: controlled vocabularies). Een uitgebreid overzicht daarvan staat op BioPortal (engelstalig). Voor de antwoorden op een vraag in het enquêteformulier (metadataschema) verschijnt een lijst van termen waaruit de gebruiker kan kiezen. Zo zijn de antwoorden van alle gebruikers goed te vergelijken en via een code (persistent identifier) ook begrijpelijk voor de computer. Een voorbeeld van een gestandaardiseerde lijst is SNOMED om medische gegevens te documenteren en coderen.
Leesbaar voor computers én voor mensen
De computer kan de metadata die met deze schema’s zijn gemaakt, vinden, begrijpen en analyseren. Om dit ook voor mensen die niet thuis zijn in de informatica mogelijk te maken, heeft Health-RI een catalogus gemaakt waarin alle metadata verschijnen die in het COVID-19-programma zijn (of nog gaan worden) gemaakt: de COVID-19 data portal (engelstalig) van Health-RI.
In 2023 werkt Health-RI aan de uitbreiding van het dataportaal, zodat ook metadata over andere onderwerpen in het gezondheidsdomein vindbaar en bruikbaar gemaakt kunnen worden.
Toegang tot data
Via het dataportal kan iemand een verzoek doen aan de dataproducent om de data te mogen gebruiken. Op termijn wordt het ook mogelijk om (onder voorwaarden) via het portaal toegang tot de data zelf te krijgen. Met behulp van de metadata kan de dataproducent precies definiëren wie (welk algoritme) wel of niet toegang krijgt tot de data. Dat is in ieder geval van belang als het om privacygevoelige data gaat. Metadata zelf bevatten in principe geen gevoelige informatie en kunnen daarom openbaar zijn.
Uitbreiding van de aanpak
ZonMw is in 2020 samen met GFF en Health-RI begonnen met de ontwikkeling van de M4M-metadataschema’s voor het COVID-19-programma en de invoering ervan in de subsidieprocedure. In 2021 zijn er ook metadataschema’s ontwikkeld voor infectieziekten en antimicrobiele resistentie (inclusief metadata voor de beschrijving van biobanken). Op basis van de ervaringen daarmee en verdere ontwikkelingen door GFF en Health-RI wordt de aanpak in enkele nieuwe programma’s toegepast en zullen er metadataschema’s komen voor meer onderwerpen. Ook nemen andere organisaties en onderzoeksfinanciers het initiatief voor de ontwikkeling van FAIR en domeinspecifieke metadataschema’s, welke ook door onderzoekers van ZonMw gebruikt kunnen worden.
Specifieke aanwijzingen voor FAIR-metadata en data in een subsidieronde
Uitleg voor de subsidieaanvrager
In de subsidieoproep staat onder de kop Relevantiecriteria (of Relevance criteria) of het programma in de betreffende ronde FAIR-(meta)data laat maken. De activiteiten daarvoor zijn een aanvulling op de activiteiten voor regulier datamanagement. De subsidieaanvrager kan zich daar als volgt op voorbereiden:
- Bij de afspraken met de datasteward nagaan of hij/zij ervaring heeft met FAIR-(meta)data, wel eens aan een M4M-workshop heeft meegedaan, en tijd heeft om zich in dit onderwerp te verdiepen. De workshops van FAIR-data-experts hebben veelal ook een trainingscomponent voor datastewards.
- Nagaan of er al metadataschema’s zijn voor het betreffende vakgebied. Ook nagaan welke standaarden voor het vastleggen van data nu gangbaar zijn in het vakgebied. Deze informatie is nodig als input voor de eventuele uitbreiding van bestaande metadataschema’s, of voor de ontwikkeling van nieuwe.
- Voldoende budget reserveren zodat (1) de datasteward en onderzoeker mee kunnen doen aan activiteiten (bijv. workshops) voor het ontwikkelen van metadataschema’s en (2) de datasteward kan helpen bij het invullen ervan. Reken voor dit onderdeel en het ‘reguliere’ datamanagement totaal ongeveer 3-5% van het projectbudget.
Extra stap naar FAIR-data
ZonMw’s FAIR-metadata-aanwijzingen gaan in eerste instantie over het produceren van FAIR-metadata die de context van het project en de dataset beschrijven. Het metadateren van de variabelen en eenheden in een databestand vraagt meer inspanning en is een aparte activiteit, die niet standaard deel uitmaakt van ZonMw’s FAIR-metadata-aanwijzingen.
Toch is het metadateren van variabelen en eenheden in een databestand een belangrijke stap naar FAIR-data. ZonMw kan dat eventueel als extra activiteit in een subsidieoproep opnemen.
Uitleg voor de projectleider
Als het project is gehonoreerd, verwerkt de projectleider de geplande activiteiten en aanpak voor FAIR-(meta)data in het DMP, al dan niet met extra aanwijzingen in de honoreringsbrief.
ZonMw informeert de projectleiders over eventuele bijeenkomsten. Als de metadataschema’s eenmaal beschikbaar zijn, moeten die (als een enquêteformulier) ingevuld worden voor het project. Aan de hand van de kerngegevens rapporteert de projectleider hierover.
Aanpak en inschatting van tijd
In een aantal ZonMw-programma’s zijn (en worden) FAIR metadataschema’s (M4M) ontwikkeld, die projectleiders moeten gebruiken voor de beschrijving van hun projecten, datasets en/of andere bronnen voor onderzoek. Voorbeelden zijn M4M-schema’s voor COVID-19 en voor infectieziekten en antimicrobiële resistentie. Deze zijn te vinden op de M4M resource page. In de toelichting (‘guidelines’) op deze pagina is meer te lezen over de aanpak om M4M-schema’s in te vullen en om de benodigde tijd in te schatten.
Meer informatie over werkwijzen en hulpmiddelen voor het FAIRificeren is ook te vinden in het FAIR Cookbook.