5. Arkivering og deling av forskningsdata
Innhold på denne siden:
- Formell og uformell data
- Arkivering og publisering av forskningsdata
- Kontroller at dataene kan deles
- Valg av dataarkiv
- Klargjøring for arkivering og publisering
- Deponering av data
- Koble dataene med publikasjonen
Deling av forskningsdata foregår overordnet i to forskjellige former – formell og uformell.
Formell deling favner det som typisk omtales som arkivering og publisering av data (og blant annet publisering av dataene som del av en artikkel). Deponering av data i arkiver skjer gjennom etablerte, gjerne sertifiserte dataarkiver. Disse arkivene sikrer god praksis for langtidsbevaring, metadatahåndtering, gjenfinnbarhet og tilrettelegger for at dataene kan siteres, gjenbrukes og valideres på en transparent måte.
Innenfor deling gjennom formaliserte kanaler finnes ulik grad av tilgjengelighet og gjenbrukbarhet som i stor grad styres av juridiske (f.eks. personvernlovgivning og datasikkerhet, opphavsrett og eierskap) og forskningsetiske (f.eks. sårbare grupper, manglende samtykke, misbruk og feilbruk) føringer, dvs. ikke alle forskningsdata kan stilles fritt til rådighet for offentligheten. Noen typer data vil aldri kunne deles, andre vil måtte anonymiseres før de kan deles eller kun kunne deles under særskilte vilkår i form av f.eks. begrenset tilgang, krav om databehandleravtaler, restriksjoner knyttet til bruksformål eller embargo.
Motbøren til data som deles med begrensinger er åpne data. Dette er data som er gjort tilgjengelige med de tekniske og juridiske egenskaper som er nødvendige for at de skal kunne brukes fritt, og bli distribuert av hvem som helst, når som helst og hvor som helst.
Mens uformell deling viser til øvrige metoder for deling, men hvor dataene deles direkte mellom forskere eller forskergrupper utenfor etablerte arkiveringsløsninger. Eksempler på uformell deling inkluderer deling via e-post, personlig kommunikasjon, nettverk eller samarbeidsplattformer som ikke sikrer langvarig bevaring, søkbarhet eller tilgangsstyring. Som med deponering i arkiv er det viktig at juridiske og forskningsetiske føringer etterfølges, selv når dataene deles i mindre formell kapasitet.
Løsninger for å sende data (uformell deling)
Data som deles i mer uformell kapasitet, enten innad i prosjekter eller med kollegaer bør som med lagring og arkivering skje på en sikker måte som ivaretar overenstemmelse med lovverk, etiske retningslinjer og generell datasikkerhet. Dette går både på hvordan og hvor filene deles, men også hvorvidt de bør deles.
Sikt har utviklet en sikkerhetsmessig og pålitelig løsning for å dele små og store filer med andre forskere. FileSender gir deg kontroll over hvem som kan laste ned filen, mulighet til å sette eget tidsvindu for nedlastning og innhente rapporter for nedlastningsstatistikk. Tjenesten er gratis.
Forskningsetikk
Les mer om forskningsetikk ved Kristiania her.Les mer om forskningsetikk ved Kristiania her.
Arkivering og publisering av forskningsdata
Deling av forskningsdata gir flere viktige fordeler både for forskeren, forskningssamfunnet og samfunnet for øvrig:
- Økt synlighet
- Bedre ressursutnyttelse og muliggjørelse av reanalyser
- Styrket pålitelighet og etterprøvbarhet av forskningsresultater og med det publikasjonens kvalitet
- Muligheter for å finne nye samarbeidspartnere
- Langtidsbevaring som sikrer at dataene ikke forsvinner
I tillegg til de overnevnte fordelene stilles det nå stadig strengere krav og forventinger fra nasjonale myndigheter, forskningsfinansiører og tidsskrift til at forskningsdata gjøres åpent tilgjengelig under prinsippet «så åpent som mulig, så lukket som nødvendig».
- Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata (Regjeringen)
- Tilgjengeliggjøring av forskningsdata : Policy for Norges Forskningsråd (Forskningsrådet)
- Data and software availability (F1000)
- Reporting standards and availabiltiy of data, materials, code and protocols (Nature)
Kontroller at dataene dine kan deles
Før du publiserer eller arkiverer forskningsdataene dine, er det viktig at du vurderer om du har lov til å dele dataene, og om dette er forsvarlig. Det kan være juridiske, forskningsetiske, sikkerhetsmessige, kontraktuelle obligasjoner eller kommersielle hensyn som begrenser muligheten for deling.
Personopplysninger og sensitive data
Forskningsdata som inneholder personopplysninger eller sensitive data, for eksempel konfidensiell informasjon eller særlige kategorier av personopplysninger, kan ikke publiseres åpent. Men det er mulig at enkelte av disse dataene kan deles med begrenset tilgang, forutsatt at nødvendige forholdsregler er ivaretatt.
Personopplysninger skal slettes
Les mer om håndtering av personopplysninger i forskningsprosjekter ved Kristiania.
Ved kvalitative data anbefales det å innhente informantenes eksplisitte samtykke til begrenset publisering av indirekte personopplysninger. Dette skyldes at full anonymisering av kvalitative data kan være vanskelig, tidkrevende og kan redusere datasettets verdi for senere forskning. Dersom informantene har gitt samtykke til at indirekte identifiserbare data deles under spesifikke betingelser, kan datasettet publiseres uten fullstendig anonymisering.
For forskningsdata som inneholder personidentifiserende informasjon anbefaler vi at du deponerer dataene hos Sikt. Vær oppmerksom på at Sikt ikke tar imot allerede anonymiserte kvalitative data, da de foretar egen anonymisering.
Merk! Ved Høyskolen Kristiania er Sikt rådgiver for personvern i forskning og vurderer lovligheten i forskningsprosjektet opp mot EUs personvernforordning (GDPR) og personopplysningsloven. Hvis man planlegger arkivering av forskningsdata som inneholder personopplysninger (direkte eller indirekte personindentifiserende) skal man derfor alltid opplyse om dette i meldeskjemaet.
Deling av anonymiserte data
Anonymiserte data, altså data som verken inneholder direkte eller indirekte identifiserende informasjon, omfattes ikke av EUs personvernforordning (GDPR) og personopplysningsloven. Fullstendig anonymiserte data kan deles åpent, forutsatt at andre juridiske og forskningsetiske forhold er klarert. Anonymisering må ikke forveksles med avidentifisering og pseudonymisering.
Eierskap og opphavsrett
Hvis du bruker allerede eksisterende data fra en tredjepart må du forholde deg til lisensieringen og bruksvilkår som dataene ble stilt til rådigheter under. Disse vil bestemme hvorvidt dataene kan publiseres åpent eller deles videre med kollegaer og studenter. Det samme gjelder for annet opphavsrettslig materiale som skulle inngå i dataene (f.eks. bilder).
Forskningsetiske forhold
Selv om forskningsdataene kan deles juridisk vil det være tilfeller hvor å publisere dataene vil kunne regnes som etisk uforsvarlig, for eksempel ved forskning på sårbare eller marginaliserte samfunnsgrupper.
For mer informasjon om etisk deling av forskningsdata, se CARE-prinsippene.
Valg av dataarkiv
Når du skal velge dataarkiv er det flere spørsmål man bør vurdere:
Spørsmål om dataarkiv
Generelle dataarkiv
Under har vi gjort et utvalg av ofte brukte, men mer generelle dataarkiv. I tillegg til søkeressurser som kan hjelpe med å finne og identifisere dataarkiv som er relevant for dine forskningsdata.
- Sikt – Arkivere alle typer digitale forskningsdata om mennesker og samfunn, inkludert data som krever spesiell håndtering eller tillatelse, som persondata. Sikt sitt dataarkiv er CoreTrustSeal sertifisert. Data kan publiseres åpent eller med begrenset tilgang. Les mer om Sikt sine tjenester for dataarkivering.
- DataverseNO – DataverseNO er et nasjonalt, generelt arkiv for åpne forskningsdata. Arkivet forvaltes av UiT Norges arktiske universitet på vegne av et nasjonalt konsortium bestående av DataverseNOs partnerinstitusjoner. Arkivet støtter FAIR-prinsippene for håndtering og forvaltning av forskningsdata og er sertifisert med CoreTrustSeal. Les mer om hvordan du kan arkivere i DataverseNO.
- Zenodo – Zenodo er et internasjonalt, generelt arkiv for åpne forskningsdata, utviklet og driftet av CERN gjennom OpenAIRE-prosjektet. Arkivet støtter FAIR-prinsippene og tilgjengeliggjør forskning på tvers av fagdisipliner. Les mer om hvordan du arkiverer i Zenodo.
- NIRD Research Data Archive (RDA) – NIRD RDA driftes av SIGMA2 og har som formål å gjøre forskningsdata fra norske institusjoner søkbare, tilgjengelige og gjenbrukbare i minst 10 år. Arkivet er beregnet for større datasett (enkeltfiler på 1TB eller større). Les mer om deponering av data til NIRD RDA.
- Open Science Framework (OSF) – Open Science Framework (OSF) er en gratis, åpen plattform utviklet av Center for Open Science (COS) for å støtte åpen og transparent forskning. OSF har en egen modul for dataarkivering hvor man kan deponere data fra alle fagfelt. Les mer Open Science Framework.
Søkeressurser for å finne dataarkiv
Klargjøring for arkivering og publisering
Før dataene kan deponeres i et dataarkiv og publiseres må de kvalitetssikres, struktureres og dokumenteres. Dette er en forutsetning for at andre skal skulle gjenfinne, forstå og gjenbruke dataene du deler. Under er en oversikt over steg man bør gjennomføre for å klargjøre dataene. Husk å sjekke hvilke føringer dataarkivet legger dataene.
Merk! De fleste av disse stegene bør implementeres på et tidlig tidspunkt i forskningsprosjektet for å unngå merarbeid, følgefeil og sikre best mulig datakvalitet.
Klargjøring
Skriv dokumentasjon for dataene
For at dataene dine skal kunne forstås og gjenbrukes av andre forskere må de dokumenteres på en oversiktlig måte. Dette gjøres ved å skrive en README-fil.
En godt formulert README-fil inneholder oppdatert og detaljert informasjon om dataene, beskrevet på en kortfattet og entydig måte. Informasjonen skal være selvforklarende og det er som med resten av dataene som skal deponeres, viktig at de skrevet i et åpent fil-format (enten som .txt eller .md).
Bestepraksis vil være å opprette README-filen ved starten av prosjektet og holde den oppdatert underveis ettersom endringer og opprettelse av nye filer kommer til. På denne måten vil filen kunne fungere som en oversikt for de deltagende under og etter prosjektet, samt være ferdigstilt i forkant av tidspunktet for deponering i arkiv. README-filen bør plasseres i øverste nivå i prosjektmappen.
Under er en liste med informasjon som vil være vesentlig å inkludere i en README-fil:
Essensiell informasjon
- Generell bakgrunnsinformasjon (Tittel på datasettet, DOI, kontaktinformasjon, dato, sted, eierskap, finansiør)
- Metodebeskrivelse (protokoll, instrumenter, programvare)
- Data- og filoversikt
- Filspesifikk informasjon
- Vilkår for gjenbruk
Annen viktig informasjon
- Beskrivelser, instruksjoner og protokoller for innsamling, prosessering og analysesteg
- Konfigurasjonsfiler og loggfiler
- Ordlister, kodebøker
- Variabellister
- Informasjonsskriv og samtykkeskjema
- Meldeskjema og forhåndsvurdering fra Sikt, eventuelle etiske godkjenninger
- Spørreskjema og intervjuguide
- Tillatelser og lisenser fra eventuelle rettighetsinnehavere
Sikre at dataene er FAIR
FAIR står for Findable, Accessible, Interoperable og Reusable og handler i all hovedsak om å håndtere og beskrive data på en måte som setter andre i stand til å forstå og bruke dem i framtiden. Oppsummert kan man si at dataene skal være:
- Gjenfinnbare – Data og/eller metadata bør være lett å gjenfinne, både for mennesker og maskiner.
- Tilgjengelige – Når dataene har blitt funnet, må mennesker og maskiner ha kunne ha tilgang til dataene og/eller metadataene.
- Samhandlende – Dataene må være interoperable med applikasjoner eller arbeidsflyter for analyse, lagring og prosessering.
- Gjenbrukbare – Data og metadata bør være godt dokumentert sånn at de kan replikeres og/eller kombineres i forskjellige sammenhenger.
Merk! Hver av de fire overnevnte kategoriene har et sett med tilhørende prinsipper. I FAIR er det totalt 15 prinsipper.
Selv om det er et mål at data deles åpent og fritt tilgjengelig, og at man sånn sett vil være i overenstemmelse med FAIR-prinsippene, vil ikke alle data kunne deles like åpent (eller deles i det hele tatt). EU-kommisjonen, samt forskningsrådet bruker i sitt krav til datadeling mantraet «så åpent som mulig, så lukket som nødvendig». Det samme er gjeldende for FAIR-prinsippene, man prater da om grad av FAIRness i form av hvor mange av prinsippene som oppfylles.
Hvor FAIR dataene dine kan være avhenger av dataenes innhold opp mot gjeldende lovverk og etiske retningslinjer, dataenes egenskaper og beskrivelsen av disse (f.eks. metadata og README-fil), samt infrastrukturen dataene plassere inn i. Sistnevnte medfører at valget av kvalitetssikrede og funksjonsrike arkiver er vesentlig for å kunne gjøre dataene dine mest mulig FAIR.
- Les mer FAIR-prinsippene og de underordnede elementene.
- Lær mer om FAIR og sentrale begreper gjennom FAIR Aware læringsressursen.
Deponering av data
Som del av prosessen å deponere i et dataarkiv må dataene beskrives ved å registrere metadata. Hvis dataene skal gjøres åpnet tilgjengelig må du i tillegg ta stilling til hvilken lisens dataene skal publiseres under.
Beskrivelse av dataene / metadata
Kort forklart er metadata «data om dataene», det vil si strukturert informasjon som beskriver dataene dine. Detaljerte og kvalitetssikrede metadata er en viktig del av det å gjøre dataene dine FAIR. Eksempel på metadata er informasjon som:
- Hvem som har produsert dataene og deres affiliering
- Emneord og fagfelt
- Hva slags type data filene inneholder
- Filtyper
- Lisens og bruksvilkår
Ved å registrere denne type informasjon i maskinlesbare metadataskjema muliggjøres søk og gjenfinning, samt gir forskere og systemer den kontekstuelle informasjonen nødvendig for gjenbruk av dataene. For å sikre at metadata er forståelige og interoperable på tvers av systemer, er det utviklet ulike metadatastandarder – generiske som passer alle fagfelt (f.eks. Dublin Core og DDI) og fagspesifikke som er tilpasset konkrete fagfelt. Som oftest vil dataarkiv stille krav til metadataene som skal registreres.
Under er et utvalg oversikter som viser fagspesifikke metadatastandarder:
I tillegg til metadatastandarder finnes det kontrollerte vokabular (og ontologier) som uttrykker standardiserte definisjoner for sentrale begreper innenfor et eller flere fagfelt. Det finnes et bredt utvalg av vokabularer som kan brukes for å beskrive data – noen inngår som en del av en metadatastandard, andre står på egenhånd. Så langt det er mulig (og dataarkivet har støtte for det) bør man benytte standardiserte termer og oppgi tilhørende URL for disse.
Eksempler på vokabular:
Valg av lisens
Når man publiserer data åpent i dataarkiv, må det bestemmes hvilken lisens og vilkår dataene skal gjøres tilgjengelig under. Her finnes en del forskjellige alternativer, men de mest brukte for datasett er Creative Commons (CC) og Open Data Commons (ODC). Hvert av rammeverkene har et sett med lisenser som alle varierer i grad av fri bruk og eventuelle restriksjoner som pålegges. Det kan også forekomme at arkiver/institusjonen bruker egendefinerte lisenser.
Hvis dataene skal arkiveres med begrenset tilgang må man undersøke om dataarkivet er tilstrekkelig sikret og har funksjonalitet for dette. For forskningsdata som inneholder personidentifiserende informasjon anbefaler vi at du deponerer dataene hos Sikt.
Les mer om sensitive data og personopplysninger og hvorvidt disse kan arkiveres.
Koble dataene med publikasjonen
Når man har deponert forskningsdataene som ligger til grunn for en vitenskapelig publikasjon er det vanlig å skrive en erklæring i teksten, et såkalt «data availability statement» eller «data access statement». I erklæringen oppgir man blant annet den fulle datareferansen med en varig og unik identifikator (f.eks. DOI). På denne måten opprettes det en kobling mellom publikasjonen og dataene.
Merk! For at lenken til dataene skal kunne inkluderes i manuskriptet må dataene deponeres i et arkiv i forkant av publiseringen av teksten.
4. Gjenfinning og gjenbruk
Gå tilbake til det forrige steget i prosessenGå tilbake til det forrige steget i prosessen3. Innsamling og bearbeidelse av forskningsdata
Gå tilbake til det forrige steget i prosessenGå tilbake til det forrige steget i prosessen