5. Arkivering og deling av forskningsdata

Innhold på denne siden:

Formell og uformell data
Arkivering og publisering av forskningsdata
Kontroller at dataene kan deles
Valg av dataarkiv
Klargjøring for arkivering og publisering
Deponering av data
Koble dataene med publikasjonen

Deling av forskningsdata foregår overordnet i to forskjellige former – formell og uformell.

Formell deling favner det som typisk omtales som arkivering og publisering av data (og blant annet publisering av dataene som del av en artikkel). Deponering av data i arkiver skjer gjennom etablerte, gjerne sertifiserte dataarkiver. Disse arkivene sikrer god praksis for langtidsbevaring, metadatahåndtering, gjenfinnbarhet og tilrettelegger for at dataene kan siteres, gjenbrukes og valideres på en transparent måte.

Innenfor deling gjennom formaliserte kanaler finnes ulik grad av tilgjengelighet og gjenbrukbarhet som i stor grad styres av juridiske (f.eks. personvernlovgivning og datasikkerhet, opphavsrett og eierskap) og forskningsetiske (f.eks. sårbare grupper, manglende samtykke, misbruk og feilbruk) føringer, dvs. ikke alle forskningsdata kan stilles fritt til rådighet for offentligheten. Noen typer data vil aldri kunne deles, andre vil måtte anonymiseres før de kan deles eller kun kunne deles under særskilte vilkår i form av f.eks. begrenset tilgang, krav om databehandleravtaler, restriksjoner knyttet til bruksformål eller embargo.

Motbøren til data som deles med begrensinger er åpne data. Dette er data som er gjort tilgjengelige med de tekniske og juridiske egenskaper som er nødvendige for at de skal kunne brukes fritt, og bli distribuert av hvem som helst, når som helst og hvor som helst.

Mens uformell deling viser til øvrige metoder for deling, men hvor dataene deles direkte mellom forskere eller forskergrupper utenfor etablerte arkiveringsløsninger. Eksempler på uformell deling inkluderer deling via e-post, personlig kommunikasjon, nettverk eller samarbeidsplattformer som ikke sikrer langvarig bevaring, søkbarhet eller tilgangsstyring. Som med deponering i arkiv er det viktig at juridiske og forskningsetiske føringer etterfølges, selv når dataene deles i mindre formell kapasitet.

Løsninger for å sende data (uformell deling)

Data som deles i mer uformell kapasitet, enten innad i prosjekter eller med kollegaer bør som med lagring og arkivering skje på en sikker måte som ivaretar overenstemmelse med lovverk, etiske retningslinjer og generell datasikkerhet. Dette går både på hvordan og hvor filene deles, men også hvorvidt de bør deles.

Filesender

Sikt har utviklet en sikkerhetsmessig og pålitelig løsning for å dele små og store filer med andre forskere. FileSender gir deg kontroll over hvem som kan laste ned filen, mulighet til å sette eget tidsvindu for nedlastning og innhente rapporter for nedlastningsstatistikk. Tjenesten er gratis.

- Personvern
  Les mer om personvern ved Kristiania her.
  Les mer om personvern ved Kristiania her.
- Forskningsetikk
  Les mer om forskningsetikk ved Kristiania her.
  Les mer om forskningsetikk ved Kristiania her.

Arkivering og publisering av forskningsdata

Deling av forskningsdata gir flere viktige fordeler både for forskeren, forskningssamfunnet og samfunnet for øvrig:

Økt synlighet
Bedre ressursutnyttelse og muliggjørelse av reanalyser
Styrket pålitelighet og etterprøvbarhet av forskningsresultater og med det publikasjonens kvalitet
Muligheter for å finne nye samarbeidspartnere
Langtidsbevaring som sikrer at dataene ikke forsvinner

I tillegg til de overnevnte fordelene stilles det nå stadig strengere krav og forventinger fra nasjonale myndigheter, forskningsfinansiører og tidsskrift til at forskningsdata gjøres åpent tilgjengelig under prinsippet «så åpent som mulig, så lukket som nødvendig».

Kontroller at dataene dine kan deles

Før du publiserer eller arkiverer forskningsdataene dine, er det viktig at du vurderer om du har lov til å dele dataene, og om dette er forsvarlig. Det kan være juridiske, forskningsetiske, sikkerhetsmessige, kontraktuelle obligasjoner eller kommersielle hensyn som begrenser muligheten for deling.

Personopplysninger og sensitive data

Forskningsdata som inneholder personopplysninger eller sensitive data, for eksempel konfidensiell informasjon eller særlige kategorier av personopplysninger, kan ikke publiseres åpent. Men det er mulig at enkelte av disse dataene kan deles med begrenset tilgang, forutsatt at nødvendige forholdsregler er ivaretatt.

Personopplysninger skal slettes

Som hovedregel skal data som inneholder personopplysninger slettes eller anonymiseres ved prosjektslutt.

Les mer om håndtering av personopplysninger i forskningsprosjekter ved Kristiania.

Ved kvalitative data anbefales det å innhente informantenes eksplisitte samtykke til begrenset publisering av indirekte personopplysninger. Dette skyldes at full anonymisering av kvalitative data kan være vanskelig, tidkrevende og kan redusere datasettets verdi for senere forskning. Dersom informantene har gitt samtykke til at indirekte identifiserbare data deles under spesifikke betingelser, kan datasettet publiseres uten fullstendig anonymisering.

For forskningsdata som inneholder personidentifiserende informasjon anbefaler vi at du deponerer dataene hos Sikt. Vær oppmerksom på at Sikt ikke tar imot allerede anonymiserte kvalitative data, da de foretar egen anonymisering.

Les mer Sikts arkivtjenester.

Merk! Ved Høyskolen Kristiania er Sikt rådgiver for personvern i forskning og vurderer lovligheten i forskningsprosjektet opp mot EUs personvernforordning (GDPR) og personopplysningsloven. Hvis man planlegger arkivering av forskningsdata som inneholder personopplysninger (direkte eller indirekte personindentifiserende) skal man derfor alltid opplyse om dette i meldeskjemaet.

Deling av anonymiserte data

Anonymiserte data, altså data som verken inneholder direkte eller indirekte identifiserende informasjon, omfattes ikke av EUs personvernforordning (GDPR) og personopplysningsloven. Fullstendig anonymiserte data kan deles åpent, forutsatt at andre juridiske og forskningsetiske forhold er klarert. Anonymisering må ikke forveksles med avidentifisering og pseudonymisering.

Les mer om anonymisering av data i forskningsprosjekter på Kristianias veiledningssider for personvern.

Eierskap og opphavsrett

Hvis du bruker allerede eksisterende data fra en tredjepart må du forholde deg til lisensieringen og bruksvilkår som dataene ble stilt til rådigheter under. Disse vil bestemme hvorvidt dataene kan publiseres åpent eller deles videre med kollegaer og studenter. Det samme gjelder for annet opphavsrettslig materiale som skulle inngå i dataene (f.eks. bilder).

Forskningsetiske forhold

Selv om forskningsdataene kan deles juridisk vil det være tilfeller hvor å publisere dataene vil kunne regnes som etisk uforsvarlig, for eksempel ved forskning på sårbare eller marginaliserte samfunnsgrupper.

For mer informasjon om etisk deling av forskningsdata, se CARE-prinsippene.

Valg av dataarkiv

Når du skal velge dataarkiv er det flere spørsmål man bør vurdere:

Spørsmål om dataarkiv

I noen tilfeller vil forskningsfinansiøren sette krav til hvilket arkiv dataene skal deponeres i. For eksempel kan enkelte prosjektet finansiert av Forskningsrådet pålegges å arkivere forskningsdata i et spesifikt arkiv, dette vil inngå som den av prosjektkontrakten.
I valget av dataarkiv bør du først undersøke om det finnes et domenespesifikke dataarkiv innenfor ditt eget fagfelt. Disse arkivene vil ofte være bedre tilpasset de særegne egenskapene som dataene som typisk samles inn på feltet har. Samtidig er det viktig å tenke målgruppe – hvis du ønsker å nå forskere innenfor eget fagfelt vil trolig et domenespesifikt dataarkiv ha større synlighet, være relevant for flere og med det ha økt innflytelse enn om de ble deponert i et generelt og ofte mer omfattende dataarkiv.

Hvis det ikke finnes et domenespesifikt alternativ relevant for ditt fagfelt eller du ønsker å nå en bredere målgruppe velger du et mer generelt og tverrfaglig dataarkiv.
Når en skal vurdere påliteligheten og kvaliteten av et dataarkiv er det enkleste å se etter sertifisering. Vi anbefaler at man velger arkiv med en CoreTrustSeal sertifisering. Det finnes også andre sertifiseringer som f.eks. Data Seal of Approval (DSA), Nestor Seal og ISO16363. Sertifiserte arkiv omtales ofte som «Trusted Digital Repositories» (TDR).

Vær oppmerksom på at det er flere grunner til hvorfor et dataarkiv ikke har en formell sertifisering, og at dette i seg selv ikke trenger å være problematisk. Det finnes flere eksempler på dataarkiv med et sterkt omdømme og posisjon i forskersamfunnet som ikke har sertifisering.

Hvis arkivet ikke er sertifisert er du i større grad avhengig av å gjøre en egen vurdering, basert på f.eks. omdømme, overenstemmelse med FAIR-prinsippene (punkt. 3), hvem som eier og drifter arkivet, finansiering, osv.
Se DCCs veileder for egenevaluering av dataarkivs pålitelighet.
Dataarkivet bør innfri flest mulig av FAIR-prinsippene, men noen er mer kritiske enn andre.
Ikke alle arkiv tillater alle typer lisenser eller eventuelle restriksjoner som begrenset tilgang. Hvis arkivet ikke støtter lisensen du ønsker å benytte eller en lisens med tilsvarende attributter, bør du velge et annet.
Oppgir arkivet hvor lenge forskningsdataene vil bli bevart og er det sikret finansiering for langsiktig vedlikehold og drift.
Du må på forhånd undersøke om det medfører kostnader for å publiseres/deponere data i arkivet, samt hvilke bruksvilkår som ligger til grunne. Ved kostander må det planlegges hvordan disse skal finansieres som del av prosjektbudsjettet.

Generelle dataarkiv

Under har vi gjort et utvalg av ofte brukte, men mer generelle dataarkiv. I tillegg til søkeressurser som kan hjelpe med å finne og identifisere dataarkiv som er relevant for dine forskningsdata.

Sikt – Arkivere alle typer digitale forskningsdata om mennesker og samfunn, inkludert data som krever spesiell håndtering eller tillatelse, som persondata. Sikt sitt dataarkiv er CoreTrustSeal sertifisert. Data kan publiseres åpent eller med begrenset tilgang. Les mer om Sikt sine tjenester for dataarkivering.
DataverseNO – DataverseNO er et nasjonalt, generelt arkiv for åpne forskningsdata. Arkivet forvaltes av UiT Norges arktiske universitet på vegne av et nasjonalt konsortium bestående av DataverseNOs partnerinstitusjoner. Arkivet støtter FAIR-prinsippene for håndtering og forvaltning av forskningsdata og er sertifisert med CoreTrustSeal. Les mer om hvordan du kan arkivere i DataverseNO.
Zenodo – Zenodo er et internasjonalt, generelt arkiv for åpne forskningsdata, utviklet og driftet av CERN gjennom OpenAIRE-prosjektet. Arkivet støtter FAIR-prinsippene og tilgjengeliggjør forskning på tvers av fagdisipliner. Les mer om hvordan du arkiverer i Zenodo.
NIRD Research Data Archive (RDA) – NIRD RDA driftes av SIGMA2 og har som formål å gjøre forskningsdata fra norske institusjoner søkbare, tilgjengelige og gjenbrukbare i minst 10 år. Arkivet er beregnet for større datasett (enkeltfiler på 1TB eller større). Les mer om deponering av data til NIRD RDA.
Open Science Framework (OSF) – Open Science Framework (OSF) er en gratis, åpen plattform utviklet av Center for Open Science (COS) for å støtte åpen og transparent forskning. OSF har en egen modul for dataarkivering hvor man kan deponere data fra alle fagfelt. Les mer Open Science Framework.

Søkeressurser for å finne dataarkiv

Klargjøring for arkivering og publisering

Før dataene kan deponeres i et dataarkiv og publiseres må de kvalitetssikres, struktureres og dokumenteres. Dette er en forutsetning for at andre skal skulle gjenfinne, forstå og gjenbruke dataene du deler. Under er en oversikt over steg man bør gjennomføre for å klargjøre dataene. Husk å sjekke hvilke føringer dataarkivet legger dataene.

Merk! De fleste av disse stegene bør implementeres på et tidlig tidspunkt i forskningsprosjektet for å unngå merarbeid, følgefeil og sikre best mulig datakvalitet.

Klargjøring

Filer må organiseres og struktureres på en meningsfull måte med en konsekvent logikk. Les mer om bestepraksis for strukturering av filer.
Før man kan deponere filene i et dataarkiv må de konverteres/kopieres over til et åpent og arkivverdig filformat. Dette øker sannsynligheten for at dataene kan bevares for fremtiden og at flest mulig kan åpne og gjenbruke filene uavhengig av programvare og operativsystem.

Les mer om åpne filformater.

Skriv dokumentasjon for dataene

For at dataene dine skal kunne forstås og gjenbrukes av andre forskere må de dokumenteres på en oversiktlig måte. Dette gjøres ved å skrive en README-fil.

En godt formulert README-fil inneholder oppdatert og detaljert informasjon om dataene, beskrevet på en kortfattet og entydig måte. Informasjonen skal være selvforklarende og det er som med resten av dataene som skal deponeres, viktig at de skrevet i et åpent fil-format (enten som .txt eller .md).

Bestepraksis vil være å opprette README-filen ved starten av prosjektet og holde den oppdatert underveis ettersom endringer og opprettelse av nye filer kommer til. På denne måten vil filen kunne fungere som en oversikt for de deltagende under og etter prosjektet, samt være ferdigstilt i forkant av tidspunktet for deponering i arkiv. README-filen bør plasseres i øverste nivå i prosjektmappen.

DataverseNO har utviklet en mal for README-filer, så sant dataarkivet du har valgt ikke har egne retningslinjer for dokumentasjon, kan denne benyttes.

Under er en liste med informasjon som vil være vesentlig å inkludere i en README-fil:

Essensiell informasjon

Generell bakgrunnsinformasjon (Tittel på datasettet, DOI, kontaktinformasjon, dato, sted, eierskap, finansiør)
Metodebeskrivelse (protokoll, instrumenter, programvare)
Data- og filoversikt
Filspesifikk informasjon
Vilkår for gjenbruk

Annen viktig informasjon

Beskrivelser, instruksjoner og protokoller for innsamling, prosessering og analysesteg
Konfigurasjonsfiler og loggfiler
Ordlister, kodebøker
Variabellister
Informasjonsskriv og samtykkeskjema
Meldeskjema og forhåndsvurdering fra Sikt, eventuelle etiske godkjenninger
Spørreskjema og intervjuguide
Tillatelser og lisenser fra eventuelle rettighetsinnehavere

Sikre at dataene er FAIR

FAIR står for Findable, Accessible, Interoperable og Reusable og handler i all hovedsak om å håndtere og beskrive data på en måte som setter andre i stand til å forstå og bruke dem i framtiden. Oppsummert kan man si at dataene skal være:

Gjenfinnbare – Data og/eller metadata bør være lett å gjenfinne, både for mennesker og maskiner.
Tilgjengelige – Når dataene har blitt funnet, må mennesker og maskiner ha kunne ha tilgang til dataene og/eller metadataene.
Samhandlende – Dataene må være interoperable med applikasjoner eller arbeidsflyter for analyse, lagring og prosessering.
Gjenbrukbare – Data og metadata bør være godt dokumentert sånn at de kan replikeres og/eller kombineres i forskjellige sammenhenger.

Merk! Hver av de fire overnevnte kategoriene har et sett med tilhørende prinsipper. I FAIR er det totalt 15 prinsipper.

Selv om det er et mål at data deles åpent og fritt tilgjengelig, og at man sånn sett vil være i overenstemmelse med FAIR-prinsippene, vil ikke alle data kunne deles like åpent (eller deles i det hele tatt). EU-kommisjonen, samt forskningsrådet bruker i sitt krav til datadeling mantraet «så åpent som mulig, så lukket som nødvendig». Det samme er gjeldende for FAIR-prinsippene, man prater da om grad av FAIRness i form av hvor mange av prinsippene som oppfylles.

Hvor FAIR dataene dine kan være avhenger av dataenes innhold opp mot gjeldende lovverk og etiske retningslinjer, dataenes egenskaper og beskrivelsen av disse (f.eks. metadata og README-fil), samt infrastrukturen dataene plassere inn i. Sistnevnte medfører at valget av kvalitetssikrede og funksjonsrike arkiver er vesentlig for å kunne gjøre dataene dine mest mulig FAIR.

Deponering av data

Som del av prosessen å deponere i et dataarkiv må dataene beskrives ved å registrere metadata. Hvis dataene skal gjøres åpnet tilgjengelig må du i tillegg ta stilling til hvilken lisens dataene skal publiseres under.

Beskrivelse av dataene / metadata

Kort forklart er metadata «data om dataene», det vil si strukturert informasjon som beskriver dataene dine. Detaljerte og kvalitetssikrede metadata er en viktig del av det å gjøre dataene dine FAIR. Eksempel på metadata er informasjon som:

Hvem som har produsert dataene og deres affiliering
Emneord og fagfelt
Hva slags type data filene inneholder
Filtyper
Lisens og bruksvilkår

Ved å registrere denne type informasjon i maskinlesbare metadataskjema muliggjøres søk og gjenfinning, samt gir forskere og systemer den kontekstuelle informasjonen nødvendig for gjenbruk av dataene. For å sikre at metadata er forståelige og interoperable på tvers av systemer, er det utviklet ulike metadatastandarder – generiske som passer alle fagfelt (f.eks. Dublin Core og DDI) og fagspesifikke som er tilpasset konkrete fagfelt. Som oftest vil dataarkiv stille krav til metadataene som skal registreres.

Under er et utvalg oversikter som viser fagspesifikke metadatastandarder:

I tillegg til metadatastandarder finnes det kontrollerte vokabular (og ontologier) som uttrykker standardiserte definisjoner for sentrale begreper innenfor et eller flere fagfelt. Det finnes et bredt utvalg av vokabularer som kan brukes for å beskrive data – noen inngår som en del av en metadatastandard, andre står på egenhånd. Så langt det er mulig (og dataarkivet har støtte for det) bør man benytte standardiserte termer og oppgi tilhørende URL for disse.

Eksempler på vokabular:

Valg av lisens

Når man publiserer data åpent i dataarkiv, må det bestemmes hvilken lisens og vilkår dataene skal gjøres tilgjengelig under. Her finnes en del forskjellige alternativer, men de mest brukte for datasett er Creative Commons (CC) og Open Data Commons (ODC). Hvert av rammeverkene har et sett med lisenser som alle varierer i grad av fri bruk og eventuelle restriksjoner som pålegges. Det kan også forekomme at arkiver/institusjonen bruker egendefinerte lisenser.

Hvis dataene skal arkiveres med begrenset tilgang må man undersøke om dataarkivet er tilstrekkelig sikret og har funksjonalitet for dette. For forskningsdata som inneholder personidentifiserende informasjon anbefaler vi at du deponerer dataene hos Sikt.

Les mer om sensitive data og personopplysninger og hvorvidt disse kan arkiveres.

Koble dataene med publikasjonen

Når man har deponert forskningsdataene som ligger til grunn for en vitenskapelig publikasjon er det vanlig å skrive en erklæring i teksten, et såkalt «data availability statement» eller «data access statement». I erklæringen oppgir man blant annet den fulle datareferansen med en varig og unik identifikator (f.eks. DOI). På denne måten opprettes det en kobling mellom publikasjonen og dataene.

Merk! For at lenken til dataene skal kunne inkluderes i manuskriptet må dataene deponeres i et arkiv i forkant av publiseringen av teksten.

- 4. Gjenfinning og gjenbruk
  Gå tilbake til det forrige steget i prosessen
  Gå tilbake til det forrige steget i prosessen
- 3. Innsamling og bearbeidelse av forskningsdata
  Gå tilbake til det forrige steget i prosessen
  Gå tilbake til det forrige steget i prosessen