Innhold på denne siden:

Deling av forskningsdata foregår overordnet i to forskjellige former formell og uformell 

Formell deling favner det som typisk omtales som arkivering og publisering av data (og blant annet publisering av dataene som del av en artikkel). Deponering av data i arkiver skjer gjennom etablerte, gjerne sertifiserte dataarkiver. Disse arkivene sikrer god praksis for langtidsbevaring, metadatahåndtering, gjenfinnbarhet og tilrettelegger for at dataene kan siteres, gjenbrukes og valideres på en transparent måte 

Innenfor deling gjennom formaliserte kanaler finnes ulik grad av tilgjengelighet og gjenbrukbarhet som i stor grad styres av juridiske (f.eks. personvernlovgivning og datasikkerhet, opphavsrett og eierskap) og forskningsetiske (f.eks. sårbare grupper, manglende samtykke, misbruk og feilbruk) føringer, dvs. ikke alle forskningsdata kan stilles fritt til rådighet for offentligheten. Noen typer data vil aldri kunne deles, andre vil måtte anonymiseres før de kan deles eller kun kunne deles under særskilte vilkår i form av f.eks. begrenset tilgang, krav om databehandleravtaler, restriksjoner knyttet til bruksformål eller embargo.   

Motbøren til data som deles med begrensinger er åpne data. Dette er data som er gjort tilgjengelige med de tekniske og juridiske egenskaper som er nødvendige for at de skal kunne brukes fritt, og bli distribuert av hvem som helst, når som helst og hvor som helst.

Mens uformell deling viser til øvrige metoder for deling, men hvor dataene deles direkte mellom forskere eller forskergrupper utenfor etablerte arkiveringsløsninger. Eksempler på uformell deling inkluderer deling via e-post, personlig kommunikasjon, nettverk eller samarbeidsplattformer som ikke sikrer langvarig bevaring, søkbarhet eller tilgangsstyring. Som med deponering i arkiv er det viktig at juridiske og forskningsetiske føringer etterfølges, selv når dataene deles i mindre formell kapasitet.

Løsninger for å sende data (uformell deling) 

Data som deles i mer uformell kapasitet, enten innad i prosjekter eller med kollegaer bør som med lagring og arkivering skje på en sikker måte som ivaretar overenstemmelse med lovverk, etiske retningslinjer og generell datasikkerhet. Dette går både på hvordan og hvor filene deles, men også hvorvidt de bør deles.  

Filesender 

Sikt har utviklet en sikkerhetsmessig og pålitelig løsning for å dele små og store filer med andre forskere. FileSender gir deg kontroll over hvem som kan laste ned filen, mulighet til å sette eget tidsvindu for nedlastning og innhente rapporter for nedlastningsstatistikk. Tjenesten er gratis.  

Arkivering og publisering av forskningsdata 

Deling av forskningsdata gir flere viktige fordeler både for forskeren, forskningssamfunnet og samfunnet for øvrig: 

  1. Økt synlighet
  2. Bedre ressursutnyttelse og muliggjørelse av reanalyser
  3. Styrket pålitelighet og etterprøvbarhet av forskningsresultater og med det publikasjonens kvalitet 
  4. Muligheter for å finne nye samarbeidspartnere
  5. Langtidsbevaring som sikrer at dataene ikke forsvinner 

I tillegg til de overnevnte fordelene stilles det nå stadig strengere krav og forventinger fra nasjonale myndigheter, forskningsfinansiører og tidsskrift til at forskningsdata gjøres åpent tilgjengelig under prinsippet «så åpent som mulig, så lukket som nødvendig». 

Kontroller at dataene dine kan deles 

Før du publiserer eller arkiverer forskningsdataene dine, er det viktig at du vurderer om du har lov til å dele dataene, og om dette er forsvarlig. Det kan være juridiske, forskningsetiske, sikkerhetsmessige, kontraktuelle obligasjoner eller kommersielle hensyn som begrenser muligheten for deling. 

Personopplysninger og sensitive data 

Forskningsdata som inneholder personopplysninger eller sensitive data, for eksempel konfidensiell informasjon eller særlige kategorier av personopplysninger, kan ikke publiseres åpent. Men det er mulig at enkelte av disse dataene kan deles med begrenset tilgang, forutsatt at nødvendige forholdsregler er ivaretatt.

Personopplysninger skal slettes

Som hovedregel skal data som inneholder personopplysninger slettes eller anonymiseres ved prosjektslutt.

Les mer om håndtering av personopplysninger i forskningsprosjekter ved Kristiania.

Ved kvalitative data anbefales det å innhente informantenes eksplisitte samtykke til begrenset publisering av indirekte personopplysninger. Dette skyldes at full anonymisering av kvalitative data kan være vanskelig, tidkrevende og kan redusere datasettets verdi for senere forskning. Dersom informantene har gitt samtykke til at indirekte identifiserbare data deles under spesifikke betingelser, kan datasettet publiseres uten fullstendig anonymisering.

For forskningsdata som inneholder personidentifiserende informasjon anbefaler vi at du deponerer dataene hos Sikt. Vær oppmerksom på at Sikt ikke tar imot allerede anonymiserte kvalitative data, da de foretar egen anonymisering. 

Les mer Sikts arkivtjenester.

Merk! Ved Høyskolen Kristiania er Sikt rådgiver for personvern i forskning og vurderer lovligheten i forskningsprosjektet opp mot EUs personvernforordning (GDPR) og personopplysningsloven. Hvis man planlegger arkivering av forskningsdata som inneholder personopplysninger (direkte eller indirekte personindentifiserende) skal man derfor alltid opplyse om dette i meldeskjemaet. 

Deling av anonymiserte data 

Anonymiserte data, altså data som verken inneholder direkte eller indirekte identifiserende informasjon, omfattes ikke av EUs personvernforordning (GDPR) og personopplysningsloven. Fullstendig anonymiserte data kan deles åpent, forutsatt at andre juridiske og forskningsetiske forhold er klarert. Anonymisering må ikke forveksles med avidentifisering og pseudonymisering. 

Les mer om anonymisering av data i forskningsprosjekter på Kristianias veiledningssider for personvern.

Eierskap og opphavsrett 

Hvis du bruker allerede eksisterende data fra en tredjepart må du forholde deg til lisensieringen og bruksvilkår som dataene ble stilt til rådigheter under. Disse vil bestemme hvorvidt dataene kan publiseres åpent eller deles videre med kollegaer og studenter. Det samme gjelder for annet opphavsrettslig materiale som skulle inngå i dataene (f.eks. bilder). 

Forskningsetiske forhold 

Selv om forskningsdataene kan deles juridisk vil det være tilfeller hvor å publisere dataene vil kunne regnes som etisk uforsvarlig, for eksempel ved forskning på sårbare eller marginaliserte samfunnsgrupper.  

For mer informasjon om etisk deling av forskningsdata, se CARE-prinsippene. 

Valg av dataarkiv 

Når du skal velge dataarkiv er det flere spørsmål man bør vurdere 

Spørsmål om dataarkiv

Generelle dataarkiv 

Under har vi gjort et utvalg av ofte brukte, men mer generelle dataarkiv. I tillegg til søkeressurser som kan hjelpe med å finne og identifisere dataarkiv som er relevant for dine forskningsdata 

  • Sikt Arkivere alle typer digitale forskningsdata om mennesker og samfunn, inkludert data som krever spesiell håndtering eller tillatelse, som persondata. Sikt sitt dataarkiv er CoreTrustSeal sertifisert. Data kan publiseres åpent eller med begrenset tilgang. Les mer om Sikt sine tjenester for dataarkivering.
  • DataverseNODataverseNO er et nasjonalt, generelt arkiv for åpne forskningsdata. Arkivet forvaltes av UiT Norges arktiske universitet på vegne av et nasjonalt konsortium bestående av DataverseNOs partnerinstitusjoner. Arkivet støtter FAIR-prinsippene for håndtering og forvaltning av forskningsdata og er sertifisert med CoreTrustSeal. Les mer om hvordan du kan arkivere i DataverseNO.
  • Zenodo –  Zenodo er et internasjonalt, generelt arkiv for åpne forskningsdata, utviklet og driftet av CERN gjennom OpenAIRE-prosjektet. Arkivet støtter FAIR-prinsippene og tilgjengeliggjør forskning på tvers av fagdisipliner. Les mer om hvordan du arkiverer i Zenodo.
  • NIRD Research Data Archive (RDA) NIRD RDA driftes av SIGMA2 og har som formål å gjøre forskningsdata fra norske institusjoner søkbare, tilgjengelige og gjenbrukbare i minst 10 år. Arkivet er beregnet for større datasett (enkeltfiler på 1TB eller større). Les mer om deponering av data til NIRD RDA.
  • Open Science Framework (OSF) Open Science Framework (OSF) er en gratis, åpen plattform utviklet av Center for Open Science (COS) for å støtte åpen og transparent forskning. OSF har en egen modul for dataarkivering hvor man kan deponere data fra alle fagfelt. Les mer Open Science Framework.

Søkeressurser for å finne dataarkiv 

Klargjøring for arkivering og publisering 

Før dataene kan deponeres i et dataarkiv og publiseres må de kvalitetssikres, struktureres og dokumenteres. Dette er en forutsetning for at andre skal skulle gjenfinne, forstå og gjenbruke dataene du deler. Under er en oversikt over steg man bør gjennomføre for å klargjøre dataene. Husk å sjekke hvilke føringer dataarkivet legger dataene.   

Merk! De fleste av disse stegene bør implementeres på et tidlig tidspunkt i forskningsprosjektet for å unngå merarbeid, følgefeil og sikre best mulig datakvalitet.  

Klargjøring

Skriv dokumentasjon for dataene 

For at dataene dine skal kunne forstås og gjenbrukes av andre forskere må de dokumenteres på en oversiktlig måte. Dette gjøres ved å skrive en README-fil  

En godt formulert README-fil inneholder oppdatert og detaljert informasjon om dataene, beskrevet på en kortfattet og entydig måte. Informasjonen skal være selvforklarende og det er som med resten av dataene som skal deponeres, viktig at de skrevet i et åpent fil-format (enten som .txt eller .md).   

Bestepraksis vil være å opprette README-filen ved starten av prosjektet og holde den oppdatert underveis ettersom endringer og opprettelse av nye filer kommer til. På denne måten vil filen kunne fungere som en oversikt for de deltagende under og etter prosjektet, samt være ferdigstilt i forkant av tidspunktet for deponering i arkiv. README-filen bør plasseres i øverste nivå i prosjektmappen. 

DataverseNO har utviklet en mal for README-filer, så sant dataarkivet du har valgt ikke har egne retningslinjer for dokumentasjon, kan denne benyttes. 

Under er en liste med informasjon som vil være vesentlig å inkludere i en README-fil:  

Essensiell informasjon 

  • Generell bakgrunnsinformasjon (Tittel på datasettet, DOI, kontaktinformasjon, dato, sted, eierskap, finansiør)
  • Metodebeskrivelse (protokoll, instrumenter, programvare)
  • Data- og filoversikt
  • Filspesifikk informasjon
  • Vilkår for gjenbruk 

Annen viktig informasjon 

  • Beskrivelser, instruksjoner og protokoller for innsamling, prosessering og analysesteg
  • Konfigurasjonsfiler og loggfiler  
  • Ordlister, kodebøker
  • Variabellister
  • Informasjonsskriv og samtykkeskjema
  • Meldeskjema og forhåndsvurdering fra Sikt, eventuelle etiske godkjenninger
  • Spørreskjema og intervjuguide
  • Tillatelser og lisenser fra eventuelle rettighetsinnehavere 

Sikre at dataene er FAIR 

FAIR står for Findable, Accessible, Interoperable og Reusable og handler i all hovedsak om å håndtere og beskrive data på en måte som setter andre i stand til å forstå og bruke dem i framtiden. Oppsummert kan man si at dataene skal være 

  • Gjenfinnbare – Data og/eller metadata bør være lett å gjenfinne, både for mennesker og maskiner.  
  • Tilgjengelige – Når dataene har blitt funnet, må mennesker og maskiner ha kunne ha tilgang til dataene og/eller metadataene.  
  • Samhandlende – Dataene må være interoperable med applikasjoner eller arbeidsflyter for analyse, lagring og prosessering.  
  • Gjenbrukbare – Data og metadata bør være godt dokumentert sånn at de kan replikeres og/eller kombineres i forskjellige sammenhenger.   

Merk! Hver av de fire overnevnte kategoriene har et sett med tilhørende prinsipper. I FAIR er det totalt 15 prinsipper.   

Selv om det er et mål at data deles åpent og fritt tilgjengelig, og at man sånn sett vil være i overenstemmelse med FAIR-prinsippene, vil ikke alle data kunne deles like åpent (eller deles i det hele tatt). EU-kommisjonen, samt forskningsrådet bruker i sitt krav til datadeling mantraet «så åpent som mulig, så lukket som nødvendig». Det samme er gjeldende for FAIR-prinsippene, man prater da om grad av FAIRness i form av hvor mange av prinsippene som oppfylles 

Hvor FAIR dataene dine kan være avhenger av dataenes innhold opp mot gjeldende lovverk og etiske retningslinjer, dataenes egenskaper og beskrivelsen av disse (f.eks. metadata og README-fil), samt infrastrukturen dataene plassere inn i. Sistnevnte medfører at valget av kvalitetssikrede og funksjonsrike arkiver er vesentlig for å kunne gjøre dataene dine mest mulig FAIR. 

Deponering av data 

Som del av prosessen å deponere i et dataarkiv må dataene beskrives ved å registrere metadata. Hvis dataene skal gjøres åpnet tilgjengelig må du i tillegg ta stilling til hvilken lisens dataene skal publiseres under.

Beskrivelse av dataene / metadata   

Kort forklart er metadata «data om dataene», det vil si strukturert informasjon som beskriver dataene dine. Detaljerte og kvalitetssikrede metadata er en viktig del av det å gjøre dataene dine FAIR. Eksempel på metadata er informasjon som:  

  • Hvem som har produsert dataene og deres affiliering
  • Emneord og fagfelt
  • Hva slags type data filene inneholder
  • Filtyper
  • Lisens og bruksvilkår 

Ved å registrere denne type informasjon i maskinlesbare metadataskjema muliggjøres søk og gjenfinning, samt gir forskere og systemer den kontekstuelle informasjonen nødvendig for gjenbruk av dataene. For å sikre at metadata er forståelige og interoperable på tvers av systemer, er det utviklet ulike metadatastandarder – generiske som passer alle fagfelt (f.eks. Dublin Core og DDI) og fagspesifikke som er tilpasset konkrete fagfelt. Som oftest vil dataarkiv stille krav til metadataene som skal registreres. 

Under er et utvalg oversikter som viser fagspesifikke metadatastandarder:  

I tillegg til metadatastandarder finnes det kontrollerte vokabular (og ontologier) som uttrykker standardiserte definisjoner for sentrale begreper innenfor et eller flere fagfelt. Det finnes et bredt utvalg av vokabularer som kan brukes for å beskrive data – noen inngår som en del av en metadatastandard, andre står på egenhånd. Så langt det er mulig (og dataarkivet har støtte for det) bør man benytte standardiserte termer og oppgi tilhørende URL for disse  

Eksempler på vokabular:  

Valg av lisens 

Når man publiserer data åpent i dataarkiv, må det bestemmes hvilken lisens og vilkår dataene skal gjøres tilgjengelig under. Her finnes en del forskjellige alternativer, men de mest brukte for datasett er Creative Commons (CC) og Open Data Commons (ODC). Hvert av rammeverkene har et sett med lisenser som alle varierer i grad av fri bruk og eventuelle restriksjoner som pålegges. Det kan også forekomme at arkiver/institusjonen bruker egendefinerte lisenser.   

 Hvis dataene skal arkiveres med begrenset tilgang må man undersøke om dataarkivet er tilstrekkelig sikret og har funksjonalitet for dette. For forskningsdata som inneholder personidentifiserende informasjon anbefaler vi at du deponerer dataene hos Sikt 

Les mer om sensitive data og personopplysninger og hvorvidt disse kan arkiveres. 

Koble dataene med publikasjonen 

Når man har deponert forskningsdataene som ligger til grunn for en vitenskapelig publikasjon er det vanlig å skrive en erklæring i teksten, et såkalt «data availability statement» eller «data access statement». I erklæringen oppgir man blant annet den fulle datareferansen med en varig og unik identifikator (f.eks. DOI). På denne måten opprettes det en kobling mellom publikasjonen og dataene.  

Merk! For at lenken til dataene skal kunne inkluderes i manuskriptet må dataene deponeres i et arkiv i forkant av publiseringen av teksten