Logotyp Curie - samtal om forskningens villkor

Krönika

Slutet för hårddisken i byrålådan?

I teorin kan jag lätt komma åt alla modeller, data och analysskript från mina år som doktorand, skriver Malin Sandström.

De ligger på hårddiskar, noggrant inpackade i antistatiska påsar, i byrålådan. Skulle jag behöva komma åt faktiska filer blir det svårare – dels ska diskarna fortfarande fungera, dels ska det gå att hitta och installera gamla versioner av programmen som kör modellerna eller läser in och analyserar mina data. Vissa filformat kan jag inte alls använda, eftersom mjukvaran som kör dem kräver en snordyr licens som jag inte längre har tillgång till.

Än så länge kan vi nog kalla problemet med att nå mina data “svettigt men inte omöjligt”. Men om tio år? Tjugo? (Och om jag själv inte är tillgänglig då – kan någon annan alls förstå och återskapa det jag gjort?)

Deprimerande nog är jag långtifrån ensam. Så ser det ut lite överallt i den akademiska världen. En studie av tillgängligheten för data bakom drygt 500 biologiartiklar från ett och samma subfält, som publicerades i början av året, visar att data snabbt blir otillgängliga. Data från artiklar som publicerades 1991 gick bara att få tag på i en tredjedel av fallen – antingen var kontaktpersonerna omöjliga att få tag på, eller så låg data otillgängligt på avlägsna platser och i format som slutat fungera (minns ni zipdrive?). Även nya data var relativt svåra att få tag på, men då främst för att många tillfrågade inte ville dela med sig.

Datadelning är ett komplext problem med såväl tekniska som sociologiska aspekter, ibland även etiska och lagliga (särskilt inom det medicinska området). Trycket på att dela ökar, både från finansiärer och från tidskrifter, och det har flammat upp flera intressanta diskussioner i spåren av ändrade riktlinjer och krav (till exempel reaktionerna på PLoS ändrade datapolicy i början av året).

Personligen gillar jag principen att göra data tillgängligt (senast) i samband med publikationen av en artikel. Tillgängliggörandet löser inte problemet med att kunna reproducera egna och andras resultat – ofta ligger det många analyssteg mellan data och resultat, och analysstegen kan vara svåra att replikera – men det tar bort de ”enkla” delarna av problemet: Data som blir onåbara för att en kontaktperson för länge sedan bytt jobb och mailadress, data som går upp i rök för att lagringsformat blir trasiga eller obsoleta.

Det gläder mig att möjligheten att publicera diverse sorters data formligen har exploderat under de sista åren, åtminstone inom mitt fält. Initiativ som Dryad och Figshare låter användare dela allt från figurer till kod och filer, unikt identifierbart och citerbart. Data kan publiceras som rena dataset med en DOI (DataCite), minipublikationer (t ex F1000 ResearchNotes) eller som hela papper (GigaScience, Journal of Neuroinformatics). Till och med Nature har startat en datatidskrift. Det ska bli så intressant att se vad som händer de närmaste åren. Blir det här slutet för hårddisken i byrålådan?

Current Biology: The Availability of Research Data Declines Rapidly with Article Age (Engelska) Länk till annan webbplats.

Plos One: Plos’ New Data Policy: Public Access to Data (Engelska) Länk till annan webbplats.

DataCite is a global non-profit organisation that provides persistent identifiers (DOIs) for research data and other research outputs. (Engelska) Länk till annan webbplats.

Minipublikationen F1000 Research Notes (Engelska) Länk till annan webbplats.

GigaScience (Engelska) Länk till annan webbplats.

Journal of Neuroinformatics (Engelska) Länk till annan webbplats.

Nature: Scientific Data (Engelska) Länk till annan webbplats.

Mer om skribenten

  • porträttbild Malin Sandström

    Community Engagement Officer

    Hon skriver om beräkningsbiologi, dataexplosionen och att göra övergången från forskare till akademins yttre kretsar. Malin Sandström arbetar med neuroinformatik.

Du kanske också vill läsa

Nyhet 22 maj 2012

Carin Mannberg-Zackari

Ökad kvalitetskontroll och open access-publicering av vetenskaplig litteratur. Det är målet med ett projekt som startade vid årsskiftet.

Nyhet 22 maj 2012

Carin Mannberg-Zackari

Antalet artiklar som publiceras i open access har ökat med 30 procent om året sedan 2000. Allt fler statliga och privata forskningsfinansiärer i Sverige kräver att resultaten ska v...

Nyhet 19 januari 2017

Anja Castensson

Curie har pratat med forskare som delar språkdata, vattenmodeller och DNA-sekvenser över hela världen. De praktiska utmaningarna ser olika ut beroende på forskningsfält, men gemens...