Logotyp Curie - samtal om forskningens villkor

Krönika

Slutet för hårddisken i byrålådan?

I teorin kan jag lätt komma åt alla modeller, data och analysskript från mina år som doktorand, skriver Malin Sandström.

De ligger på hårddiskar, noggrant inpackade i antistatiska påsar, i byrålådan. Skulle jag behöva komma åt faktiska filer blir det svårare – dels ska diskarna fortfarande fungera, dels ska det gå att hitta och installera gamla versioner av programmen som kör modellerna eller läser in och analyserar mina data. Vissa filformat kan jag inte alls använda, eftersom mjukvaran som kör dem kräver en snordyr licens som jag inte längre har tillgång till.

Än så länge kan vi nog kalla problemet med att nå mina data “svettigt men inte omöjligt”. Men om tio år? Tjugo? (Och om jag själv inte är tillgänglig då – kan någon annan alls förstå och återskapa det jag gjort?)

Deprimerande nog är jag långtifrån ensam. Så ser det ut lite överallt i den akademiska världen. En studie av tillgängligheten för data bakom drygt 500 biologiartiklar från ett och samma subfält, som publicerades i början av året, visar att data snabbt blir otillgängliga. Data från artiklar som publicerades 1991 gick bara att få tag på i en tredjedel av fallen – antingen var kontaktpersonerna omöjliga att få tag på, eller så låg data otillgängligt på avlägsna platser och i format som slutat fungera (minns ni zipdrive?). Även nya data var relativt svåra att få tag på, men då främst för att många tillfrågade inte ville dela med sig.

Datadelning är ett komplext problem med såväl tekniska som sociologiska aspekter, ibland även etiska och lagliga (särskilt inom det medicinska området). Trycket på att dela ökar, både från finansiärer och från tidskrifter, och det har flammat upp flera intressanta diskussioner i spåren av ändrade riktlinjer och krav (till exempel reaktionerna på PLoS ändrade datapolicy i början av året).

Personligen gillar jag principen att göra data tillgängligt (senast) i samband med publikationen av en artikel. Tillgängliggörandet löser inte problemet med att kunna reproducera egna och andras resultat – ofta ligger det många analyssteg mellan data och resultat, och analysstegen kan vara svåra att replikera – men det tar bort de ”enkla” delarna av problemet: Data som blir onåbara för att en kontaktperson för länge sedan bytt jobb och mailadress, data som går upp i rök för att lagringsformat blir trasiga eller obsoleta.

Det gläder mig att möjligheten att publicera diverse sorters data formligen har exploderat under de sista åren, åtminstone inom mitt fält. Initiativ som Dryad och Figshare låter användare dela allt från figurer till kod och filer, unikt identifierbart och citerbart. Data kan publiceras som rena dataset med en DOI (DataCite), minipublikationer (t ex F1000 ResearchNotes) eller som hela papper (GigaScience, Journal of Neuroinformatics). Till och med Nature har startat en datatidskrift. Det ska bli så intressant att se vad som händer de närmaste åren. Blir det här slutet för hårddisken i byrålådan?

Current Biology: The Availability of Research Data Declines Rapidly with Article Age (English) Länk till annan webbplats.

Plos One: Plos’ New Data Policy: Public Access to Data (English) Länk till annan webbplats.

DataCite is a global non-profit organisation that provides persistent identifiers (DOIs) for research data and other research outputs. (English) Länk till annan webbplats.

Minipublikationen F1000 Research Notes (English) Länk till annan webbplats.

GigaScience (English) Länk till annan webbplats.

Journal of Neuroinformatics (English) Länk till annan webbplats.

Nature: Scientific Data (English) Länk till annan webbplats.

Mer om skribenten

  • porträttbild Malin Sandström

    Community Engagement Officer

    Hon skriver om beräkningsbiologi, dataexplosionen och att göra övergången från forskare till akademins yttre kretsar. Malin Sandström arbetar med neuroinformatik.

Du kanske också vill läsa

Nyhet 11 september 2018

Inna Sevelius

Digitaliseringen av vetenskapliga tidskrifter har ökat utbudet på universiteten. Men förlagens paketförsäljning av elektroniska tidskrifter innebär också nackdelar för forskarna, e...

Nyhet 11 september 2018

Inna Sevelius

Förlagsjätten Elsevier tar betalt för både läsrättigheter och öppen publicering på nätet. För de svenska lärosätena medför detta skenande kostnader. Förhandlingarna bröt samman i m...

Debatt 23 oktober 2018

Pernilla Wittung-Stafshede och Lynn Kamerlin

Forskning ska vara öppen och fritt tillgänglig. Men den plan för open access som i dagsläget elva europeiska länder står bakom går för långt och kan få allvarliga konsekvenser för ...