Slutet för hårddisken i byrålådan?

2014-06-02

I teorin kan jag lätt komma åt alla modeller, data och analysskript från mina år som doktorand. De ligger på hårddiskar, noggrant inpackade i antistatiska påsar, i byrålådan. Skulle jag behöva komma åt faktiska filer blir det svårare – dels ska diskarna fortfarande fungera, dels ska det gå att hitta och installera gamla versioner av programmen som kör modellerna eller läser in och analyserar mina data. Vissa filformat kan jag inte alls använda, eftersom mjukvaran som kör dem kräver en snordyr licens som jag inte längre har tillgång till. Än så länge kan vi nog kalla problemet med att nå mina data “svettigt men inte omöjligt”. Men om tio år? Tjugo? (Och om jag själv inte är tillgänglig då – kan någon annan alls förstå och återskapa det jag gjort?)

Deprimerande nog är jag långtifrån ensam. Så ser det ut lite överallt i den akademiska världen. En studie av tillgängligheten för data bakom drygt 500 biologiartiklar från ett och samma subfält, som publicerades i början av året, visar att data snabbt blir otillgängliga. Data från artiklar som publicerades 1991 gick bara att få tag på i en tredjedel av fallen – antingen var kontaktpersonerna omöjliga att få tag på, eller så låg data otillgängligt på avlägsna platser och i format som slutat fungera (minns ni zipdrive?). Även nya data var relativt svåra att få tag på, men då främst för att många tillfrågade inte ville dela med sig.

Datadelning är ett komplext problem med såväl tekniska som sociologiska aspekter, ibland även etiska och lagliga (särskilt inom det medicinska området). Trycket på att dela ökar, både från finansiärer och från tidskrifter, och det har flammat upp flera intressanta diskussioner i spåren av ändrade riktlinjer och krav (till exempel reaktionerna på PLoS ändrade datapolicy i början av året).

Personligen gillar jag principen att  göra data tillgängligt (senast) i samband med publikationen av en artikel. Tillgängliggörandet löser inte problemet med att kunna reproducera egna och andras resultat – ofta ligger det många analyssteg mellan data och resultat, och analysstegen kan vara svåra att replikera – men det tar bort de ”enkla” delarna av problemet: Data som blir onåbara för att en kontaktperson för länge sedan bytt jobb och mailadress, data som går upp i rök för att lagringsformat blir trasiga eller obsoleta.

Det gläder mig att möjligheten att publicera diverse sorters data formligen har exploderat under de sista åren, åtminstone inom mitt fält. Initiativ som Dryad och Figshare låter användare dela allt från figurer till kod och filer, unikt identifierbart och citerbart. Data kan publiceras som rena dataset med en DOI (DataCite), minipublikationer (t ex F1000 ResearchNotes) eller som hela papper (GigaScience, Journal of Neuroinformatics).  Till och med Nature har startat en datatidskrift. Det ska bli så intressant att se vad som händer de närmaste åren. Blir det här slutet för hårddisken i byrålådan?