Öppna data – framtidens väg

2014-10-14

Tiden är inne för oss forskare att öppet publicera de data som ligger till grund för våra vetenskapliga publikationer. Låt mig förklara varför. Jag ska börja med en anekdot:

Ett av mina forskningsprojekt är en metaanalys, det vill säga en sammanställning av data från olika studier som har publicerats förut. Vi har ställt upp en forskningsfråga, och sedan har jag efter bästa förmåga letat igenom hela den medicinska litteraturen för att hitta data som kan användas för att besvara den. Från varje artikel som motsvarar våra kriterier har jag plockat ut de data vi behöver, ibland genom att plocka siffror från tabeller och text, och ibland genom att mäta punkter och linjer i diagram.

Ofta går data inte att använda. De kan ha rapporterats på ett sätt som gör att det inte går att uppskatta effekten som vi letar efter. Det kan till exempel röra sig om att forskarna har slagit ihop friska försökspersoner (som vi är intresserade av just nu) med olika patientgrupper. Eller att diagrammet som visar effekten har för låg upplösning. Eller att data inte publicerats alls, för att forskarna inte hittade någon signifikant effekt. Man får vara glad om de åtminstone nämner att ett sådant dataset existerar. Annars kunde man ju förledas att tro att det blev en signifikant effekt varje gång. Att lyckas få fram ett gammalt opublicerat dataset är inte mycket att hoppas på.

Data dör. En studie som har undersökt möjligheten att få fram gamla data inom ekologi fann att de försvinner med en takt av 7 procent per år. Mortaliteten beror nog sällan på att data aktivt bringas om sin existens. Ofta finns de kvar på en hårddisk, ett magnetband eller i en hög med utskrifter någonstans. Men den som arkiverat dem minns inte längre var, eller finns själv inte längre tillgänglig. Och därmed är data funktionellt otillgängliga.

I praktiken blir effekten densamma som om vi kastade våra data i sjön. Mycket av arbetet blir värdelöst. Och detta är ett allvarligt problem. Dyrbara resurser har lagts ned. Försökspersoner kan ha underkastat sig riskfyllda ingrepp. Kostnaderna och riskerna har motiverats av studiens förväntade kunskapsvinst. Men när data inte kan uppskattas kan de heller inte vara en del av kunskapsbygget. Därmed försvinner den potentiella vinsten. Och vågskålen väger då över: ingreppen saknar tillfredsställande motiv. Därför är fullständig rapportering av forskningsdata ett etiskt grundkrav.

Öppna data är en viktig princip även av andra skäl. Ett är att risken för dubiösa forskningsmetoder minskar. Det är mycket svårare att fuska om man måste visa upp sina rådata. Och andra tveksamma metoder – till exempel illa valda statistiska metoder – kan mycket lättare korrigeras om vem som helst direkt kan ta fram data och själv analysera dem. Så kan vi komma närmare idealet av en levande och självkorrigerande vetenskaplig process.

Det finns också ett demokratiskt argument för öppna forskningsdata. Det borde stå vem som helst fritt att bilda sig en uppfattning i samhällsviktiga frågor. Och för att göra det krävs ibland att man kan undersöka och bedöma de data som ligger till grund för olika påståenden. Om forskningen dessutom har finansierats med skattemedel är skälen än starkare att data görs tillgängliga för allmänheten.

Förut fanns det inga riktigt bra sätt att publicera data. Men nu finns det ett stort antal öppna arkiv på internet, där data kan publiceras med garantier för att sparas på ett permanent och citeringsbart sätt. En del vetenskapliga tidskrifter, till exempel PLoS One, har infört policies om att alla data som bildar underlag för en ny artikel måste publiceras. Vetenskapsrådet har nyligen släppt ett utkast till nationella riktlinjer för tillgång till vetenskaplig information, vilket jag avser att återkomma till i ett kommande inlägg. Jag är övertygad om att dessa steg är i rätt riktning. Som forskare behöver vi planera för datas livscykel redan från början av ett projekt, och sedan se till att de publiceras öppet så att de alltid finns tillgängliga, både för oss själva och för andra. Detta är en viktig kvalitetsfråga. Och det är vi själva inom vetenskapssamhället som måste driva kulturförändringen.