Öppna data – inte bara att lägga ut

English 2017-01-19

Curie har pratat med forskare som delar språkdata, vattenmodeller och DNA-sekvenser över hela världen. De praktiska utmaningarna ser olika ut beroende på forskningsfält, men gemensamt är att data måste förberedas. Det går inte bara att lägga ut.

Många forskare har idag mångårig erfarenhet av vad öppna data innebär i praktiken. SMHI, Sveriges meteorologiska och hydrologiska institut, tog för 5-10 år sedan det medvetna steget att börja dela sina data och analysverktyg. De används inte bara för forskning utan även för samhällsplanering kring översvämningar och dricksvatten.

Berit Arheimer som leder det hydrologiska forskningsarbetet på SMHI berättar:

– Det kan vara miljökonsulter som i Spanien ska ta reda på om det kommer finnas tillräckliga vattenflöden för att bevattna åkrarna i ett område, när temperaturen höjs i framtiden. Med hjälp av den webbaserade klimattjänsten Swicca kan de beräkna hur det sannolikt kommer att se ut.

Data behöver presenteras

SMHI arbetar inom EU:s storsatsning Copernicus med att erbjuda tjänster som Swicca och flera andra verktyg. Det innebär mycket arbete att visa data i kartform och att göra i ordning data.

– Det behöver vara användbart. För samhällskonsulter behöver det vara i en enkel tabellform, inte de komplexa dataformat som klimatforskare använder.

Det kräver eftertanke att ta fram metadata, information om data, och att uppskatta trovärdigheten i scenarierna.

– Om du inte vet tillräckligt mycket om data vågar du inte använda dem. Du behöver veta vad som ligger bakom data, hur beräkningarna är gjorda, osäkerheter, licenser och mycket mer.

Inte alla data går att lita på

SMHI förstår behovet av att försäkra sig, eftersom de själva också använder öppna data från andra organisationer och forskare. Det kan vara data som flödesmätningar och satellitbilder. Här finns det utmaningar att tvätta data innan de används. Inte alla mätdata är rimliga.

– En mätpunkt kan ligga mitt i havet till exempel.

Och ju öppnare format för att lägga upp data, desto större risk att det blir opålitligt. I det virtuella vattenlabbet, ett forum för vattenforskare, händer det att folk busar och laddar upp oseriösa data, till exempel mäter sitt badkarsvatten.

Samtidigt har öppna data utvecklat hydrologin på ett sätt som annars inte skulle varit möjligt.

– Hydrologin handlar om sötvattnets flöden. Tidigare forskade hydrologer oftare enbart på den lokala bäcken eller floden. Nu kan vi utbyta information över hela världen och lär oss mer om vad som styr vattenflödena tillsammans.

Stora datamängder kräver långsiktighet

Erik Kjellström leder arbetet på SMHI med klimatmodellering. För honom är öppna data en förutsättning för arbetet.

– Vi är extremt databeroende. För att kunna vidareutveckla modeller som förutsäger klimatet behöver vi både de data vi har och data som vi får utifrån.

SMHI lägger också själva upp sina data så att de är tillgängliga för andra forskare. Ett praktiskt problem inom detta fält är att datamängderna från klimatmodellering är så stora att länder med sämre uppkoppling kan ha svårt att ladda ned dem.

En annan viktig fråga är hur långsiktigheten i datahantering ska kunna garanteras. Det behövs personal med kompetens att sköta servrar och underhålla data liksom metadata, även efter att enskilda forskningsprojekt är avslutade.

Erik Kjellström är frågande till hur datalagring ska lösas på lång sikt när det finansieras av ett forskningsprojekt.

– Forskningsprojekt har sällan långsiktig finansiering.

Språkbanken hanterar upphovsrätt

I det internationella nätverket Clarin kan text- och talsamlingar delas över hela världen. En språkforskare i Sverige kan till exempel studera domstolsprotokoll från ett bibliotek i Tyskland, något som inte tidigare var möjligt.

Lars Borin, professor i språkvetenskaplig databehandling vid Göteborgs universitet, arbetar med den svenska språkbanken i Clarin och berättar om de praktiska utmaningarna med att lägga upp språksamlingar.

– Upphovsrätten måste hanteras på något sätt för nyare texter, och det gör vi genom att texterna slumpmässigt kastas om. Det spelar inte någon roll för de språkforskare som inte behöver se på textstrukturen, eftersom de främst är intresserade av ordval eller grammatiska fenomen.

Det tar också tid och kräver specialkunskap att lägga upp information så att den blir användbar.

– Den måste vara sökbar och annoterad, så man ser varifrån texten kommer.

Han konstaterar att alltfler språksamlingar läggs ut, men det finns också ett motstånd mot den här utvecklingen; dels kan det finnas integritetsaspekter, dels är det inte säkert att forskare vill ge bort materialet innan man själv analyserat klart och publicerat. Ofta ligger det stort arbete bakom insamling av språkmaterialet, särskilt när det gäller intervjuer.

Större underlag för hjärnforskning

Gustav Nilsonne arbetar med hjärnforskning på Stockholms universitet. Inom medicin görs ofta många små studier som sedan inte går att upprepa.

Han framhåller att om studiedata på rutin görs fritt tillgängliga, blir det lättare för honom och andra forskare att göra meta-analyser där data från flera studier läggs ihop för att få ett större underlag. Öppna data gör det också lättare att upptäcka slarv och fusk. Dessutom kan data användas maximalt.

– Vi har gjort hjärnavbildningar för att studera sömnbrist. När dessa ligger öppet kan till exempel forskare med annan teknisk kapacitet göra mer avancerade analyser av bilderna.

Möjliggör kvalitetskontroll

En annan forskare inom medicin är Jens Hjerling-Leffler, Karolinska institutet, som studerar nervceller. Det sker bland annat med hjälp av så kallad single cell-sekvensering för att kartlägga gener i enskilda celler.

Inom det här fältet är det rutin att lägga upp data i samband med publicering, och det ger fler citeringar för artikeln. Kanske för att en artikel med öppna data tillåter andra forskare att  använda dessa för egen analys och publicering, men också för att data möjliggör kvalitetskontroll.

– Vi har ibland sett på data att kvalitén inte är lika hög som artikeln gav sken av.

Samtidigt vill han nyansera bilden när det gäller utläggningen av forskningsdata.

– Det skulle vara en nackdel om alla dataset skulle göras tillgängliga. Data måste behandlas, vi lägger inte ut rådata, vi lägger ut tolkningsbara data.

Han förklarar att den rådatafil de får ut består av ettor och nollor och måste köras en vecka i superdator innan den går att läsa.

Jens Hjerling-Leffler är ledamot i Sveriges ungas akademi som propagerar för att riktlinjer för öppna data måste se olika ut för olika forskningsfält.

– Därför behöver forskare från olika fält vara med när riktlinjerna tas fram.

Nationellt ansvar

I forskningspropositionen ges Vetenskapsrådet nationellt samordningsansvar för arbetet med öppna forskningsdata. Men det betyder inte att Vetenskapsrådet idag ställer krav på öppna data för att få forskningsbidrag.

– Det är hanteringsplaner vi börjar med, inte publiceringsplaner. Universiteten brottas med hur all data ska hanteras och först när detta är löst kommer frågan om att tillgängliggöra data. Datahanteringsplaner kommer begäras in för vissa bidragsformer, eventuellt redan under 2017, annars för 2018, säger Maria Thuveson, avdelningen för forskningsfinansiering på Vetenskapsrådet.

Däremot ställer Vetenskapsrådet som villkor för att bevilja forskningsbidrag att de vetenskapliga resultaten görs tillgängliga på nätet, open access, inom sex månader efter publicering. Den här tiden kan förlängas i vissa fall, till exempel för publiceringar inom HS-området.

Läs också i Curie: Trycket ökar: Gör forskningsdata tillgängliga

Text: Anja Castensson
Foto: Helena Larsson / Natufotograferna / IBL Bildbyrå

1 kommentar

Tack för din kommentar. Den kan komma att modereras innan den publiceras.

  • Anna-Lena Axelsson

    Bra artikel om en viktig fråga som har diskuterats länge när det gäller myndighetsdata (som även används inom forskning). Att ta fram öppna data och metadata är inte gratis. Det är också svårt att till en rimlig kostnad ge all information som behövs för att använda och tolka data, särskilt när det gäller omfattande och komplexa datastrukturer. Öppen tillgång till data och metadata löser därför inte allt. Forskarna behöver också expertstöd för att kunna använda datasetens fulla potential, och det är något som VR poängterar mer och mer i sina strategidokument och utlysningar. Om ett universitet investerar i ett nytt analysinstrument eller labb så är det självklart med stödfunktioner som ser till att rutiner följs, instrumentet kalibreras och underhålls och som utbildar de som ska använda infrastrukturen. Tyvärr är inte detta lika självklart när det gäller databaser.

    2017.01.20