Logotyp Curie - samtal om forskningens villkor
Två människor står i ett stenigt landskap och tittar på ett vattenfall.

Många forskare har idag lång erfarenhet av vad öppna data innebär i praktiken. Men innan data läggs ut måste de förberedas. Foto: Helena Larsson / Naturfotograferna / IBL Bildbyrå

NYHET

Öppna data – inte bara att lägga ut

Curie har pratat med forskare som delar språkdata, vattenmodeller och DNA-sekvenser över hela världen. De praktiska utmaningarna ser olika ut beroende på forskningsfält, men gemensamt är att data måste förberedas. Det går inte bara att lägga ut.

Många forskare har idag mångårig erfarenhet av vad öppna data innebär i praktiken. SMHI, Sveriges meteorologiska och hydrologiska institut, tog för 5-10 år sedan det medvetna steget att börja dela sina data och analysverktyg. De används inte bara för forskning utan även för samhällsplanering kring översvämningar och dricksvatten.

Berit Arheimer som leder det hydrologiska forskningsarbetet på SMHI berättar:

– Det kan vara miljökonsulter som i Spanien ska ta reda på om det kommer finnas tillräckliga vattenflöden för att bevattna åkrarna i ett område, när temperaturen höjs i framtiden. Med hjälp av den webbaserade klimattjänsten Swicca kan de beräkna hur det sannolikt kommer att se ut.

Data behöver presenteras

SMHI arbetar inom EU:s storsatsning Copernicus med att erbjuda tjänster som Swicca och flera andra verktyg. Det innebär mycket arbete att visa data i kartform och att göra i ordning data.

– Det behöver vara användbart. För samhällskonsulter behöver det vara i en enkel tabellform, inte de komplexa dataformat som klimatforskare använder.

Det kräver eftertanke att ta fram metadata, information om data, och att uppskatta trovärdigheten i scenarierna.

– Om du inte vet tillräckligt mycket om data vågar du inte använda dem. Du behöver veta vad som ligger bakom data, hur beräkningarna är gjorda, osäkerheter, licenser och mycket mer.

Inte alla data går att lita på

SMHI förstår behovet av att försäkra sig, eftersom de själva också använder öppna data från andra organisationer och forskare. Det kan vara data som flödesmätningar och satellitbilder. Här finns det utmaningar att tvätta data innan de används. Inte alla mätdata är rimliga.

– En mätpunkt kan ligga mitt i havet till exempel.

Och ju öppnare format för att lägga upp data, desto större risk att det blir opålitligt. I det virtuella vattenlabbet, ett forum för vattenforskare, händer det att folk busar och laddar upp oseriösa data, till exempel mäter sitt badkarsvatten.

Samtidigt har öppna data utvecklat hydrologin på ett sätt som annars inte skulle varit möjligt.

– Hydrologin handlar om sötvattnets flöden. Tidigare forskade hydrologer oftare enbart på den lokala bäcken eller floden. Nu kan vi utbyta information över hela världen och lär oss mer om vad som styr vattenflödena tillsammans.

Stora datamängder kräver långsiktighet

Erik Kjellström leder arbetet på SMHI med klimatmodellering. För honom är öppna data en förutsättning för arbetet.

– Vi är extremt databeroende. För att kunna vidareutveckla modeller som förutsäger klimatet behöver vi både de data vi har och data som vi får utifrån.

SMHI lägger också själva upp sina data så att de är tillgängliga för andra forskare. Ett praktiskt problem inom detta fält är att datamängderna från klimatmodellering är så stora att länder med sämre uppkoppling kan ha svårt att ladda ned dem.

En annan viktig fråga är hur långsiktigheten i datahantering ska kunna garanteras. Det behövs personal med kompetens att sköta servrar och underhålla data liksom metadata, även efter att enskilda forskningsprojekt är avslutade.

Erik Kjellström är frågande till hur datalagring ska lösas på lång sikt när det finansieras av ett forskningsprojekt.

– Forskningsprojekt har sällan långsiktig finansiering.

Språkbanken hanterar upphovsrätt

I det internationella nätverket Clarin kan text- och talsamlingar delas över hela världen. En språkforskare i Sverige kan till exempel studera domstolsprotokoll från ett bibliotek i Tyskland, något som inte tidigare var möjligt.

Lars Borin, professor i språkvetenskaplig databehandling vid Göteborgs universitet, arbetar med den svenska språkbanken i Clarin och berättar om de praktiska utmaningarna med att lägga upp språksamlingar.

– Upphovsrätten måste hanteras på något sätt för nyare texter, och det gör vi genom att texterna slumpmässigt kastas om. Det spelar inte någon roll för de språkforskare som inte behöver se på textstrukturen, eftersom de främst är intresserade av ordval eller grammatiska fenomen.

Det tar också tid och kräver specialkunskap att lägga upp information så att den blir användbar.

– Den måste vara sökbar och annoterad, så man ser varifrån texten kommer.

Han konstaterar att alltfler språksamlingar läggs ut, men det finns också ett motstånd mot den här utvecklingen; dels kan det finnas integritetsaspekter, dels är det inte säkert att forskare vill ge bort materialet innan man själv analyserat klart och publicerat. Ofta ligger det stort arbete bakom insamling av språkmaterialet, särskilt när det gäller intervjuer.

Större underlag för hjärnforskning

Gustav Nilsonne arbetar med hjärnforskning på Stockholms universitet. Inom medicin görs ofta många små studier som sedan inte går att upprepa. Länk till annan webbplats.

Han framhåller att om studiedata på rutin görs fritt tillgängliga, blir det lättare för honom och andra forskare att göra meta-analyser där data från flera studier läggs ihop för att få ett större underlag. Öppna data gör det också lättare att upptäcka slarv och fusk. Dessutom kan data användas maximalt.

– Vi har gjort hjärnavbildningar för att studera sömnbrist. När dessa ligger öppet kan till exempel forskare med annan teknisk kapacitet göra mer avancerade analyser av bilderna.

Möjliggör kvalitetskontroll

En annan forskare inom medicin är Jens Hjerling-Leffler, Karolinska institutet, som studerar nervceller. Det sker bland annat med hjälp av så kallad single cell-sekvensering för att kartlägga gener i enskilda celler.

Inom det här fältet är det rutin att lägga upp data i samband med publicering, och det ger fler citeringar för artikeln. Kanske för att en artikel med öppna data tillåter andra forskare att använda dessa för egen analys och publicering, men också för att data möjliggör kvalitetskontroll.

– Vi har ibland sett på data att kvalitén inte är lika hög som artikeln gav sken av.

Samtidigt vill han nyansera bilden när det gäller utläggningen av forskningsdata.

– Det skulle vara en nackdel om alla dataset skulle göras tillgängliga. Data måste behandlas, vi lägger inte ut rådata, vi lägger ut tolkningsbara data.

Han förklarar att den rådatafil de får ut består av ettor och nollor och måste köras en vecka i superdator innan den går att läsa.

Jens Hjerling-Leffler är ledamot i Sveriges ungas akademi som propagerar för att riktlinjer för öppna data måste se olika ut för olika forskningsfält.

– Därför behöver forskare från olika fält vara med när riktlinjerna tas fram.

Nationellt ansvar

I forskningspropositionen ges Vetenskapsrådet nationellt samordningsansvar för arbetet med öppna forskningsdata. Men det betyder inte att Vetenskapsrådet idag ställer krav på öppna data för att få forskningsbidrag.

– Det är hanteringsplaner vi börjar med, inte publiceringsplaner. Universiteten brottas med hur all data ska hanteras och först när detta är löst kommer frågan om att tillgängliggöra data. Datahanteringsplaner kommer begäras in för vissa bidragsformer, eventuellt redan under 2017, annars för 2018, säger Maria Thuveson, avdelningen för forskningsfinansiering på Vetenskapsrådet.

Däremot ställer Vetenskapsrådet som villkor för att bevilja forskningsbidrag att de vetenskapliga resultaten görs tillgängliga på nätet, open access Länk till annan webbplats., inom sex månader efter publicering. Den här tiden kan förlängas i vissa fall, till exempel för publiceringar inom HS-området.

Swe-Clarin är den svenska delen av det internationella nätverket Clarin där text- och talsamlingar kan delas över hela världen. Länk till annan webbplats.

Läs också i Curie:
Trycket ökar: Gör forskningsdata tillgängliga (Curie)
Perfekt forskning är en myt (Curie)

SMHI:s öppna dataprojekt

SWICCA Länk till annan webbplats.: Hjälper miljökonsulter i Europa att beräkna hur vattenflöden och nederbörd påverkas av klimatförändringen.

Switch On Länk till annan webbplats.: Virtuellt vattenlabb där forskare kan samarbeta online, granska och upprepa varandras experiment, jämföra resultat och på så sätt utveckla forskningen.

Hypeweb Länk till annan webbplats.: Hydrologiska mätdata från hela världen.

Hypecode Länk till annan webbplats.: Öppen källkod för hydrologisk modellering.

Beräkningar av framtida globalt klimat delar stora datamängder via Climate Scenario Data from the Rossby Centre Länk till annan webbplats.och via ett internationellt samarbete som heter Earth Systems Grid Federation, ESGF.

Relaterat innehåll

Debatt 12 mars 2024

John Hennessey, Lunds universitet

Alltfler forskningsfinansiärer kräver att också monografier publiceras med open access. Det skapar problem, även när det är tillåtet att ta upp kostnader för detta i projektets bud...

Krönika 30 januari 2024

Nu är de nationella riktlinjerna för öppen vetenskap klara. Erik Stattin skriver om arbetet med regeringsuppdraget och hur riktlinjerna tagits emot.

Nyhet 28 november 2023

Siv Engelmark

Nu ska de avtal som reglerar svenska forskares publiceringar i vetenskapliga tidskrifter omförhandlas. En färsk rapport från SUHF ska ge underlag för arbetet. Målet är att publicer...