Prenumerera på Curies nyhetsbrev

Nyheter, krönikor och debatter om forskarens vardag och aktuella forskningsfrågor. Varje vecka i din inkorg. Ges ut av Vetenskapsrådet.

Logotyp Curie - samtal om forskningens villkor
Bild av protein i rött, blått och en strimma av grönt.

Forskare på olika håll i världen ska lätt kunna föra in sina data i systemen och en viss struktur – exempelvis ett protein – ska alltid kallas samma sak. Det är viktiga frågor för Elexir vars svenska nod nu fokuserar på en stor proteinkartläggning. Foto: Human Protein Atlas

NYHET

Elixir förenar big data

När olika länder har olika regler och system för big data försvåras internationell forskning. Forskningsinfrastrukturen Elixir vill hjälpa Europas forskare att lösa problemen. Det här är den andra av fyra artiklar i Curie om e-vetenskap.

– Biologin rör sig allt mer mot datadriven forskning där forskare söker samband i stora datamängder – ofta benämnt big data, på samma sätt som redan fysiken och fler andra vetenskapliga fält gjort, säger Niklas Blomberg.

Tidigare var han anställd på Astra Zeneca i Mölndal där han bland annat ledde grupper för beräkningsbiologi- och kemi. Nu är han chef för Elixir, forskningsinfrastrukturen som grundades för att föra samman flera länders life science-data och deras infrastruktur för bioinformatik.

Lagring av biologiska data är inget nytt i Europa. Redan 1974 startades PDB, Protein Data Bank, som i dag är en av de viktigaste databaserna för biologer som studerar proteiner. Men dagens datamängder ställer forskarsamhället inför nya utmaningar. När PDB startades innehöll den tre proteinstrukturer – nu innehåller den 10 000, och växer snabbt.

– Och så har vi alla genkartläggningar, som ger stora mängder data. I Storbritannien pågår just nu en kartläggning av genomet, alltså arvsmassan, hos 100 000 individer, och på Färöarna håller man på att kartlägga hela befolkningen. Svenska Science for Life Laboratory har nyligen lanserat ett liknande men något mindre initiativ. I Sverige har utvecklingen troligen gått lite långsammare på grund av kontroverserna kring projektet Life Gene, säger Niklas Blomberg.

Ta med dina data och arbeta i annat land

Utöver mänskliga genom kartläggs djur för forskning och avel, och växter för odling och sjukdomsanalys.

– Det är en fullkomlig genomexplosion. Målet med Elixir är att hjälpa länder att hantera sina data, att ha rätt teknik och tjänster så att man kan samarbeta och utbyta data, säger Niklas Blomberg.

Delvis handlar det om teknik, att hitta bra metoder för att lagra, dela och skicka data. Men en större fråga för Elixir är samordningen av olika regelverk. Lyckas man med den kan forskarna samarbeta över gränser utan att behöva gå igenom nya tidskrävande processer för godkännande i varje land.

– Man kan likna det vid att ta körkort i Sverige, och därmed ha rätt att köra bil i Tyskland. Eller att resa utomlands med sin mobiltelefon; automatiskt hittar telefonen ett nätverk, och registrerar att mobilräkningen ska skickas till Telia. Elixir handlar mycket om sådan här ”dataroaming” – att du som forskare ska kunna ta dina data till ett annat land och arbeta med dem där.

Alla ska jobba efter samma standard

Elixir är uppbyggt av nationella noder i medlemsländerna. Den svenska noden fokuserar just nu på den stora proteinkartläggningen Human Protein Atlas Länk till annan webbplats.. Atlasen ska integreras med proteinkartläggningar i andra länder, så att det går att enkelt söka i alla databaserna samtidigt. En av de största frågorna för Elixir är just kompatibilitet: att forskare på olika håll i världen lätt ska kunna föra in sina data i systemen, att en viss struktur – exempelvis ett protein – alltid ska kallas samma sak, att alla ska jobba efter samma standard.

Niklas Blomberg betonar att biologin har förändrats som ämne, och det ställer nya krav på utbildningen av biologer. De behöver tidigt tränas i hur man hanterar och analyserar stora datamängder.

– Men en ännu större utmaning är att klara den uppskalning som krävs i framtiden eftersom volymen data ökar mycket snabbt Det gäller både teknik och ekonomi. Kostnaden för datalagring går upp. Vem ska betala? Hur mycket behöver vi lagra, vad kan kasseras? Och hur ska vi komma åt datamängder som är alldeles för stora för att ladda ner på vanligt sätt?

Två sätt att bedriva biologisk forskning

I våras skrev ekonomijournalisten Tim Harford en artikel i Financial Times där han varnade för en blind tro på forskning som baseras på big data. Han menade att det finns en risk att forskare går vilse i datamängderna och finner massor av samvariationer, men misslyckas med att hitta orsak och verkan. Är det så framtiden ser ut?

– Ärligt talat så tror jag inte det. Självklart kan man inte vara helt okritisk inför samband som hittas i en stor datamängd, men det upplever jag inte att forskare är, säger Niklas Blomberg.

Han påpekar att det i grunden finns två sätt att bedriva biologisk forskning. Ett sätt är att forskaren först formulerar en hypotes som sedan testas experimentellt. Ett annat är att forskaren förutsättningslöst observerar och letar efter samband i experimentella data. Den tekniska utvecklingen gör det nu möjligt att se mönster och samband som inte syns i små datamängder.

– Jag ser den datadrivna forskningen som en guldålder för den biologiska forskningen – med big data kan vi studera både nya frågeställningar och gamla frågeställningar på ett nytt sätt. Vi kan till exempel titta på hur ett stort antal proteiner fungerar och samspelar inuti en mänsklig kropp. Och jag är säker på att vi parallellt med den datadrivna forskningen kommer att få se hypotesdriven forskning som drivs av dessa nya observationer.

Enorm potential inom livsvetenskaperna

I Harfords artikel citeras forskaren Patrick Wolfe, professor i statistik och hedersprofessor i datavetenskap vid University College London. Han liknar dagens forskning med hjälp av big data vid vilda västern. ”Smarta människor gör allt för att få rätsida på de här enorma datamängderna, och det är bra, men det är lite mörkerflygning just nu.”

Niklas Blomberg skrattar lite.

– Javisst, det är mörkerflygning ibland, och dessutom med dåligt tränade piloter på vissa positioner. Så det har hänt att det blivit spektakulärt fel vid användningen av big data, men extremt mycket gott har också kommit ut ur det. Det finns en enorm potential i den datadrivna forskningen inom livsvetenskaperna.

Läs också i Curie:
Flodvåg av data ger nytt kunskapsfält (Curie)
Forskare oroliga för biobanksregler (Curie)
Inte irrationellt att oroa sig för big data (Curie)

Elixir

Europeisk forskningsinfrastruktur som syftar till att samordna biologisk information. Verksamheten startade i januari 2013 och spänner över bland annat medicin, marinbiologi och agrikultur. Hittills har elva länder hunnit ansluta sig, bland dem Sverige, Norge, Storbritannien och Portugal.

Elixir Länk till annan webbplats.

Life Gene

Forskningsprojektet Life Gene drivs i samarbete mellan sex svenska universitet. Projektet ska bygga upp ett register med flera hundra tusen personer, innefattande bland annat hälsodata, blodprover och testpersonernas svar på ett stort antal hälsorelaterade frågor. Registret ska användas för forskning om hälsa och sjukdom. Deltagarna kan avbryta sin medverkan när de vill.

Projektet har sedan starten år 2010 fått stark kritik bland annat för att forskningsändamålet var för oprecist, och förklarades olagligt av Datainspektionen år 2011. En särskild lagbeslutades då– giltig från 1 december 2013 till 31 december 2015 – som gör register som Life Gene möjliga. Regeringen beslutar vilka statliga universitet och högskolor som får behandla personuppgifter enligt den nya lagen, och vilka register som får föras.

LifeGene Länk till annan webbplats, öppnas i nytt fönster.

Du kanske också vill läsa

Nyhet 19 november 2024

Anders Nilsson

Tetra Pak och AstraZeneca är två stora företag som redan planerar för att använda neutronkällan ESS när den står färdig i Lund. Men generellt behöver svensk industris kunskaper om ...

Nyhet 17 september 2024

Charlie Olofsson

Miljöarkeologen Philip Buckland förstod tidigt att hans intresse för programmering och databasbyggande kunde vara till nytta inom akademin. Han ser att öppen data driver forskninge...

Nyhet 16 april 2024

Lisa Kirsebom

I den svenska sjukvården samlas mängder av data in som kan bli en enorm tillgång för forskare. Men otydliga lagar och tekniska utmaningar bromsar användandet. Nu växer arbetssätt o...