Att forskare på olika håll i världen lätt ska kunna föra in sina data i systemen och att en viss struktur – exempelvis ett protein – alltid ska kallas samma sak, är viktiga frågor för Elexir. Den svenska noden av Elexir fokuserar nu på en stor proteinkartläggning, Human Protein Atlas. Bilden är därifrån.
e-vetenskap

Elixir förenar big data

2014-10-09

När olika länder har olika regler och system för big data försvåras internationell forskning. Forskningsinfrastrukturen Elixir vill hjälpa Europas forskare att lösa problemen. Det här är den andra av fyra artiklar i Curie om e-vetenskap.

Niklas Blomberg

– Biologin rör sig allt mer mot datadriven forskning där forskare söker samband i stora datamängder – ofta benämnt big data, på samma sätt som redan fysiken och fler andra vetenskapliga fält gjort, säger Niklas Blomberg.

Tidigare var han anställd på Astra Zeneca i Mölndal där han bland annat ledde grupper för beräkningsbiologi- och kemi. Nu är han chef för Elixir, forskningsinfrastrukturen som grundades för att föra samman flera länders life science-data och deras infrastruktur för bioinformatik.

Lagring av biologiska data är inget nytt i Europa. Redan 1974 startades PDB, Protein Data Bank, som i dag är en av de viktigaste databaserna för biologer som studerar proteiner. Men dagens datamängder ställer forskarsamhället inför nya utmaningar. När PDB startades innehöll den tre proteinstrukturer – nu innehåller den 10 000, och växer snabbt.

– Och så har vi alla genkartläggningar, som ger stora mängder data. I Storbritannien pågår just nu en kartläggning av genomet, alltså arvsmassan, hos 100 000 individer, och på Färöarna håller man på att kartlägga hela befolkningen. Svenska Science for Life Laboratory har nyligen lanserat ett liknande men något mindre initiativ. I Sverige har utvecklingen troligen gått lite långsammare på grund av kontroverserna kring projektet Life Gene, säger Niklas Blomberg.

Ta med dina data och arbeta i annat land

Utöver mänskliga genom kartläggs djur för forskning och avel, och växter för odling och sjukdomsanalys.

– Det är en fullkomlig genomexplosion. Målet med Elixir är att hjälpa länder att hantera sina data, att ha rätt teknik och tjänster så att man kan samarbeta och utbyta data, säger Niklas Blomberg.

Delvis handlar det om teknik, att hitta bra metoder för att lagra, dela och skicka data. Men en större fråga för Elixir är samordningen av olika regelverk. Lyckas man med den kan forskarna samarbeta över gränser utan att behöva gå igenom nya tidskrävande processer för godkännande i varje land.

– Man kan likna det vid att ta körkort i Sverige, och därmed ha rätt att köra bil i Tyskland. Eller att resa utomlands med sin mobiltelefon; automatiskt hittar telefonen ett nätverk, och registrerar att mobilräkningen ska skickas till Telia. Elixir handlar mycket om sådan här ”dataroaming” – att du som forskare ska kunna ta dina data till ett annat land och arbeta med dem där.

Alla ska jobba efter samma standard

Elixir är uppbyggt av nationella noder i medlemsländerna. Den svenska noden fokuserar just nu på den stora proteinkartläggningen Human Protein Atlas. Atlasen ska integreras med proteinkartläggningar i andra länder, så att det går att enkelt söka i alla databaserna samtidigt. En av de största frågorna för Elixir är just kompatibilitet: att forskare på olika håll i världen lätt ska kunna föra in sina data i systemen, att en viss struktur – exempelvis ett protein – alltid ska kallas samma sak, att alla ska jobba efter samma standard.

Niklas Blomberg betonar att biologin har förändrats som ämne, och det ställer nya krav på utbildningen av biologer. De behöver tidigt tränas i hur man hanterar och analyserar stora datamängder.

– Men en ännu större utmaning är att klara den uppskalning som krävs i framtiden eftersom volymen data ökar mycket snabbt Det gäller både teknik och ekonomi. Kostnaden för datalagring går upp. Vem ska betala? Hur mycket behöver vi lagra, vad kan kasseras? Och hur ska vi komma åt datamängder som är alldeles för stora för att ladda ner på vanligt sätt?

Två sätt att bedriva biologisk forskning

I våras skrev ekonomijournalisten Tim Harford en artikel i Financial Times där han varnade för en blind tro på forskning som baseras på big data. Han menade att det finns en risk att forskare går vilse i datamängderna och finner massor av samvariationer, men misslyckas med att hitta orsak och verkan. Är det så framtiden ser ut?

– Ärligt talat så tror jag inte det. Självklart kan man inte vara helt okritisk inför samband som hittas i en stor datamängd, men det upplever jag inte att forskare är, säger Niklas Blomberg.

Han påpekar att det i grunden finns två sätt att bedriva biologisk forskning. Ett sätt är att forskaren först formulerar en hypotes som sedan testas experimentellt. Ett annat är att forskaren förutsättningslöst observerar och letar efter samband i experimentella data. Den tekniska utvecklingen gör det nu möjligt att se mönster och samband som inte syns i små datamängder.

– Jag ser den datadrivna forskningen som en guldålder för den biologiska forskningen – med big data kan vi studera både nya frågeställningar och gamla frågeställningar på ett nytt sätt. Vi kan till exempel titta på hur ett stort antal proteiner fungerar och samspelar inuti en mänsklig kropp. Och jag är säker på att vi parallellt med den datadrivna forskningen kommer att få se hypotesdriven forskning som drivs av dessa nya observationer.

Enorm potential inom livsvetenskaperna

I Harfords artikel citeras forskaren Patrick Wolfe, professor i statistik och hedersprofessor i datavetenskap vid University College London. Han liknar dagens forskning med hjälp av big data vid vilda västern. ”Smarta människor gör allt för att få rätsida på de här enorma datamängderna, och det är bra, men det är lite mörkerflygning just nu.”

Niklas Blomberg skrattar lite.

– Javisst, det är mörkerflygning ibland, och dessutom med dåligt tränade piloter på vissa positioner. Så det har hänt att det blivit spektakulärt fel vid användningen av big data, men extremt mycket gott har också kommit ut ur det. Det finns en enorm potential i den datadrivna forskningen inom livsvetenskaperna.

Text: LIsa Kirsebom
Foto: The Human Protein Atlas