Logotyp Curie - samtal om forskningens villkor
Pipett droppar vätska i provrör.

Resultat kan vara svåra att upprepa av flera skäl. En anledning är att forskares vägval vid analysen av data gör resultaten svårtolkade.

NYHET

Forskares val gör att resultaten inte håller

Rapporterna om att forskningsresultat inte går att upprepa blir allt fler. Det är ett generellt problem inom forskningen, säger Handelsprofessorn Anna Dreber Almenberg. Hon har i flera studier undersökt reproducerbarheten hos resultat publicerade i topprankade tidskrifter.

År 2015 publicerade tidskriften Science resultat från en så kallad replikationsstudie som kom att få stor uppmärksamhet.

Ett stort antal forskare hade gjort om hundra vetenskapliga studier i psykologi, som tidigare publicerats i topprankade tidskrifter. Forskarna använde originalmetoderna men med nya och större urval. Och utgången överraskade. Det visade sig att bara en tredjedel av resultaten gick att upprepa.

– Det är helt enkelt så att en stor andel av publicerade forskningsresultat inte håller, säger Anna Dreber Almenberg, som är professor i nationalekonomi vid Handelshögskolan i Stockholm och en av 270 forskare bakom studien.

I fjol publicerade hon tillsammans med kolleger ytterligare en liknande studie i Science. Där undersökte de 18 experimentella studier i nationalekonomi, också de publicerade i topptidskrifter. De gjorde om dem på samma sätt som de gjorts ursprungligen, men på fler personer. Och bara elva av resultaten, 60 procent, gick att upprepa.

Flera exempel

Inom andra områden finns fler exempel. År 2013 gjorde exempelvis läkemedelsbolaget Amgen ett försök att upprepa 53 prekliniska cancerstudier Länk till annan webbplats.. Bara en tiondel gav samma resultat som i ursprungsartikeln när de gjordes om. Den studien har följts av fler inom cancerforskningen, som också de visat låg reproducerbarhet.

– Jag tror inte att forskare medvetet fuskar utan tvärtom försöker nog de flesta göra bra forskning. Det finns ett antal andra förklaringar.

Anna Dreber Almenberg pekar på flera. En är att studierna kan ge ett så kallat falskt positivt utslag för att de görs på ett för litet urval. En annan att det är svårt att få vetenskapliga tidskrifter att publicera studier som inte visar på något samband, till exempel att en viss åtgärd inte har en positiv effekt.

Men främst vill hon lyfta fram de många val som forskare ofta ställs inför i sin statistiska analys och som kan leda till att resultaten misstolkas.

Stora frihetsgrader

Den första kallas p-hackande. Det innebär att man inkluderar eller exkluderar olika variabler eller observationer vid analysen av data, tills man har ett tillräckligt lågt så kallat p-värde.

Det är ett statistiskt mått på hur tillförlitligt ett resultat är. Resultat med p-värden under 0,05 brukar räknas som statistikt signfikanta.

Den andra felkällan kallas forking och betyder att forskaren låter resultaten bestämma hur analysen ska ske. Hittar hen exempelvis inte något samband i hela den grupp som undersöks kan hen leta vidare i undergrupper.

– De här fenomenen gör det svårt att tolka resultaten.

Detaljerad plan

Anna Dreber Almenberg tror att lösningen är vad hon kallar för att ”surra sig vid masten”.

– Det är bäst att på förhand bestämma exakt vilka tester som ska göras, om man ska titta på subgrupper, hur variabler ska definieras och så vidare. Allt ska vara klart innan man börjar med analysen så att tolkningen av resultaten blir meningsfull, säger hon.

En stor del av hennes forskning går ut på att granska om forskningsresultat är tillförlitliga. Hon lockades tillsammans med några kolleger in i området av det stora replikationsprojektet inom psykologi som så småningom publicerades i Science.

Granskar topptidskrifter

Under vintern ska enligt planerna resultat från ytterligare en replikationsstudie publiceras. Nu är det 21 samhällsvetenskapliga studier som publicerades i Nature och Science mellan 2010 och 2015 som har granskats. Bakom arbetet finns 23 forskare, bland annat kollegerna från Handelshögskolan i Stockholm.

Nästa projekt handlar om att undersöka reproducerbarheten i artiklar publicerade i den amerikanska tidskriften PNAS, The Proceedings of the National Academy of Sciences.

– Vi väljer topptidskrifter eftersom de har så stor påverkan inom sina ämnen och ibland även på politiken, säger Anna Dreber Almenberg.

Vill påverka

Hon pekar på flera risker med publicerade resultat som inte håller. Forskare slösar tid och resurser på fel saker. Och politiker som vill basera reformer på forskningsresultat kan fatta beslut på underlag som inte är tillförlitligt.

Anna Dreber Almenberg vill främst påverka andra forskare.

– Jag vill att de ska tänka mer på vilket slags statistisk analys de gör. Jag tror att de flesta falska resultat beror på att bra forskare med goda avsikter landar i missvisande p-värden. Att man har publicerat ett falskt positivt resultat behöver inte betyda att man är en dålig oetisk forskare – vi kan alla förledas att tro att vi hittat något som sen inte visar sig hålla. Men det säger något om forskaren väljer att försvara resultat som vid upprepade tillfällen visat sig inte hålla. Låg reproducerbarhet är ett generellt problem inom forskningen.

En förändring är också på väg, menar hon.

– Psykologiforskare är i framkant när det gäller att uppdatera metoder. Nationalekonomer är på gång.

Science: Evaluating replicability of laboratory experiments in economics (English) Länk till annan webbplats.

Science: Estimating the reproducibility of psychological science (English) Länk till annan webbplats.

Nature: Raise standards for preclinical cancer research (English) Länk till annan webbplats.


P-värde

Statistiskt mått där p står för probabilitet (sannolikhet). När forskare prövar en hypotes utgår de ofta ifrån en så kallad nollhypotes om att det inte finns någon effekt, och en alternativ hypotes som säger att det finns en effekt. Ju lägre p-värde desto mindre stöd för nollhypotesen att det inte finns en effekt, till exempel av en läkemedelsbehandling. Ofta dras gränsen för statistisk signifikans vid ett p-värde under 0,05. Resultat under det värdet tolkas alltså som statistiskt signifikanta. Vissa ämnen, som högenergifysik och genomik, har en lägre gräns.

P-hackande

Att hacka p-värden innebär att man inkluderar eller exkluderar olika variabler eller observationer vid analysen av sina data, tills man får ett tillräckligt lågt p-värde. Forskaren vill kanske undersöka om en dataspelares aggressivitet påverkas av könet på den person hen spelar med, beroende på om dataspelaren själv är kvinna eller man. För att då visa på ett sådant samband kan man ta med eller utesluta variabler som ålder eller socioekonomisk bakgrund i analysen tills resultatet ger ett p-värde strax under istället för strax över 0,05.

Forking

Vid forking (efter förgreningar) har forskaren en specifik hypotes som hen vill testa, men har inte specificierat hur det ska ske, på vilken delgrupp eller med exakt vilka statistiska test. Istället får resultaten bestämma vägvalet vid analysen. Hittar forskaren exempelvis inte något samband i den totala populationen hen undersöker kan hen leta vidare i undergrupper.

Du kanske också vill läsa

Nyhet 23 april 2019

Siv Engelmark

Forskare skriver ofta egna, skräddarsydda, program för sina forskningsprojekt. Men få av forskarna är programmeringsexperter. Följden kan bli felaktiga slutsatser eller att det är ...

Nyhet 23 maj 2018

Sara Nilsson

De kallas rovdjurstidskrifter och att stödja dem är en oacceptabel handling enligt de europeiska riktlinjerna för forskningsetik. Hur ser svenska lärosäten och forskningsfinansiäre...

Nyhet 16 maj 2018

Sara Nilsson

Snabb publicering, open access och stort genomslag. Det erbjuds ofta forskare av så kallade rovdjurstidskrifter som med falska löften om referentgranskning och seriositet erbjuder ...