Resultat kan vara svåra att upprepa av flera skäl. En anledning är att forskares vägval vid analysen av data gör resultaten svårtolkade.

Forskares val gör att resultaten inte håller

English 2017-11-22

Rapporterna om att forskningsresultat inte går att upprepa blir allt fler. Det är ett generellt problem inom forskningen, säger Handelsprofessorn Anna Dreber Almenberg. Hon har i flera studier undersökt reproducerbarheten hos resultat publicerade i topprankade tidskrifter.

År 2015 publicerade tidskriften Science resultat från en så kallad replikationsstudie som kom att få stor uppmärksamhet.

Ett stort antal forskare hade gjort om hundra vetenskapliga studier i psykologi, som tidigare publicerats i topprankade tidskrifter. Forskarna använde originalmetoderna men med nya och större urval. Och utgången överraskade. Det visade sig att bara en tredjedel av resultaten gick att upprepa.

Anna Dreber Almenberg

– Det är helt enkelt så att en stor andel av publicerade forskningsresultat inte håller, säger Anna Dreber Almenberg, som är professor i nationalekonomi vid Handelshögskolan i Stockholm och en av 270 forskare bakom studien.

I fjol publicerade hon tillsammans med kolleger ytterligare en liknande studie i Science. Där undersökte de 18 experimentella studier i nationalekonomi, också de publicerade i topptidskrifter. De gjorde om dem på samma sätt som de gjorts ursprungligen, men på fler personer. Och bara elva av resultaten, 60 procent, gick att upprepa.

Flera exempel

Inom andra områden finns fler exempel. År 2013 gjorde exempelvis läkemedelsbolaget Amgen ett försök att upprepa 53 prekliniska cancerstudier. Bara en tiondel gav samma resultat som i ursprungsartikeln när de gjordes om. Den studien har följts av fler inom cancerforskningen, som också de visat låg reproducerbarhet.

– Jag tror inte att forskare medvetet fuskar utan tvärtom försöker nog de flesta göra bra forskning. Det finns ett antal andra förklaringar.

Anna Dreber Almenberg pekar på flera. En är att studierna kan ge ett så kallat falskt positivt utslag för att de görs på ett för litet urval. En annan att det är svårt att få vetenskapliga tidskrifter att publicera studier som inte visar på något samband, till exempel att en viss åtgärd inte har en positiv effekt.

Men främst vill hon lyfta fram de många val som forskare ofta ställs inför i sin statistiska analys och som kan leda till att resultaten misstolkas.

Stora frihetsgrader

Den första kallas p-hackande. Det innebär att man inkluderar eller exkluderar olika variabler eller observationer vid analysen av data, tills man har ett tillräckligt lågt så kallat p-värde.

Det är ett statistiskt mått på hur tillförlitligt ett resultat är. Resultat med p-värden under 0,05 brukar räknas som statistikt signfikanta.

Den andra felkällan kallas forking och betyder att forskaren låter resultaten bestämma hur analysen ska ske. Hittar hen exempelvis inte något samband i hela den grupp som undersöks kan hen leta vidare i undergrupper.

– De här fenomenen gör det svårt att tolka resultaten.

Detaljerad plan

Anna Dreber Almenberg tror att lösningen är vad hon kallar för att ”surra sig vid masten”.

– Det är bäst att på förhand bestämma exakt vilka tester som ska göras, om man ska titta på subgrupper, hur variabler ska definieras och så vidare. Allt ska vara klart innan man börjar med analysen så att tolkningen av resultaten blir meningsfull, säger hon.

En stor del av hennes forskning går ut på att granska om forskningsresultat är tillförlitliga. Hon lockades tillsammans med några kolleger in i området av det stora replikationsprojektet inom psykologi som så småningom publicerades i Science.

Granskar topptidskrifter

Under vintern ska enligt planerna resultat från ytterligare en replikationsstudie publiceras. Nu är det 21 samhällsvetenskapliga studier som publicerades i Nature och Science mellan 2010 och 2015 som har granskats. Bakom arbetet finns 23 forskare, bland annat kollegerna från Handelshögskolan i Stockholm.

Nästa projekt handlar om att undersöka reproducerbarheten i artiklar publicerade i den amerikanska tidskriften PNAS, The Proceedings of the National Academy of Sciences.

– Vi väljer topptidskrifter eftersom de har så stor påverkan inom sina ämnen och ibland även på politiken, säger Anna Dreber Almenberg.

Vill påverka

Hon pekar på flera risker med publicerade resultat som inte håller. Forskare slösar tid och resurser på fel saker. Och politiker som vill basera reformer på forskningsresultat kan fatta beslut på underlag som inte är tillförlitligt.

Anna Dreber Almenberg vill främst påverka andra forskare.

– Jag vill att de ska tänka mer på vilket slags statistisk analys de gör. Jag tror att de flesta falska resultat beror på att bra forskare med goda avsikter landar i missvisande p-värden. Att man har publicerat ett falskt positivt resultat behöver inte betyda att man är en dålig oetisk forskare – vi kan alla förledas att tro att vi hittat något som sen inte visar sig hålla. Men det säger något om forskaren väljer att försvara resultat som vid upprepade tillfällen visat sig inte hålla. Låg reproducerbarhet är ett generellt problem inom forskningen.

En förändring är också på väg, menar hon.

– Psykologiforskare är i framkant när det gäller att uppdatera metoder. Nationalekonomer är på gång.

Text: Siv Engelmark

8 kommentarer

Tack för din kommentar. Den kan komma att modereras innan den publiceras.

  • Torsten Akesson

    Refererar till MacCoun och Perlmutters artikel i Nature 2015 http://www.nature.com/news/blind-analysis-hide-results-to-seek-the-truth-1.18510

    2017.11.23

  • Swaraj Paul

    It is not the problem with economic and social science studies, we have the same problems in the technology field. There are so many journals and depending on the impact rates the publication price is also high for peer reviewed journals. Therefore they cannot be too tough in scrutinizing the journal. Moreover, the journal is never interested in publishing negative results as it has mentioned above. I fully agree with the author and I hope that some serious actions are needed to publish such results! Somebody will have to read these articles also!

    2017.11.23

  • Christoph

    Interesting, but it would have been nice to learn a bit more about why "p-hacking" and "forking" "make it difficult to interpret the results". For the innocent user of statistics (and apparently also many reviewers), nothing seems wrong with analyzing sub-groups or choosing particular variable rather than others.
    It seems to me that the interesting question here is to what extent these findings have to do with the inherent limits of statistical methods more generally. The "tying yourself to the mast" solution (which is not about statistics) seems to point in that direction. But my hunch is that the discussion has to go much further than that.

    2017.11.23

  • Tommy Gärling

    I think "pre-registration" is a good thing if it turns the clock back to the time when not fast publication but publication of reliable results were important. It would hopefully make researchers to increase their preparations (doing pilot studies, simulations, analyses of statistical power, theoretical development) before "pre-reigister" and conducting the study (if accepted based on pre-registration).

    2017.11.23

  • Lars-Göran Johansson

    I think the most plausible explanation is that the great majority of tested hypotheses are false. Suppose 10% av tested hypotheses are in fact true (after all you don't test trivial hypotheses so plausibly most are in fact false), that the chosen significance is 5% and the power 40%. This will result that only 47% of those hypotheses accepted (i.e. the null hypothesis rejected) are in fact true. If we require higher power, say 80%, we still get 36% false hypotheses among those accepted. The obvious thing to do is to require stronger significance. (Adapted from The Economist oct 19, 2013)

    2017.11.23

  • Torsten Åkesson

    The effekt that you are pointing to, Lars-Göran, is important. How to treat the look-elsewhere-effekt is routine now in my field, and both the local significance and the global significance are quoted.

    2017.11.24

  • Björgvin Hjörvarsson

    "Det är ett generellt problem inom forskningen, säger Handelsprofessorn Anna Dreber Almenberg." detta påstående är helt utan underlag. Notera att underlagen som ges ( men inte citers på rätt sätt) innefattar psykologi och ekonomi.

    2017.11.25

  • Bjarne Madsen Härdig

    It is also important to not just look at the Power and P-values. Researcher are also most often experts in their fields so one should always justify all things by clinical meaningful differences. If the normal range for something is 4-8 and one group all get 5 and the other group gets 7, all values are still in the range of what affects the patients or treatment. https://www.nature.com/articles/d41586-017-07522-z?WT.ec_id=NATURE-20171201&spMailingID=55471256&spUserID=MTEwOTIzNzg3MTA0S0&spJobID=1285361346&spReportId=MTI4NTM2MTM0NgS2

    2017.12.01