Hur man lätt lurar sig av regression mot medelvärdet

2013-03-20

I veckan har jag och Olle Häggström skrivit klart ett manuskript om hur några forskare inom utvecklingspsykologi låtit lura sig av det statistiska fenomenet ”regression mot medelvärdet”. Detta fenomen förtjänar att vara mer känt bland människor som inte för övrigt håller på med statistik – och det borde verkligen vara mer känt bland dem som faktiskt håller på med statistik i praktiken.

Regression mot medelvärdet dyker upp när någonting varierar upp och ner på ett i någon mån slumpmässigt sätt: Vissa stunder är man ledsnare än andra stunder. Vissa dagar är torrare än andra dagar. Med regression mot medelvärdet menas det enkla faktum att när ett extremt värde har inträffat kommer troligen ett mindre extremt värde att följa: Efter att man varit väldigt ledsen kommer man oftast att vara mindre ledsen nästa gång man känner efter. Efter en väldigt torr period följer oftast en mindre torr period.

Den som inte är medveten om det här fenomenet kan lura sig att tro att det beror på något annat. Säg att man tar för vana att äta brylépudding när man är riktigt ledsen. Eftersom man sedan oftast blir mindre ledsen – oavsett om man äter brylépudding eller inte – kan man få för sig att det hjälper att äta brylépudding. På samma sätt kommer man oftast att kunna observera mindre torka efter en regntango om man tar för vana att dansa regntango just när det är extremt torrt. Närhelst man vidtar någon särskild åtgärd vid extrema tillfällen kommer det att verka som att åtgärden oftast har effekt.

Så här långt är detta enkelt att begripa. Men det finns också ett subtilare problem som kan lura forskare som använder statistik i praktiken. Tänk på en skillnad mellan två grupper, till exempel att kvinnor i genomsnitt har högre skolbetyg än män. Man kan då genomföra en åtgärd för att jämna ut skillnaden, till exempel förändra undervisningen på ett sätt som syftar till att höja mäns betyg. För att sedan utvärdera åtgärden kan en forskare vara oroad över att åtgärden kanske har olika effekt för olika elever beroende på var de ligger i betygsskalan till att börja med. För att inte behöva oroa sig för detta kan forskaren bestämma sig för att helt enkelt jämföra kvinnor och män som före åtgärden hade samma betyg. Låt oss för enkelhets skull säga att forskaren tittar på de män och kvinnor som ligger på det nationella genomsnittsbetyget. Det betyder att forskaren tar kvinnor som ligger under genomsnittet bland kvinnor och jämför dem med män som ligger över genomsnittet bland män.

Även betyg har förstås en viss slumpmässig variation över tid för varje given individ. Ibland har man mer lycka än annars med hur väl man trivs och presterar i skolan. Eftersom forskaren i jämförelsen valt ut kvinnor som det just då gick relativt dåligt för så kommer det bland dem att vara en överrepresentation av kvinnor som det just då gick ovanligt dåligt för. Samtidigt har vi valt ut män som det just då gick relativt bra för och bland dem kommer det därför att vara en överrepresentation av män som det just då gick ovanligt bra för.

Regression mot medelvärdet leder till en tendens till förbättring bland dem som det tidigare gick ovanligt dåligt för (mest kvinnor i forskarens urval), och en tendens till försämring bland dem som det tidigare gick ovanligt bra för (mest män i forskarens urval). Konsekvensen blir att det ser ut som om åtgärden särskilt höjer kvinnors betyg. Eftersom syftet ju var att särskilt höja mäns betyg ser det ut som att åtgärden har motverkat sitt syfte – utan att åtgärden egentligen haft någon effekt åt något håll. Det bara ser ut så på grund av att urvalet var skevt på olika sätt i de två grupperna.

Om åtgärden faktiskt har en viss positiv effekt på mäns betyg så kan regression mot medelvärdet på samma sätt maskera denna positiva effekt. Nog kan man undra hur många faktiskt fungerande åtgärdsprogram som har avbrutits därför att utvärderingar har låtit sig luras av regression mot medelvärdet.

6 kommentarer

Tack för din kommentar. Den kan komma att modereras innan den publiceras.

  • Kjell Rilbe

    Här gäller det att hänga med i svängarna! Statistik upphör aldrig att fascinera, särskilt med tanke på hur oerhört lätt det är att skjuta sig i foten utan att man märker det... Påminner i det avseendet om mitt arbete: databaser. När man har några hundra miljoner "saker" i en databas, och ska göra något med dem (korrigera, uppdatera, ta bort, välja ut), så är det ofta väldigt svårt att i efterhand se om det verkligen blev rätt. Okända värden ("null") brukar ofta lägga krokben, med sin speciella logik...

    2013.03.20

  • Johan Kretz

    Mycket begripligt och nyttig kunskap för mig som journalist (och alla andra som i sin vardag kommer i kontakt med kvantitativa studier).

    2013.03.20

  • Fornamn

    Bra skrivet!

    2013.03.20

  • Gunnar Englund

    Ett exempel på fenomenet är när israeliska flygvapnet ville bestraffa piloter som förorsakat stort underhåll på sina flygplan och att man då observerade en förbättring. Då ville man tänka lite mer positivt och belöna de piloter som flugit så "snällt" att deras plan krävde litet underhåll. Man observerade då att de efter belöningen orsakat större underhåll.

    Ett annat exempel är när man satte upp viltspeglar på vägsträckor där det varit många viltolyckor och noterade en minskning. Vid ett kontrollerat försök där mätte olycksantalet och sen randomiserade utplaceringen av viltspeglar fann man ingen förbättring.

    2013.03.20

  • Varför "Big Data" bara är lurendrejeri

    [...] Hur man lätt lurar sig av regression mot medelvärdet - om ett vanligt statistiskt fenomen som ibland lurar de som arbetar med statistik. Vetenskapbig data, data science, infographics, statistik [...]

    2013.08.03

  • Michel Tagliati

    Jag dök på detta med regression mot medelvärdet i Daniel Kahnemans bok om system 1 och system 2 nyligen. I kliniskt arbete är det ju väldigt lätt att den enskilde klinikern litar på sin "inutition" eller att man i små prospektiva studier blir föremål för slumpen och drar helt fel slutsatser av klinisk forskning kring olika behandlingsmetoders faktiska resultat och orsak-verkan som egenligen bara är utfall av naturlig variation

    2015.01.16