2016-11-22 Gustaf Nelhans, fil dr i vetenskapsteori och universitetslektor i biblioteks- och informationsvetenskap, Högskolan i Borås

Vetenskaplig kvalitet ska bedömas, inte mätas

Att förlänga tvåårsgränsen för tidskrifters impaktfaktorer är inte lösningen, skriver Gustaf Nelhans i en replik på Andreas B. Dahlins inlägg. Problemet är att impaktfaktorer över huvud taget är ett dåligt mått på vetenskaplig kvalitet, och används allt för amatörmässigt vid utvärdering av forskning på lärosätena.

Gustaf Nelhans (Foto: Thomas Melin)

Gustaf Nelhans (Foto: Thomas Melin)

Tidskrifters genomsnittliga citeringsgrad, så kallad Journal Impact Factor (JIF), som beräknas och redovisas av Clarivate analytics (tidigare Thomson Reuters, ISI) används ofta som ställföreträdande mått på forskningskvalitet av såväl forskare som företrädare vid de lärosäten de är verksamma. I det ena fallet kan det handla om att ranka sökande till en utlyst tjänst, i det andra handlar det kanske om att omfördela finansiella resurser baserat på publiceringsdata.

I detta inlägg ska jag ge några argument för varför enstaka mått på prestation är dåliga indikatorer på vetenskaplig kvalitet och varför JIF är ett synnerligen problematiskt exempel, men först vill jag slå fast att det inte är förvånande att sådana mått fått så stor betydelse när samhället genomsyras av krav på ansvarsskyldighet med nya revisorsfunktioner som institutionaliseras på alla nivåer i offentlig verksamhet. Detta i sig måste inte vara av ondo (vi vill ju veta att offentliga medel går till det de är till för) men det finns risk att fokus tas från verksamheternas verkliga syften. Skälen till att forskningsevaluering allt mer genomsyras av kvantitativa parametrar kan möjligtvis förklaras av en allt större arbetsbörda och ett accelererat tempo i akademin, men även av behoven att finna förment objektiva och i bästa fall icke påträngande mått på forskningen. Ett elakare argument kan vara att folk är lata eller inte kräver den tid för sakkunniggranskning som behövs för att göra ett gott arbete.

En typisk reaktion på denna situation kan ses i Andreas Dahlins debattinlägg här i Curie där han gav ett förslag om att forskare skall bedömas med ett tioårigt JIF-mått i stället för ett tvåårigt. Detta för att ett för kort intervall riskerar att påverka forskningen negativt och hämma nyskapande forskning. Men medan författaren påvisar viktiga ämnesspecifika problemställningar vad gäller användningen av citeringsdata för att bedöma forskningen väljer han att bortse från de mer grundläggande problemen med hur vi skall bedöma kvalitet och vad mått på tidskriftsgenomslag faktiskt mäter. För även om en tidskrift med högt JIF-värde publicerar artiklar med hög medelcitering så saknas empirisk grund att påstå att en enskild artikel publicerad i samma tidskrift kommer bli välciterad.[1]

Även om en tidskrift med högt JIF-värde publicerar artiklar med hög medelcitering så saknas empirisk grund att påstå att en enskild artikel publicerad i samma tidskrift kommer bli välciterad.

Per O. Seglen visade detta i en nu välkänd studie med 20 år på nacken, Why impact factors should not be used for evaluating research [2]. På den nordiska konferensen för bibliometri och forskningspolitik (NWB2016) visade Ronald Rousseau, Lin Zhang och Gunnar Sivertsen nyligen att de kunde bekräfta den studien med den totala mängden publicerade tidskriftsartiklar hos över 500 norska forskare. Korrelationen mellan tidskrifters JIF och enstaka artiklars citeringsgrad beräknades till 0,5 och ännu lägre om publiceringsdata gjordes jämförbar mellan olika ämnesområden (fältnormaliserades). Enligt gängse resonemang om korrelation (r2) kan man därför i praktiken säga att endast 25 procent eller i värsta fall så lite som 17 procent av variationen i citeringsgenomslag för forskarnas publicerade forskningsartiklar kunde förklaras av värdet på JIF för de tidskrifter som artiklarna publicerats i.

Vidare beräknas redan ett femårsvärde för JIF för varje indexerad tidskrift i Journal Citation Reports (JCR), så alternativ till det mest kända tvååriga impactfaktormåttet finns redan. Dahlin hänvisar dessutom till ett föredrag av Eugene Garfield som uppfann JIF som ett mått för att bestämma vilka tidskrifter som skulle indexeras i Science citation index. Garfield diskuterar där olika tidslängder för att beräkna JIF (inklusive såväl fem- som tioåriga JIF-mått) men noterar att han i empiriska studier har visat att olika längd har liten betydelse för inomvetenskapliga jämförelser av tidskrifter. Frågan är dock varför det skall vara ett femårsmått eller tioårsmått och varför inte 11 ¾ år? Kanske borde måttet beräknas utifrån respektive ämnes ”snabbhet” på något annat sätt? Även sådana mått beräknas och finns tillgängliga i JCR. ”Immediacy index”, ”cited half-life” och en rad andra variabler redovisas för varje tidskrift och dessa skulle ju kunna användas för att på analytisk väg optimera just den specifika tidskriftens optimala JIF-mått.

Men det inte i metodologiska resonemang som problemet ligger utan i att JIF är ett väldigt smalt och imprecist mått för att mäta forskningsprestationer över huvud taget. Måttet anger som sagt endast tidskriftens genomsnittliga citeringsgenomslag.

Frågan om hur forskning skall bedömas måste lyftas till en helt annan nivå, nämligen till forskarsamhällets eget sätt att bedöma kvalitet. Att listan över publikationer enligt Dahlin är den viktigaste kvalitetsmätaren i vissa forskningsområden är inte publiceringslistans fel, utan ett kollektivt ansvar hos såväl forskarsamhälle som våra institutioner. Om vi är missnöjda med det sätt som forskning bedöms så måste vi börja med att ändra våra egna praktiker, inte vänta sig att någon annan skall göra det oss. Det är också ofta forskare själva som drar in JIF eller andra lika problematiska mått som H-index eller hemmagjorda konstruktioner i sina bedömaruppdrag. Detta kallas citizen bibliometrics, men skulle lika gärna kunna gå under beteckningen ”do-it-yourself-bibliometri”.

Det är ett allvarligt problem att det saknas tid och intresse att göra det viktiga granskningsarbetet, men lösningen kan knappast vara att amatörmässigt lämna över det viktiga ansvaret att bedöma forskning till hemmasnickrade beräkningsmodeller som inte ens tillnärmelsevis mäter vad de avser mäta.

Det är ett allvarligt problem att det saknas tid och intresse att göra det viktiga granskningsarbetet, men lösningen kan knappast vara att amatörmässigt lämna över det viktiga ansvaret att bedöma forskning till hemmasnickrade beräkningsmodeller som inte ens tillnärmelsevis mäter vad de avser mäta.

Så hur skall då vetenskaplig kvalitet mätas? Den frågan är lätt att besvara. Svaret är förstås att den inte skall mätas alls, utan bedömas. Bibliometriska mått kan vara mycket användbara indikatorer för detta arbete, men de skall användas på ett förnuftigt sätt. Det innebär att de aldrig skall användas som enda bedömningsgrund och inte universellt utan på ett sätt där hänsyn tas till forskningens ämnesmässiga och lokala variationer. Vidare skall måtten användas på ett transparent sätt så att den som blir värderad kan ta del av och korrigera eventuella felaktigheter eller snedfördelningar i bedömningsunderlaget. För att den statistiska validiteten skall kunna säkerställas måste det finnas ett tillräckligt underlag för att kunna utföra beräkningarna. Sammanfattningsvis skall bibliometriska mått inte användas på ett mekaniskt sätt för att rangordna forskning, utan just som ett komplement till kollegial granskning av innehållet i den forskning som skall värderas.

Detta är inte bara min enskilda åsikt, utan ett sammandrag av den samlade kompetensen hos en stor andel av den bibliometriska expertisen i världen. Några källor till detta är det så kallade Leidenmanifestet som vunnit genklang i hela vetenskapsstudiefältet, den stora genomgången av forskningsläget  The Metric Tide, som låg till grund till att inslaget av bibliometri inte ökade i det brittiska REF-systemet, samt förslaget till riktlinjer för utvärderande bibliometri i Sverige från SUHF:s forum för bibliotekschefers arbetsgrupp för bibliometri och Vetenskapsrådets riktlinjer för användning av bibliometri. Den bibliometriska expertisen är entydig.

Frågan är hur länge amatörmässighet kommer att prägla forskningsevaluering inom akademin.

Gustaf Nelhans
Fil dr i vetenskapsteori och universitetslektor i biblioteks- och informationsvetenskap, Högskolan i Borås

[1] Bibliometriska data är nämligen extremt snedfördelade och många ”lagar” som beskriver vetenskaplig publicering eller citering följer en exponentiell fördelning eller den sk ”paretoprincipen”. Den senare användes från början för urvalet till det ursprungliga citeringsindexet av Garfield som hävdade att han genom att indexera 20 % viktigaste (mest välciterade) tidskrifterna skulle täcka 80 % av citeringarna i fältet. JIF kom därför att utgöra ett viktigt beräkningsmått för att välja vilka tidskrifter som skulle tas med, men Garfield har sedan starten varit starkt kritisk till att använda måttet för bedömning av individuell prestation.

[2] Why impact factors should not be used for evaluating research Per O Seglen, BMJ;314:498-502

Läs mer i Curie:
Ta bort tvåårsgränsen för tidskrifternas ”imapct factor”

1 kommentar

Tack för din kommentar. Den kan komma att modereras innan den publiceras.

  • Andreas Dahlin

    Hej!

    Trevligt att diskussionen fortsätter här på Curie! Jag har förståelse för en hel del tankar i det här inlägget, men jag känner också att det finns en del missförstånd och oklarheter.

    Min artikel handlade alltså om IF för bedömning av TIDSKRIFTER. Detta är viktigt eftersom det numera finns ett oräkneligt antal oseriösa tidskrifter som endast existerar i syfte att tjäna pengar, vanligtvis via Open Access avgifter för forskarna. De accepterar allt som skickas in och granskningen är nästan obefintlig. De har en typiskt IF under ett, vanligen under 0.5 i mitt område. Säger inte detta något om tidskriftens kvalitet?

    Vidare var min avsikt att uppmärksamma tvåårsgränsen på IF eftersom många inte verkar medvetna om den. Det stämmer att andra parametrar finns, men den dominerande är just IF baserad på två år. Om en tidskrifts IF inte ändras särskilt mycket när man använder ett längre tidsintervall så är det gott, men nog kvarstår incitamenten för en journal att fokusera på ”heta” ämnen snarare än långsiktig nytänkande forskning?

    Jag håller med om att i en ideal värld borde vi inte bedömas så hårt efter vår publikationslista. Naturligtvis vore det fantastiskt om vi fick ett antal experter på just vårt område som bedömde våra forskningsresultat och idéer vid varje ansökan till anslag eller tjänst. Problemet är att det är omöjligt! Vi är redan överbelastade med andra granskningsuppgifter och om vi ska hantera säg 100 sökande blir det ett ofantligt jobb om man inte först gör en sållning med avseende på meriter såsom publikationer. Dessutom, med dagens specialiserade forskningsområden är det svårt att hitta experter som verkligen kan just den forskning den sökande bedriver. Om man lyckas blir det normalt forskarens samarbetspartner och vänner. Är detta verkligen ett bättre alternativ?

    Till sist har jag svårt att förstå skillnaden mellan att ”mäta” och ”bedöma”. Det låter tilltalande men jag förstår inte vad det betyder i praktiken? I slutändan görs (i nästan alla relevanta sammanhang) en ranking eller ett betyg på en skala. Några får anslag och någon får en tjänst, andra inte. Jag hävdar inte att en automatisk algoritm baserad på bibliometri ska ersätta granskningsprocesser och utlåtanden, utan bara att IF ger en hyfsad indikation på en tidskrifts kvalitet. Detta kan i sin tur användas för att bedöma en publikation, särskilt en nyutkommen där antal citeringar inte är relevant. Detta är sedan endast en del, låt oss uppskatta den med 17% precis som Gustaf hävdar, i helhetsbedömningen av forskaren. Varför ska dessa 17% försummas?

    2017.01.13