NYHET
Artificiell intelligens ger stöd vid peer review
Nu har datorprogram börjat användas som stöd för att utvärdera metod och statistik vid granskningen av vetenskapliga artiklar. Den snabba utvecklingen inom artificiell intelligens väcker förhoppningar om att detta bara är början och att allt mer i en referentgranskning kommer att kunna bedömas automatiskt. Andra varnar för en sådan utveckling.
Att vetenskapliga artiklar granskas av andra forskare före publicering, peer review, har länge varit en grundbult vid kvalitetssäkringen av forskning. Granskningsprocessen har dock fått kritik för att vara subjektiv och otillräcklig. Flera försök har också gjorts för att förbättra processen, till exempel genom att göra den öppnare och att tillåta kommentarer av redan publicerade artiklar.
En annan väg som nu prövas är programvaror som automatiskt kan granska delar av en studie. Stat Reviewer är ett sådant program.
Lättare för dator att upptäcka fel
Det var när Timothy Houle, docent på Wake Forest School of Medicine i North Carolina, beklagade sig över att samma statistiska fel ständigt återkom i de studier han granskade, som vännen och systemutvecklaren Chad deVoss reagerade. Återkommande fel i framställningar, som dessutom är reglerade av riktlinjer, borde en dator kunna upptäcka bättre än en människa, tänkte han.
Tillsammans med Timothy Houle utvecklade därför Chad deVoss, vd på Next Digital Publishing i Wisconsin, programmet Stat Reviewer. Det är ett program som kan identifiera och analysera en inmatad studies beståndsdelar. Analysen resulterar i en rapport med anmärkningar om när statistik behandlas på ett felaktigt sätt och på det som inte följer riktlinjer för metod.
Syftet är att människor ska bli bättre, inte att datorerna ska ta över.
– Vår förhoppning är att Stat Reviewer i förlängningen kan förändra kulturen kring metod och statistik och medverka till att författare blir bättre på att skapa fullödiga studier. Man ska inte kunna använda programmet som en genväg, säger Chad deVoss.
Förlag testar programmet
Förlaget BioMed Central har intresserat sig för programmet och varit med i utvecklingen sedan 2014. Hösten 2016 startade ett försök lett av BioMed Central med målet att undersöka om det är möjligt att automatisera statistisk och metodologisk granskning av forskning.
Försöket omfattar de fyra tidskrifterna Trials, Critical Care, BMC Medicine och Arthritis Research & Therapy. Stat Reviewer används parallellt med den vanliga arbetsgången i en blindad studie. Det primära målet är att mäta hur många metodfel Stat Reviewer upptäcker jämfört med en normal peer review, men man kommer också att utvärdera hur datorns förslag på förbättringar tas emot av författare och granskare. Vill man följa råden?
Alla granskade artiklar måste gå igenom hela processen fram till slutgiltigt beslut och resultatet av studien kan därför dröja en bra bit in på 2017. Sedan kommer man eventuellt att införa Stat Reviewer som en del av granskningsprocessen och gå vidare med fler tidskrifter.
– För närvarande är programmet begränsat till randomiserade kontrollerade studier, men teamet bakom Stat Reviewer arbetar med att göra det tillämpligt för all empirisk forskning. Avsikten med vårt arbete är dock inte att ersätta granskarna. Vi vill stödja och stärka deras utvärderingar genom att kolla grundläggande komponenter, säger Daniel Shanahan, redaktör på BioMed Central.
Kan ge värdefullt stöd
Stefan Eriksson, som är lektor vid Centrum för forsknings- och bioetik vid Uppsala universitet, tror att stödet som en automatiskt första genomgång kan ge granskarna är värdefullt.
– Det görs fler och fler studier och peer review är något som tar mycket tid samtidigt som det inte ger tillräcklig med meritvärde i mångas ögon. Att få stöd i utvärderingen av metodologiska och statistiska aspekter, det tycker jag låter bra. En första automatiserad genomgång skulle kunna effektivisera systemet, säger Stefan Eriksson.
Men skulle automatiserade genomgångar kunna göra mer än att kontrollera struktur och beräkningar? Chad deVoss på StatReviewer är övertygad om det. Han lutar sig mot den utveckling som sker inom forskningen kring artificiell intelligens, AI, där nya datorsystem självständigt kan lära sig att tolka komplexa sammanhang. Flera stora företag som till exempel Google och Facebook satsar för närvarande hårt på att utveckla AI som kan värdera språkligt innehåll.
– Om tio år kan jag se framför mig hur ett system växer fram som har konsumerat så mycket data och har självjusterat sig så exakt att det kan bedöma en studie bättre än människor. Och om du litar på datorgenererade granskningar av både metodologiska och subjektiva komponenter i en studie, varför låter du då inte bara datorn göra en objektiv bedömning när det är dags för peer review, frågar Chad deVoss retoriskt.
Kolleger måste granska
Det tycker inte Stefan Eriksson vore en speciellt bra idé. Huvuddelen av en referentgranskning måste göras av en kollega, menar han.
– Vetenskap bedrivs just genom att vi läser och granskar andras resultat och bygger vidare på dem. Det är en så central del av vetenskaplig aktivitet att vi inte kan överlåta det till en automatiserad process. Det är önskvärt att vi kan få hjälp att göra detta mer effektivt, men det är inte önskvärt att en sådan process ska ta över hela uppgiften.
Daniel Shanahan på BioMed Central tror förvisso att kompanjonerna på Stat Reviewer kan komma långt, men i ljuset av granskningsprocessens komplexitet har han svårt att se att en granskning kan bli helt automatiserad. Den hållningen har även Kimmo Eriksson, professor i matematik vid Mälardalens högskola. Han är en flitig redaktör och granskare och tycker att utvecklingen är intressant, men att en automatisk utvärdering ligger mycket långt in i framtiden.
– Ta till exempel den teoretiska artikel jag precis behandlat som redaktör. Den innehöll en intressant idé, men författarna var inte särskilt klartänkta kring teorin. Som redaktör kunde jag hjälpa dem att reda ut saken. Att granska analysen är en sak, att automatisera värdering av teori tror jag är betydligt svårare och teori är en essentiell del av vetenskap, säger Kimmo Eriksson.
Visa vad som är bra och dåligt
Fredrik Heintz är docent i datalogi vid Linköpings universitet och ordförande i svenska AI-sällskapet. Han bedömer att redaktörer och granskare kommer att behövas även i fortsättningen, men arbeta på en högre nivå. Artificiell intelligens kan bli ett stöd inom referentgranskningen, men människor måste visa systemen vad som är bra och dåligt.
– En redaktörs uppgift kan bli att träna upp ett stödsystem genom att lyfta fram exempel på bidrag som borde accepteras eller refuseras. Men detta system måste underhållas för att fortsätta vara relevant och inte bara acceptera saker som liknar det som systemet godkänt tidigare.
Det finns dock enligt Fredrik Heintz inga principiella skäl som talar emot att AI så småningom skulle närma sig mänskliga förmågor. De senaste åren har system för maskininlärning gjort att området utvecklas snabbt och det kommer att påverka forskningen på många plan.
I framtiden kan man tänka sig att artificiell intelligens börjar användas för att reproducera studier för att kvalitetssäkra dem. Det skulle samtidigt bli ett sätt för AI-system att lära sig forskningsprocessen, påpekar Fredrik Heintz.
– Den verkliga utmaningen, säger Chad deVoss, är att förstå vad händer när artificiell intelligens når en punkt där den föreslår experiment för att föra forskningen inom ett område framåt. Kommer detta AI-system då att producera någon form av studie som andra AI-system kan bedöma?
Lära sig förstå människans behov
Hur ska sådan forskning styras så att människans behov står i centrum? Finns det en risk att intelligenta system börjar göra saker som gagnar dem själva och inte går att stoppa? Det är frågeställningar som känns igen från den generella debatten om riskerna med AI och som även diskuteras av många forskare utanför AI-området.
Kosmologen Max Tegmark har till exempel framhållit att det är viktigt att redan nu fundera kring hur man kan ge artificiell intelligens någon form av emotionell förmåga, så att den kan förstå mänskliga bevekelsegrunder. Det lär krävas om en artificiell intelligens ska kunna göra som Kimmo Eriksson på Mälardalens högskola och hjälpa forskare att formulera om sina idéer till en hållbar teori.
Stat Reviewer
Program för att utvärdera metod och statistik vid granskningen av vetenskapliga artiklar. Programmet kan användas för att kontrollera om studier följer olika typer av riktlinjer, exempelvis CONSORT. Den statistiska delen av utvärderingen fungerar i dagsläget bäst för randomiserade studier.
Maskininlärning
Genom att outtröttligt prova vägar för att uppnå ett mål kan ett datorprogram lära sig att bemästra en uppgift helt på egen hand, till exempel att identifiera katter på bilder. Google Deep Minds program Alpha Go kunde slå världsmästaren i det intuitiva asiatiska brädspelet Go genom att spela hundratusentals partier mot andra datorer och sedan mot allt mer avancerade mänskliga motståndare.
Neurala nätverk
En central komponent inom maskininlärning är system som bär vissa likheter med den biologiska hjärnans sätt att fungera. Systemen kallas även “deep learning” och består av programmerade neuroner som samverkar med varandra i flera lager och kan tolka mönster på flera nivåer. Om man visar en kattbild för neurala nätverk som tränats på katter signalerar tillräckligt många neuroner för att systemet ska konstatera “katt”. En hundbild triggar inte tillräckligt många neuroner.