Vid textmatchning används mjukvara som bygger på algoritmer för att hitta likheter mellan olika texter. Foto: Max Chen / Unsplash
NYHET
Textmatchning: Jakten på plagiat kan leda fel
System för textmatchning kan hitta likheter mellan texter. Idag används de av både vetenskapliga tidskrifter och inom akademin, som en hjälp att upptäcka plagiering. Men det finns en risk att resultaten används på fel sätt.
– Det här är inte plagieringsdetektorer, det är viktigt att komma ihåg, säger forskaren Sonja Bjelobaba.
De kallas för textmatchningssystem – mjukvara som kan användas för att upptäcka likheter mellan textdokument. Systemen är kanske mest kända som verktyg för att försöka hitta kopierad text i studentarbeten, men numera är användningen betydligt mer omfattande.
– Många tidskrifter kräver idag att man bifogar utdrag från sådana här system när man lämnar in sin artikel, säger Sonja Bjelobaba, lektor vid institutionen för moderna språk och forskare vid Centrum för forsknings- och bioetik vid Uppsala universitet.
Sonja Bjelobaba leder ett forum för akademisk integritet och textmatchning inom nätverket Sunet. Hon berättar att det också är vanligt att tidskrifterna själva använder textmatchningssystem i sina redaktionella processer.
Ett exempel är via samarbetet Crossref som Springer, Elsevier och många andra förlag är anslutna till. Deras tidskrifter kan jämföra sina manus mot en databas med medlemmarnas publicerade material, vilket i många fall görs automatiskt när manuset skickas in.
Textmatchning innebär kortfattat att texter jämförs med hjälp av algoritmer som kan hitta likheter mellan texter (se faktaruta). I vissa system ingår även andra analyser, till exempel av textens stil. Exakt vilka algoritmer och detektionsmetoder de olika systemen använder är ofta hemligt.
Problematisk procentangivelse
Resultaten från en textmatchning presenteras vanligen i en rapport där färgmarkeringar visar vilka matchningar mot andra texter systemet har hittat. Dessutom anges en procentsats för hur mycket textöverlapp som hittas totalt. Men den procentangivelsen är problematisk, menar Sonja Bjelobaba som ser en risk att användare fäster för stor vikt vid den.
– Folk får lätt för sig att den visar något, men den betyder ingenting! Du kan komma upp i en väldigt hög procent utan att det är något problem, till exempel med ett långt appendix från en lagtext som är helt öppen. Och en låg procent garanterar inte att texten är fri från plagiering, säger hon och fortsätter:
– Det går inte att förlita sig på procentangivelsen – du måste kolla träffarna i själva rapporten. Jag tycker att procentangivelserna är så meningslösa att systemen inte borde visa dem, utan bara markera i texten vad som har matchat.
Dessutom kan procentangivelsen för samma dokument bli olika om matchningen körs flera gånger, eftersom vissa system bara undersöker delar av texten. Systemen kan också felaktigt räkna vanliga fraser eller långa institutionsnamn som matchningar. Om texten innehåller stavfel finns å andra sidan risk att överlappningar missas.
Systemen fungerar ganska bra
– Systemen kan matcha fel, men generellt skulle jag säga att de fungerar ganska bra för att hitta träffar i de databaser de täcker. Men allt material finns inte med där och man kan fortfarande komma undan genom att använda synonymer, ändra lite i ordföljden eller översätta från ett språk till ett annat – även om de stora företagen hela tiden försöker förbättra sina metoder och nu testar översättningsmatchningar.
Ett exempel på när textmatchningssystemets resultat verkar ha använts utan att man tittat på träffarna, finns i en tråd på Twitter för ett par år sedan. En forskare från Frankrike beskriver att hans manus fått automatiskt avslag från en tidskrift, med hänvisning till hög nivå av textöverlapp med tidigare litteratur.
Likheterna visade sig vara forskarnas affilieringar, standardmeningar och nästan alla referenser – saker som forskaren menar att en människa snabbt hade kunnat se var okej. I tråden vittnar andra forskare om liknande erfarenheter, och det finns tidskrifter som anger att likhet över en viss procent leder till automatiskt avslag.
Måste kontrollera rapporten
Så gör inte Journal of business research, berättar tidskriftens chefredaktör Anders Gustafsson, professor vid institutet för marknadsföring vid Handelshögskolan BI i Oslo. Men procentangivelsen spelar ändå en viktig roll.
Alla manus som skickas in till Journal of business research körs automatiskt genom ett textmatchningssystem (CrossRef) som tidskriften är ansluten till via förlaget Elsevier. För manus som får en procentsiffra på tio eller högre för totalt överlapp går Anders Gustafsson igenom matchningsrapporten.
– Det behöver inte betyda att det är något, ibland är det överlappningar i referenserna som markeras felaktigt. Man måste gå in och kontrollera vad det är. Men min erfarenhet är att om det är under tio procent är det väldigt sällan något problem.
Letar efter stora textöverlapp
Det Anders Gustafsson letar efter i rapporten är om det finns stora textöverlapp med en enda källa. Den vanligaste orsaken till det är enligt honom att forskaren kopierar från sin egen tidigare publicerade text, vilket tidskriften vill undvika.
– Då kan det bli problem eftersom någon annan äger copyrighten till texten. Vi vill ju inte heller publicera samma artikel en gång till. När jag upptäcker sådant skickar jag antingen tillbaka manuset till författaren och ber om en förklaring, eller avslår direkt om det är uppenbart att det handlar om kopiering av något som redan är publicerat, säger Anders Gustafsson.
År 2021 inkom 6 200 manus till Journal of Business Research. Anders Gustafsson bedömer att han med textmatchningssystemets hjälp avslår ungefär 5 procent av dem, innan de granskas av andra forskare.
– Det är överlapp som jag aldrig hade upptäckt annars och oftast sådana som återanvänder egen text. Det är hetsen att publicera som finns nu; då går det snabbast att återanvända något man redan har. Alla är heller inte vana vid hur man ska skriva, det hänger mycket på vad du lär dig i forskarmiljön du finns i.
Doktorander granskar sina översikter
På Karolinska institutet använder doktorander systemet Ithenticate för att granska sina litteraturöversikter inför halvtidskontroll och utifrån resultatet föra en diskussion om vetenskapligt skrivande med sin handledare. När avhandlingen är klar körs också kappan genom systemet. Rapporten skickas till betygsnämnden, där den ska underlätta bedömningen av avhandlingens kvalitet.
– Vi använder textmatchningssystem inte bara som hjälp för att hitta plagiering, utan också i utbildningssyfte för att få bättre kvalitet på avhandlingarna, bättre skrivande.
Enligt Ingeborg van der Ploeg, central studierektor för forskarutbildningsfrågor vid Karolinska institutet, förekommer det sällan plagiat i kapporna.
– Textöverlapp med forskningsartiklar där doktoranden är medförfattare är vanligare, men då är det mer en kvalitetsfråga eftersom man bör skriva så mycket som möjligt med sina egna ord.
Det förebyggande arbetet mot plagiering är viktigt, konstaterar hon. En kurs i referenshantering och hur man undviker plagiat är obligatorisk för nya doktorander.
Ingeborg van der Ploeg påpekar att det inte går att ange vad som är en acceptabel nivå för textmatchning, och i betygsnämndens instruktioner står att medlemmarna ”gärna ska titta på varje textmatchning i sig och inte på procent textmatchning”. Titelsidor, material och metoder samt referenser analyseras inte.
En maskin kan inte göra bedömningen
Gert Helgesson, professor i medicinsk etik vid Karolinska institutet, menar att det finns en nytta med textmatchningssystem.
– Det är väl bra att det blir svårare att komma undan med att plagiera, oavsett om det gäller studentarbeten eller forskningsartiklar. Men det gäller att förstå att det här är en ren textöverlappningskoll, inte system som berättar om någon har plagierat eller inte. Den bedömningen kan inte maskinen göra, säger han.
Gert Helgesson brukar uppmana doktorander att testa sina manus i ett textmatchningssystem för att se hur det ser ut när de känner sig färdiga med texten. Men han konstaterar att det kan finnas en baksida med det.
– Det går såklart att köra sitt manus och sedan skriva om det utifrån målet att texten ska sluta matcha. Det är kanske inget vidare kvalitetsarbete att jobba med en text på det sättet.
Textmatchning letar likheter i dokument
Grunden för textmatchning handlar om att hitta likheter i textdokument med hjälp av algoritmer. En vanlig metod kallas fingeravtrycksmetoden. Den bygger på att skapa en signatur, ett fingeravtryck, som representerar innehållet i texten och jämföra med förekomster av det i andra dokument. Fingeravtrycket byggs upp av enheter av ett visst antal tecken eller ord i följd. I vissa fall kan systemet lägga in ord och fraser som inte ska kontrolleras.
Utöver textmatchning gör vissa system också kontroller av vokabulär och stil i texten. Exakt vilka algoritmer och metoder olika system använder är ofta hemligt.
En viktig skillnad mellan olika textmatchningssystem är vilka databaser de använder för sina jämförelser. Vissa jämför bara texten med material som finns öppet tillgängligt på internet. Andra system har tillgång till en databas av studentarbeten och vissa kan göra jämförelser mot lösenordsskyddat material i vetenskapliga tidskrifter genom avtal med förlag.
Två stora system för akademisk användning är Ouriginal (som tidigare tillhandahölls av företaget Ouriginal som bildades 2020 genom en sammanslagning av det svenska företaget Urkund och tyska PlagScan) och Ithenticate. Förra året köpte amerikanska Turnitin, som tillhandahåller systemet Ithenticate, företaget Ouriginal.
Faktakoll: Hercules Dalianis, professor i data och systemvetenskap vid Stockholms universitet.