Prenumerera på Curies nyhetsbrev

Nyheter, krönikor och debatter om forskarens vardag och aktuella forskningsfrågor. Varje vecka i din inkorg. Ges ut av Vetenskapsrådet.

Logotyp Curie - samtal om forskningens villkor
Gammalt handskrivet dokument från Göteborgs polis. 

Poliskammarens detektiva avdelning inrättades på 1850-talet och genomförde utredningar som ouniformerade poliser. Från och med 1868 fick avdelningen en fast personalgrupp och började föra så kallade “Rapportböcker” som innehåller kopior av alla utgående rapporter från avdelningen. Bilden visar HTR-bearbetning av en polisrapport från 1896. Foto: Karl-Magnus Johansson

NYHET

Datorprogram tolkar gamla handskrifter med hjälp av AI

Med hjälp av artificiell intelligens går det att lära en dator att automatiskt transkribera många hundra år gamla texter. Programvaran Transkribus har testats både på domböcker från 1600-talet och polisrapporter från förra sekelskiftet. Det öppnar en helt ny värld av material som annars är svåråtkomlig för forskare.

Gamla texter kan vara svåra att tyda, både vad gäller stil och innehåll. Det vet medlemmarna i Jämtlands läns fornskriftsällskap som under många år har arbetat med att skriva av gamla källor, framför allt domböcker. Ett mödosamt och långsamt arbete.

För fyra år sedan fick Maria Press, ordförande för fornskriftsällskapet tillika sektionsschef vid Riksarkivet i Östersund, höra talas om programvaran Transkribus Länk till annan webbplats. som bygger på artificiell intelligens, AI. Hon anmälde sig till en konferens ledd av Gunther Mühlberger från universitetet i Innsbruck som varit med om att utveckla programmet – och hon blev entusiastisk.

– Det var fascinerande vad de åstadkommit och det verkade väldigt lovande, berättar Maria Press.

Arbetet bedrevs inom EU-projektet Readcoop och Gunther Mühlberger bjöds in till Östersund för att hålla en workshop med sällskapets medlemmar. De blev därigenom pionjärer i Sverige med att använda Transkribus som är en metod för automatiserad handskriftstolkning, HTR.

Tränas känna igen bokstäver

Tekniken bygger på bildigenkänning och programmet tränas att känna igen bokstäver och tecken från en viss tidsepok. Dokument från tiden skannas in och paras ihop med avskrifter av samma dokument. Eftersom sällskapet hade en stor mängd färdiga avskrifter av domböcker kunde en modell skapas för läsning av 1600-talstext.

– Första gången som vi fick upp ett resultat på skärmen trodde vi knappt att det var sant. Det var fascinerande att se hur programmet klarade av att läsa alla krångliga ord.

Resultatet behöver dock korrläsas och rättas. Vissa bokstäver, siffror eller bläckplumpar kan tolkas fel men felen är oftast lätta att korrigera.

Domböckerna ger en bild av människors liv, i stort och i smått. Det handlar om stölder och tjuvjakt, om jord och hus, om familjekonflikter och grannbråk. Straffen kunde vara böter, fängelse, eller – om den dömde inte hade pengar – att få löpa gatlopp.

– Texterna går på djupet i människors liv. När det gäller konflikter citeras exakt vad personerna sagt. Det gör att man kan komma åt språkbruket, till exempel dåtida förolämpningar.

Materialet blir lättillgängligt, det går att göra sökningar på ord, namn, platser och företeelser. Det gör att exempelvis släktforskare kan söka information om anförvanter.

Domböcker från Bergs tingslag finns nu på fornskriftsällskapets sajt i råtext Länk till annan webbplats. och det korrigerade materialet kommer att publiceras under året. Själva modellen som heter Jaemtlands domsaga 1649-1690 är offentligjord; idén bakom Transkribus är att användare över hela världen hjälps åt att utveckla och förbättra modellerna.

Pröva nya AI-tillämpningar

Programvaran har även prövats vid Riksarkivet där ett Vinnova-finansierat projekt startat för att testa Transkribus i samarbete med forskare vid GPS400: Centrum för samverkande visuell forskning vid Göteborgs universitet.

– Vi ville dels tillämpa metoden och dels skaffa oss erfarenheter för att eventuellt kunna skala upp den och använda den vid en institution som Riksarkivet, berättar arkivarie Karl-Magnus Johansson som arbetar i projektet.

Transkribus lämpar sig väl för handskrivet material med löpande text och inte så mycket tabeller. Det material som valdes ut för projektet är precis sådant: Detektiva avdelningens rapportböcker som ingår i arkivet från Göteborgs poliskammare. Serien består av 36 böcker om 22 500 sidor och skrevs mellan 1868 och 1902.

Detektiva avdelningen var en styrka av civilklädda poliser som utredde olika typer av brott, som stölder, efterspaning av försvunna, bedrägerier, mord och sexualbrott.

– Många av brotten är med våra mått mätt oskyldiga och ringa, som stöld av en stickad halsduk. Men man får syn på så mycket annat, exempelvis den kriminella undervegetationen i staden. Det värdefulla är kontexten, livsförutsättningar som var rådande vid den tiden.

Lokal kännedom viktig

Transkribering handlar inte bara om att översätta tecken, det gäller också att ha lokal kännedom om platser och förhållanden. Sådant som kanske inte är vedertaget idag.

– Då är den lokala kunskapen och den mänskliga interaktionen viktig.

I detta material fanns tio-tolv olika handstilar och exempel från alla skribenter valdes ut för att träna programmet. Det var spännande att skicka in beställningen till Transkribus berättar Karl-Magnus Johansson.

– De tunga datorerna i Innsbruck skapade på ett halvt dygn vår HTR-modell som sedan automatiskt kunde transkribera resten av materialet.

Analysen av texterna visade att 97 procent transkriberats korrekt, vilket är en hög siffra för ett material med flera handstilar. För att se om det gick att komma nära 100 procent bjöd forskarna in allmänheten till projektet. Medborgarforskarna fick i uppdrag att korrekturläsa de automatiskt transkriberade rapporterna och de hittade i genomsnitt en felaktig bokstav på var fjärde rad.

Tidigare var materialet enbart sökbart genom arkivförteckningen med ett årtal för varje bok, men ingen information varken om händelser eller personer. Nu går det att söka i fritext, exempelvis på namn och platser, men också att bearbeta materialet som textdata och göra analyser som tidigare varit omöjliga.

Helt nya möjligheter

Karl-Magnus Johansson konstaterar att transkribering öppnar helt nya möjligheter för forskningen – bara fantasin sätter gränser. Han ger några exempel: språkvetenskapligt skulle man kunna studera hur användningen av adjektiv i förhållande till misstänkta personer har förändrats under de 35 åren som rapportböckerna skrevs. Eller hur kanslisvenskan utvecklats under samma period.

Kulturgeografiskt skulle man genom digitala modeller av händelser, personer eller platser kunna säga nya saker om stadens utveckling i ett intressant skede vid förra sekelskiftet.

– Göteborg genomgår under denna tid en dramatisk förändring, folkmängden mer är fördubblas och hundratusentals människor passerar staden för att migrera till Nordamerika. Sådant syns i rapporterna, emigranter som får koffertar stulna i sitt logi på Sillgatan till exempel.

De fem första av de 36 rapportböckerna publicerades på Riksarkivets sajt Länk till annan webbplats. i februari och fler kommer att läggas upp under året. På webbplatsen kommer också att finnas set med nedladdningsbar data, vilket är det mest intressanta för forskare. Karl-Magnus Johansson ser stora möjligheter men betonar att metoden inte är en lösning för allt handskrivet material.

– Vårt projekt bestod av 1,5 hyllmeter arkivmaterial, men Riksarkivet förvarar 80 hyllmil varav en majoritet handskrivet. Vi måste se nyanserat på saken, det här är inte ett verktyg som kommer att göra alla arkiv tillgängliga för alla.

Transkriberad rapport

Här följer en transkription av rapporten som visas på bilden:

  1. mat och dryckesvaror;
  2. att Henriksson sistberörde dag kl. om
  3. kring tio på aftonen besökt yngliga
  4. boreningen Libanons serveringslokal i
  5. huset No. 2 vid Skolgatan, der han for
  6. tört kaffe och smorgas;
  7. att han vid bortgående derifrån i det
  8. till lokalen hörande tamburen till
  9. gripit målsegande Gustafssons ef

Du kanske också vill läsa

Nyhet 16 april 2024

Lisa Kirsebom

I den svenska sjukvården samlas mängder av data in som kan bli en enorm tillgång för forskare. Men otydliga lagar och tekniska utmaningar bromsar användandet. Nu växer arbetssätt o...

Nyhet 16 april 2024

Lisa Kirsebom

Hälsodata har blivit en allt viktigare tillgång för forskningen. De kan hjälpa oss att få svar på frågor om alltifrån samhällsreformer till medicinska behandlingar. Men enkel tillg...

Nyhet 18 mars 2024

Charlie Olofsson

Som litet land är det svårt att konkurrera internationellt inom AI. De som driver på utvecklingen i Sverige ser ändå nischer där vi kan bli världsledande. − Jag tror att vi ska ha...