Logotyp Curie - samtal om forskningens villkor
Maria Sjöberg.

Det stora kvinnobiografiska lexikon som nu byggs upp i Göteborg är ett av de forskningsprojekt som utnyttjar forskningsinfrastrukturen Swe-Clarin. Projektet leds av historikern Maria Sjöberg (bilden) och litteraturvetaren Lisbeth Larsson. Foto: Helena Östlund

NYHET

Forskare vaskar guld i digitala källor

På nätet, i historiska samlingar och i arkiv finns oändliga mängder material. Men mycket är svårtillgängligt för forskare. Tack vare forskningsinfrastrukturen Swe-Clarin kommer det att bli lättare att forska på digitaliserade källor. Ett aktuellt projekt är det stora kvinnobiografiska lexikon som nu byggs upp i Göteborg.

En nutidshistoriker kanske drömmer om att få botanisera bland ljudinspelningar sedan radions barndom. En valforskare vill gärna följa opinioner i Twitter och en historiker hoppas komma åt material i urgamla arkiv.

Det finns många forskningsdrömmar som hittills varit svåra att uppfylla. Men tack vare forskningsinfrastrukturen Swe-Clarin kommer spännande material att göras tillgängligt.

– Språkresurser som texter, digitaliserat tal och video är viktiga rådata i många sorters forskning. Att ge forskare tillgång till detta skulle föra forskningen framåt, säger professor Lars Borin som är nationell koordinator för Swe-Clarin och föreståndare för Språkbanken vid Göteborgs universitet.

Elva miljarder ord

Den enorma mängden material i databaser är en utmaning för forskningen. I exempelvis Språkbanken finns elva miljarder ord och det ökar ständigt, inte minst genom sociala medier.

– Av dessa data härrör åtta miljarder från sociala medier – allt annat förbleknar. Tidningstext, skönlitteratur och myndighetstext är ingenting jämfört med Familjeliv och Flashback, konstaterar Lars Borin.

Dessutom digitaliseras kulturarvsdata i snabb takt. Nordiska museet digitaliserar etnografiskt material från 20-talet och framåt och Kungliga Biblioteket har digitaliserat alla dagstidningar till dags dato. Litteraturbanken och Projekt Runeberg har digitaliserat tusentals böcker.

– Det är å ena sidan mumma för forskarna, men å andra sidan – vad ska de göra? Ingen kan göra något vettigt med 8 miljarder ord ”för hand”, man behöver avancerade datorverktyg för att se vad som skulle vara intressant att forska om.

Hjälp för forskare

Det är här Swe-Clarin kommer in. Deras uppdrag är att utveckla språktekniska verktyg som kan hjälpa forskare inom främst humaniora och samhällsvetenskap att forska på digitaliserat material. Verktygen är enkelt utryckt dataprogram som förstår, sorterar och kategoriserar innehållet i texter och digitaliserat tal.

– Vi försöker komma på svar så att forskare kan interagera med materialet på det sätt som de önskar. Vi ska också att se till att det finns bra verktyg för att arbeta med historiska språkformer, till exempel äldre svenska, latin och grekiska.

Textinnehåll måste transformeras till tabelldata, för att det ska gå att leta efter upprepningar och mönster i ett stort material. Datamining kallas det.

Lars Borin tar som exempel tio års kassakvitton från en stormarknad med tidpunkter, varor och kostnader. I ett material uppställt på det sättet går det lätt att söka efter samband och trender. Vem köper vad, och när?

– Om du har det som tabelldata öppnas många möjligheter.

Språkteknologforskarna inom Clarin arbetar främst med redan digitaliserat material, men är gärna med tidigt i processen när exempelvis museer ska till att digitalisera, så att det görs rätt från början.

Digitalt lexikon med kvinnobiografier

Ett av de forskningsprojekt som samarbetar med Swe-Clarin är det digitala kvinnobiografiska lexikon som nu byggs upp vid Göteborgs universitet. I andra stora lexikon utgör kvinnor bara fem–tio procent. De har missgynnats på grund av rådande könsnormer menar historieprofessorn Maria Sjöberg som leder projektet tillsammans med litteraturprofessorn Lisbeth Larsson.

Därför kommer nu minst 1 000 kvinnor med anknytning till Sverige att lyftas fram, från medeltid och framåt. Kvinnor som bidragit till samhällsutvecklingen, är historiskt betydelsefulla, är pionjärer på olika områden eller som bidragit till kampen för könens jämlikhet.

Lexikonet kommer att vara gratis och länkas till uppslagsverk, museer och arkiv. Själva databasen kommer att byggas och underhållas av språkteknologerna inom Swe-Clarin.

– Vi tror att det kommer att bli väldigt bra. Swe-Clarin är en forskningsinfrastruktur som uppfyller de vetenskapliga krav vi ställer, säger Maria Sjöberg.

Fakta kommer att redovisas i tabellform: kvinnornas födelseort, boende, och verksamhet, samt föräldrar, makar och barn och deras liv och verksamheter. Dessutom beskrivs varje kvinna i en biografisk text. Forskare och andra intresserade kommer att kunna söka på olika sorters samband, som mellan personer, platser och sociala sammanhang.

– Hur har en kvinna uppfattats i sin samtid? Sågs hon med den tidens mått som framgångsrik? Hur såg kvinnornas relation till sina fäder ut? Det finns få lexikon där det går att söka på flera olika dimensioner, säger Maria Sjöberg.

Ser gärna fler samarbeten

Swe-Clarin samarbetar kring ytterligare ett antal forskningsprojekt, bland annat om retorik i historiskt tidningsmaterial, om språkliga signaler på begynnande demens och om att återuppliva traditionell matlagning.

Men Lars Borin ser gärna ännu fler samarbeten med exempelvis kulturarvsinstitutioner.

– Vi arbetar med generella lösningar men kan också skräddarsy lösningar för varje enskilt projekt om det behövs, säger han.

Forskningsinfrastrukturen Swe-Clarin Länk till annan webbplats.

Clarin

Clarin som utläses Common Language Resources and Technology and Infrastructure ingår i den europeiska forskningsinfrastrukturen Clarin Eric som bildades 2005 av språkteknologiprofessor Steven Krauwer i Utrecht. Den svenska grenen startade 2014 med stöd av Vetenskapsrådet. Swe-Clarin har nio medlemmar, som de största universiteten och Digisam som i sin tur samlar ett stort antal kulturarvsinstitutioner.

Språkbanken startades 1975 av Sture Allén med syftet att samla in, lagra och bearbeta maskinläsbara texter. Han var en av de första humanisterna som lärde sig data och var en pionjär inom datalingvistik. Inom Språkbanken finns bland annat lexikon och ordböcker samt databaserna Korp, Karp och Lärka.

Du kanske också vill läsa

Nyhet 16 april 2024

Lisa Kirsebom

I den svenska sjukvården samlas mängder av data in som kan bli en enorm tillgång för forskare. Men otydliga lagar och tekniska utmaningar bromsar användandet. Nu växer arbetssätt o...

Nyhet 16 april 2024

Lisa Kirsebom

Hälsodata har blivit en allt viktigare tillgång för forskningen. De kan hjälpa oss att få svar på frågor om alltifrån samhällsreformer till medicinska behandlingar. Men enkel tillg...

Nyhet 23 januari 2024

Siv Engelmark

I år skickas den första satelliten upp från den nya rymdhamnen på Esrange utanför Kiruna – den enda i Europa som kan sända upp satelliter i omloppsbana. Satsningen är ett av många ...