Det stora kvinnobiografiska lexikon som nu byggs upp i Göteborg är ett av de forskningsprojekt som utnyttjar forskningsinfrastrukturen Swe-Clarin. Projektet leds av historikern Maria Sjöberg (bilden) och litteraturvetaren Lisbeth Larsson.

Forskare vaskar guld i digitala källor

2016-02-02

På nätet, i historiska samlingar och i arkiv finns oändliga mängder material. Men mycket är svårtillgängligt för forskare. Tack vare forskningsinfrastrukturen Swe-Clarin kommer det att bli lättare att forska på digitaliserade källor. Ett aktuellt projekt är det stora kvinnobiografiska lexikon som nu byggs upp i Göteborg.

En nutidshistoriker kanske drömmer om att få botanisera bland ljudinspelningar sedan radions barndom. En valforskare vill gärna följa opinioner i Twitter och en historiker hoppas komma åt material i urgamla arkiv.

Det finns många forskningsdrömmar som hittills varit svåra att uppfylla. Men tack vare forskningsinfrastrukturen Swe-Clarin kommer spännande material att göras tillgängligt.

– Språkresurser som texter, digitaliserat tal och video är viktiga rådata i många sorters forskning. Att ge forskare tillgång till detta skulle föra forskningen framåt, säger professor Lars Borin som är nationell koordinator för Swe-Clarin och föreståndare för Språkbanken vid Göteborgs universitet.

Elva miljarder ord

Den enorma mängden material i databaser är en utmaning för forskningen. I exempelvis Språkbanken finns elva miljarder ord och det ökar ständigt, inte minst genom sociala medier.

– Av dessa data härrör åtta miljarder från sociala medier – allt annat förbleknar. Tidningstext, skönlitteratur och myndighetstext är ingenting jämfört med Familjeliv och Flashback, konstaterar Lars Borin.

Dessutom digitaliseras kulturarvsdata i snabb takt. Nordiska museet digitaliserar etnografiskt material från 20-talet och framåt och Kungliga Biblioteket har digitaliserat alla dagstidningar till dags dato. Litteraturbanken och Projekt Runeberg har digitaliserat tusentals böcker.

– Det är å ena sidan mumma för forskarna, men å andra sidan – vad ska de göra? Ingen kan göra något vettigt med 8 miljarder ord ”för hand”, man behöver avancerade datorverktyg för att se vad som skulle vara intressant att forska om.

Hjälp för forskare

Det är här Swe-Clarin kommer in. Deras uppdrag är att utveckla språktekniska verktyg som kan hjälpa forskare inom främst humaniora och samhällsvetenskap att forska på digitaliserat material. Verktygen är enkelt utryckt dataprogram som förstår, sorterar och kategoriserar innehållet i texter och digitaliserat tal.

– Vi försöker komma på svar så att forskare kan interagera med materialet på det sätt som de önskar. Vi ska också att se till att det finns bra verktyg för att arbeta med historiska språkformer, till exempel äldre svenska, latin och grekiska.

Textinnehåll måste transformeras till tabelldata, för att det ska gå att leta efter upprepningar och mönster i ett stort material. Datamining kallas det.

Lars Borin tar som exempel tio års kassakvitton från en stormarknad med tidpunkter, varor och kostnader. I ett material uppställt på det sättet går det lätt att söka efter samband och trender. Vem köper vad, och när?

– Om du har det som tabelldata öppnas många möjligheter.

Språkteknologforskarna inom Clarin arbetar främst med redan digitaliserat material, men är gärna med tidigt i processen när exempelvis museer ska till att digitalisera, så att det görs rätt från början.

Digitalt lexikon med kvinnobiografier

Ett av de forskningsprojekt som samarbetar med Swe-Clarin är det digitala kvinnobiografiska lexikon som nu byggs upp vid Göteborgs universitet. I andra stora lexikon utgör kvinnor bara fem–tio procent. De har missgynnats på grund av rådande könsnormer menar historieprofessorn Maria Sjöberg som leder projektet tillsammans med litteraturprofessorn Lisbeth Larsson.

Därför kommer nu minst 1 000 kvinnor med anknytning till Sverige att lyftas fram, från medeltid och framåt. Kvinnor som bidragit till samhällsutvecklingen, är historiskt betydelsefulla, är pionjärer på olika områden eller som bidragit till kampen för könens jämlikhet.

Lexikonet kommer att vara gratis och länkas till uppslagsverk, museer och arkiv. Själva databasen kommer att byggas och underhållas av språkteknologerna inom Swe-Clarin.

– Vi tror att det kommer att bli väldigt bra. Swe-Clarin är en forskningsinfrastruktur som uppfyller de vetenskapliga krav vi ställer, säger Maria Sjöberg.

Fakta kommer att redovisas i tabellform: kvinnornas födelseort, boende, och verksamhet, samt föräldrar, makar och barn och deras liv och verksamheter. Dessutom beskrivs varje kvinna i en biografisk text. Forskare och andra intresserade kommer att kunna söka på olika sorters samband, som mellan personer, platser och sociala sammanhang.

– Hur har en kvinna uppfattats i sin samtid? Sågs hon med den tidens mått som framgångsrik? Hur såg kvinnornas relation till sina fäder ut? Det finns få lexikon där det går att söka på flera olika dimensioner, säger Maria Sjöberg.

Ser gärna fler samarbeten

Swe-Clarin samarbetar kring ytterligare ett antal forskningsprojekt, bland annat om retorik i historiskt tidningsmaterial, om språkliga signaler på begynnande demens och om att återuppliva traditionell matlagning.

Men Lars Borin ser gärna ännu fler samarbeten med exempelvis kulturarvsinstitutioner.

– Vi arbetar med generella lösningar men kan också skräddarsy lösningar för varje enskilt projekt om det behövs, säger han.

Text: Helena Östlund
Foto: Helena Östlund

1 kommentar

Tack för din kommentar. Den kan komma att modereras innan den publiceras.

  • Lennart Guldbrandsson

    Det här är något som Wikipedia numera arbetar med också, och det vore därför en bra idé om vi kunde knyta ihop de här uppslagsverken på ett bra sätt, helst automatiserat, förstås. Läs gärna mer exempelvis på http://kvinnligahuvudpersoner.se.

    2016.02.03

Ta del av information om behandlingen av dina personuppgifter