Digitalisering som historieskrivning – vad formar framtidens kulturarv?

Digitaliserade historiska arkiv och kulturarvsmuseers AI-användning tillgängliggör material som öppnar dörrar till nya perspektiv på dåtiden och förståelsen av nutid och framtid. Men trots stora möjligheter saknar Sverige en tydlig nationell strategi för att tillvarata dessa resurser.

Detta gästinlägg är skrivet av Alexandra Stiernspetz Nylén (avdelningschef Kulturmiljö och forskning, Kulturparken Småland), Katarina Ellborg och Marina Jogmark (lektorer i Företagsekonomi vid Linnéuniversitetet).

Vems stund på jorden blir ihågkommen och hur? Att sådana utmaningar är högaktuella för Sveriges museer och arkiv framkom i de debatter som fördes vid Museernas vårmöte i Jönköping april 2025. Många menade att nya frågor och perspektiv kan träda fram ur historien med AI-stöd i utforskandet av befintligt material. Samtidigt krävs då att materialet görs tillgängligt i digitalt format. På samma sätt kräver AI-modeller anpassade efter svenska förhållanden att de tränas på material som speglar detta. Vad är då lämpligare att använda än historiska arkivens enorma samlingar? I detta sammanhang skriver Faton Rekathati (KB) och Erik Lenas (Riksarkivet) på SvD Debatt om svenska arkiv som strategisk resurs för landets AI-innovation.

Utmaningen är att arkivmaterial behöver vara digitiserat för att kunna användas i detta syfte. I dagsläget finns dock ytterst lite av arkivmaterialet i digital form. Riksarkivet uppger i sin årsredovisning 2024 att 93 procent av deras material endast finns i pappersform samtidigt som forskare besöker deras läsesalar i allt mindre utsträckning. Rekathati och Lenas menar också att det saknas strukturerade satsningar för att öka graden av digitiserat arkivmaterial. Och här menar de att den svenska inställningen skiljer sig från flera andra länders, där man redan har inlett ambitiösa digitiseringsprojekt.

Från debattörernas makroperspektiv på arkivens outnyttjade roll för utveckling inom AI växlar vi här perspektiv. Vi vill spegla situationen på ett mindre regionalt arkiv i södra Sverige: Stiftelsen Svenska Emigrantinstitutet i Växjö som drivs av Kulturparken Småland. Här finns en av Nordens största samlingar av material om den svenska emigrationsepoken då närmare 20 procent av befolkningen valde ett nytt liv i Amerika. 

Kulturparken Småland ingår i det Kampradfinansierade forskningsprojektet ”Det Entreprenöriella Museet” på Linnéuniversitetet där forskare och museum tillsammans undersöker och utmanar föreställningar om museers roll och arbete. Ur detta perspektiv kan vi bara bekräfta den låga graden av digitaliserat arkivmaterial. Vi delar farhågorna om hur avsaknaden av en nationell strategi för digitalisering sannolikt motverkar de fördelar vi som samhälle skulle kunna dra av utvecklade AI-modeller.

Svenska Emigrantinstitutet förvaltar unika material i form av brev, dagböcker och intervjuer från emigrationsepoken som skulle kunna göras mer tillgängligt för forskare och andra intresserade. Allmänhetens intresse för släktforskning är påtagligt, vilket bland annat syns i de många förfrågningar som kommer in till arkivet. Vi ser också intresset för emigrationen speglat i konst, litteratur och till och med i underhållningsprogram så som SVT:s Allt för Sverige. Arkivmaterialet är intressant ur flera perspektiv inte minst migrationshistoriskt, etnologiskt och språkligt. Kopplingarna till samtida migration och allmänmänskliga erfarenheter är uppenbar. Ytterst lite av institutets arkiv är digitiserat. Arkivförteckningar finns tillgängliga digitalt och uppdateras kontinuerligt i Nationell Arkivdatabas, men enskilda dokument finns endast fysiskt. Institutets litteratur finns inlagd i Libris, men stora delar av bibliotekskatalogen är ännu inte sökbar i digital form.

Just nu arbetar dock arkivet med att rädda ett unikt intervjumaterial med svenska emigranter i USA som spelats in från tidigt 1960-tal och framåt. Det rör sig om närmare 3 500 timslånga intervjuer på kassettband. Materialet är en av de mest omfattande källorna om emigration från ett enskilt nationellt sammanhang som vi känner till. Kassettbanden har delvis förts över till ett digitalt format och lagts ut på museernas gemensamma plattform Digitalt Museum där vem som helst kan lyssna på dem. Hittills har hälften av materialet digitiserats, alltså cirka 1 700 intervjuer. Den efterföljande registreringen till Primus släpar dock efter och därmed även tillgängliggörandet via Digitalt Museum. I dagsläget finns endast 175 av intervjuerna tillgängliga där. Personella och ekonomiska resurser är anledningen både till graden av digitisering samt registreringsläget i Primus. 

Men även om alla intervjuer skulle finnas tillgängliga, vem kan lyssna igenom 3 500 timmar? Här ser vi möjligheterna att transkribera, sortera och strukturera det stora materialet med hjälp av AI. För att få hjälp med det har arkivet kontaktat allt från Riksarkivet och Kungliga biblioteket (KB) till universitet och enskilda företag. Alla har på olika sätt varit behjälpliga med att testköra AI-modeller på intervjumaterialet. Det har dock visat sig att det inte finns ett enkelt sätt att få det att fungera tillräckligt bra. Anledningen är att de intervjuade talar dialekt, har ett gammalmodigt språk och att de växlar mellan svenska och engelska, alternativt pratar svengelska. Språkväxlingen är det som varit svårast att parera. 

Illustration 1: Till vänster syns ”ground truth”, det vill säga transkribering av människa. Den övre bilden till höger syns resultatet av det som en av våra samarbetsparter vid Linnéuniversitetet har transkriberat med en egen modell (xscribe) som har Deepgram som underliggande modell. Nedre bilden till höger är transkriberat med en av KB-labbs modeller. Ground truth-transkriberingen är markerad utifrån transkriberingen till höger.

Färgerna läses på följande sätt:

GRÖN: modellen hörde ordet korrekt och har transkriberat ordet likadant/rätt
GUL: modellen hörde ett ord men transkriberade inkorrekt (till exempel skrev ”6” istället för ”sex”)
RÖD: modellen missade ordet eller hela meningen 
BLÅ: modellen har ”hallucinerat”, alltså lagt till ett ord som faktiskt inte ska vara där

I samarbete med forskare och studenter från datavetenskap och medieteknik har en rad modeller för taldetektering och transkribering använts och kombinerats för att nå fram till en tolerabel nivå. Kombinationer av API:n från olika större aktörer har i andra försök också integrerats, till exempel från Open AI:s Whisper, Deepgram, Google Cloud Speech och NVIDIA memo. Modellerna tycks dock vara tränade på tal där inspelningsljudet är optimalt. I det här fallet brister ljudkvaliteten på olika sätt och där har även försök gjorts med att använda funktioner hos KB:s variant av Whisper eftersom modellen är bättre fungerande för arkiverat material. 

En grupp på Linnéuniversitetet arbetar nu vidare med ett gränssnitt för sökningar i materialet. Tillsammans med arkivet diskuteras och testas bredare möjligheter än enkla ordsök med hänvisning till tidsangivna träffar. Strävan är genererade sammanfattningar, möjlighet att läsa och lyssna simultant samt till redigering av transkriberingarna. I dagsläget finns en testversion av sökverktyget där ljudfiler laddas upp, transkriberas och bearbetas.

I ett arbete med arkivmaterial och AI finns naturligtvis många källkritiska, säkerhetsmässiga och etiska överväganden att ta in i arbetet. En självklar utgångspunkt är att allt material som AI presenterar behöver gås igenom och därmed är alltid forskarens eller arkivhållarens roll fortsatt helt avgörande. Vad AI kan göra är att ge ingångar till ett tidigare ogenomträngligt material vad gäller sortering, systematisering och sökning.

För Svenska Emigrantinstitutet saknas som tidigare nämnts medel att handla upp tjänster för att förverkliga AI-projekt som det här. Arbetssättet blir att försöka intressera andra för materialet inom ramen för diverse projekt. I kontakterna fastnar parterna för olika delar eller aspekter av AI:s möjligheter för materialet. Arbetssättet innebär en utveckling som tar oförutsedda vägar och som är beroende av vad samarbetspartners finner intressant att utveckla. Arkivets egen styrning minskar delvis, men arbetssättet rymmer också ett viktigt lärande. Nya utvecklingsspår uppstår som arkivet själva inte hade förutsett. Genom entreprenöriella samverkansprocesser kan delar av materialet digitiseras och användas. Samtidigt sker detta ur många aspekter på samverkansparters villkor vilket utmanar gemensamma frågor om inkludering, prioritering och demokratisering.

I förlängningen blir digitalisering av arkiv även en kulturell beredskapsfråga. Det handlar om att på ett medvetet och strategiskt sätt bevara och utveckla kunskap utifrån det rika material som skapats av människor genom tiderna. 

De sökningar som görs i arkiv som har delar av materialet digitaliserat är betydligt fler än de fysiska besöken i arkiven. Här varnar Sebastian Eriksson (2025) för att forskningen blir smal om den bedrivs på de cirka 5 procent av materialet i svenska historiska arkiv som finns digitiserat. I sin uppsats Digitaliserade historiska arkiv–förflackande forskning och annalkande arkivdöd  skriver Eriksson: 

”Sålunda delar fler och fler på ett förhållandevis väldigt litet digitalt arkivmaterial, medan en stor mängd arkivinformation förblir obeforskad” (2025, s. 58). 

Vi kan därmed konstatera att en avsmalnad forskning inte bara handlar om teknisk tillgång, utan om makten över historieskrivningen och om vilka röster som ges möjlighet att bli hörda i samtidens kunskapsproduktion. 

Alexandra Stiernspetz Nylén, Katarina Ellborg och Marina Jogmark

Kommentarer

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Denna webbplats använder Akismet för att minska skräppost. Lär dig om hur din kommentarsdata bearbetas.