Digital humaniora eller humanistisk datavetenskap?
På KB-labb används artificiell intelligens (AI) för att möjliggöra ny forskning på KB:s samlingar. När AI-verktyg blir alltmer etablerade väcks frågan om vad människor, respektive maskiner, ska göra i forskningsprojekt framöver.
Mänsklig och artificiell intelligens
Vi befinner oss i en övergångsfas mot ett alltmer digitaliserat forskningslandskap. I och med att kulturarvsinstitutionernas digitala samlingar av text-, bild- och rörligt material stadigt växer, öppnas nya möjligheter för storskaliga analyser. För att ta sig an sådana projekt krävs det forskare med tillgång till samt förståelse för AI-verktyg som bygger på den senaste utvecklingen inom maskininlärning. När mänsklig och artificiell intelligens ska samverka väcks kluriga frågor om vem som bäst gör vad.
Typiskt sett har forskare inom humaniora och samhällsvetenskap värderat mänsklig intelligens högre än maskinernas. Kritik riktas mot AI för att vara snedvriden, onyanserad och passiv samtidigt som det förutsätts att det är människor som har förmågan att tänka kritiskt. En sådan hierarkisk uppdelning har haft konsekvenser för hur forskning inom området “digital humaniora” utformats och organiserat sig. Den tolkande humanistiska forskaren ges oftast företräde över både den beräknande maskinen och de experter inom datavetenskap som kan AI.
Mot de intelligenta maskinernas tidsålder
Men med framväxten av en ny generation språkmodeller kan det vara läge att tänka om. När det nu finns AI-verktyg som visat prov på både flexibel och djup språkförståelse, som de BERT-modeller som tagits fram på KB-labb, kan artificiell intelligens få en mycket större roll inom svensk humsam-forskning framöver. Vad kan då maskinerna tänkas bidra med och vilken roll lämnas åt mänskliga forskare, särskilt de mer traditionella humanisterna?
AI:s främsta styrkor handlar om skala och precision. Om ett forskningsprojekt ska besvara kvantitativa frågor ger maskininlärning möjligheter till empiriska analyser över en mängd material som människor bara kan drömma om. Maskiner blir aldrig trötta och slarviga: sista paragrafen i en enorm samling av juridiska texter får samma uppmärksamhet och analys som den första. De kan även hitta mönster som endast blir synliga när man tittar på stora mängder data, till exempel hur ord i tidningar byts ut och ändrar betydelse över tid. Inte ens den mest dedikerade forskaren kan läsa igenom alla tidningar som publiceras i Sverige över ett år och föra statistik på hur olika ord används.
AI skapar även ny analys och nya perspektiv. Utöver att räkna ord och sammanfatta datamängder kan maskiner dra slutsatser och se mönster som inte är helt uppenbara för människor. Ett exempel är när vi ska definiera klasser för klassificering av texter och vi märker att algoritmen har svårt att skilja på två klasser som vi trodde var klart olika. Detta kan betyda att språkanvändningen och andra dimensioner i de två kategorierna är mer snarlika än vad vi föreställer oss när vi delar upp världen enligt våra förutfattade meningar. På så sätt erbjuder AI empiriska utmaningar till mänskliga fördomar.
Maskiner kan också bidra till forskningsprojekt genom att förbättra datakvalitet och berika metadata. Det går väldigt fort att hitta avvikelser och fel som hade kunnat förfalska en hel analys samtidigt som viktig information och beskrivningar kan läggas till som gör datamängden lättare att forska på. Några pågående exempel från KB-labb där AI ska göra KB:s samlingar mer tillgängliga inkluderar ett bildsökprojekt som gör bildsamlingar sökbara med både text och bild som ingång samt automatisk transkribering av ljud- och filmsamlingar, som med sina miljoner timmar hade varit helt omöjligt att tackla utan maskinernas hjälp.
När behövs människor?
Om AI kan stå för att beskriva, söka och analysera materialet i ett projekt, vad ska vi då ha människor till? Här måste vi påminna oss om maskinernas begränsningar. För trots stora framsteg finns det ändå en rad saker som är basala för människor men oerhört svåra för maskiner att lära sig. Vi kan lagra enormt mycket information i låg upplösning och lätt hitta samband mellan det vi redan vet.
Till exempel, om jag kommer in i ett nytt rum behöver jag bara kasta en blick för att upptäcka att det finns en blå soffa och ett bord med blommor på. Men i efterhand kanske jag inte kan säga vilken nyans av blått soffan hade, liksom jag inte heller minns att det stod en papperskorg under bordet. En dator kan däremot analysera en bild som föreställer samma rum och låta oss veta den exakta färgen på varenda pixel samt ”komma ihåg” den informationen i all evighet. Däremot krävs avancerade algoritmer för att ens fastställa att det fanns en soffa i bilden.
Det finns alltså två centrala roller i ett forskningsprojekt som ännu kräver människans bidrag: formulering av forskningsfrågor och tolkning av resultat. En maskin kan inte veta vilka kunskapsluckor som finns i ett forskningsområde, vilka frågor som är relevanta eller som över huvud taget går att besvara. Den kan inte planera experiment och självmant söka upp material som är relevant för frågeställningen. På samma sätt kan en maskin inte dra några slutsatser som överstiger datamängdens gränser eller komma på förklaringar på det som syns i data. Dessa uppdrag behöver istället skötas av människor med kompetens dels inom domänspecifika kunskapsfält, dels inom tekniken.
Datavetenskapliga och humanistiska forskare i samspel
En viktig fråga är hur arbetsfördelningen mellan domänspecifik och teknisk expertis ska se ut, närmare bestämt hur humanister och datavetare ska samarbeta inom digitala forskningsprojekt. Det som hittills har varit en utmaning i detta sammanhang är ett underskott av teknisk förståelse inom digital humaniora samt idén om att det tekniska skulle kunna outsourcas till experter utanför projektet. Enligt en sådan bild omvandlas möjligheter med AI-forskning till en tjänst som ska beställas in. Men våra erfarenheter på KB-labb är att det är viktigt att datavetenskaplig kompetens finns med redan från början för att kunna påverka ett projekts design och utformning.
Utvärdering av algoritmer (datavetenskap) och ett särskilt intresse för ett specifikt material (humaniora) kan lätt framstå som två perspektiv som drar åt olika håll. Men de kan också berika varandra. För utan specifika fall att testa på är det svårare för datavetare att ta fram nya metoder, och utan datavetenskapens generella verktyg är det svårare för humanister att ta sig an digitalt material på nya sätt. Så länge det finns en öppenhet för att lyssna på och lära av varandra under projektens gång, kan samverkan mellan datavetare och humanister vara ett mycket produktivt samspel, olika utgångspunkter till trots.
I KB:s föreläsningsserie Berättelser från KB den 20 april kommer KB-labb att berätta mer om artificiell intelligens (AI) och maskininlärning. Välkommen!
Skribenter: Elena Fano och Chris Haffenden