Pilotstudie om federativt tränade språkmodeller

KB-labb startar en pilotstudie tillsammans med organisationerna Scaleout Systems och AI Sweden. Målet är att utvärdera så kallat federativt tränade språkmodeller. Om metoden lyckas kan KB:s forskningsdata bli användbar för fler, vilket bidrar till bättre verktyg för textanalyser.

KB:s digitala samlingar ligger till grund för de senaste årens framgångsrika arbete med språkmodeller på svenska. En språkmodell är ett artificiellt neuralt nätverk som har tränats till en djup språkförståelse. I början av 2020 publicerade KB modellen KB-BERT, som har lärt sig mekanismerna i svenska språket och därmed kan analysera stora textunderlag. Med hjälp av BERT går det exempelvis att avgöra om en dagstidningstext kommer från en ledar- eller kultursida. Det går också att ta reda på vad som utmärker en skönlitterär författares sätt att skriva.

Stort behov av att träna språkmodeller

Men det finns fler aktörer som har behov av att träna och utvärdera språkmodeller baserade på KB:s data. KB behöver även kunna kombinera sina egna data med textresurser från andra nationalbibliotek. Av tekniska och juridiska skäl är det dock svårt att flytta informationen utanför bibliotekets väggar. Därför genomför nu KB-labb en pilotstudie i samarbete med Scaleout Systems och AI Sweden — två svenska organisationer som på olika sätt utvecklar artificiell intelligens och maskininlärning.

Syftet med studien är att träna stora språkmodeller federativt. Det är en komplex beräkningsmetod som skulle kunna möjliggöra forskning på KB:s data utan att den lämnar biblioteket. Dessutom skulle det gå att samtidigt att utföra samma beräkningar på flera datamaterial, från andra bibliotek och organisationer, vilket förbättrar språkmodellernas kvalitet.

Frigöra potentialen i KB:s samlingar

Studien blir den första i sin omfattning att på det här sättet träna stora artificiella neurala nätverk för språkförståelse.

– Det här är ett jättespännande projekt och vi vet faktiskt inte hur det kommer att fungera. Lyckas vi är det ett enormt språng framåt för språkteknologin i Sverige och Skandinavien. För att frigöra den fulla potentialen i KB:s samlingar måste datan bli tillgänglig för fler aktörer. Samarbetet med Scaleout Systems och AI-Sweden öppnar upp för sådana möjligheter, säger Love Börjeson, föreståndare för KB-labb.

Pilotstudien omfattar till att börja med data från KB och det norska nationalbiblioteket. Om projektet sedan förlängs är planen att även inkludera de svenska universitetsbiblioteken samt Danmarks och Finlands nationalbibliotek.

KB-labb är en forskningsnära och kreativ miljö, som snabbt blivit en central nod i datadriven forskning. Läs mer om verksamheten här.