SpaCy – ny svensk modell för storskalig textanalys

KB-labb har utvecklat en ny modell till verktyget SpaCy. Modellen gör det betydligt smidigare att utföra storskaliga textanalyser på svenska. Det här är en viktig del av den infrastruktur för datadriven forskning som labbet etablerar.

En robot för datalagring med kassetter i rött, svart och blått.

SpaCy bygger på natural language processing (NLP) – eller språkteknologi på svenska – som fokuserar på interaktioner mellan datorer och mänskligt språk. Genom att lära sig hur människor använder språk kan en datamodell analysera, förstå och extrahera mening från stora textmängder.

Öppnar nya möjligheter

Tidigare i år publicerade KB-labb en svensk version av Googles språkmodell BERT. Med den nya modellen fortsätter arbetet med att göra de bästa språkteknologiska verktygen tillgängliga på svenska. SpaCy kan komma till nytta för en rad olika samhällsområden, bland annat myndigheter som vill använda artificiell intelligens för att hantera sin dokumentation. Men den öppnar även för nya forskningsmöjligheter i KB:s samlingar.

– Tänk dig att du vill ta reda på hur en viss karaktär i en roman beskrivs. Med hjälp av SpaCy får vi snabbt fram en lista över alla adjektiv som används om personen. Det går på minuter, medan det hade krävts lång tid för en människa att göra samma sak. Samtidigt är modellen mycket intuitiv att använda, säger Elena Fano, data scientist på KB-labb och den som tagit fram modellen.

Självklart verktyg för språkteknologin

SpaCy har varit ett självklart verktyg för dataanalytiker och språkteknologer sedan det släpptes 2015. Färdigtränade modeller för programspråket Python gör det enkelt att utföra uppgifter som dependensparsning, ordklasstaggning och namngiven entitetsigenkänning utan att själv behöva skapa träningsdata. Dock har det tidigare saknats stöd på svenska. Därför har forskare i Sverige hittills varit tvungna att hitta andra lösningar för språkteknologiska uppgifter.

Den svenska modellen har tagits fram i samarbete med Joakim Nivre och Sara Stymne på Uppsala universitet samt med hjälp av dataresurser från Stockholms och Umeå universitet och Språkbanken Text vid Göteborgs universitet.

Mer information

SpaCy:s svenska version och dokumentation om hur den kan användas finns på KB:s GitHub-konto Länk till annan webbplats.. Modellen kommer eventuellt även att inkluderas som en av SpaCy:s ”core models” och då vara tillgänglig direkt via SpaCy:s webbplats Länk till annan webbplats..

Vid frågor, kontakta gärna:

Elena Fano, data scientist på KB-labb
​elena.fano@kb.se

KB-labb är en forskningsnära och kreativ miljö, som snabbt blivit en central nod i datadriven forskning. Läs mer om verksamheten här.