Swepub version 1.9

I dag produktionssattes Swepub version 1.9.

Vid händelse att den nya versionen inte laddas in automatiskt: uppdatera webbsidan (F5) eller uppdatera webbsidan utan att hämta från cachen (Ctrl+F5).

En ny version av Swepub har blivit satt i produktion den 27 oktober. Tre områden har varit i fokus för releasen:

  • Ersättning av algoritmen för ämnesklassificering med en mer träffsäker algoritm.
  • Berikning av ORCID-ID:n utifrån lokala personID:n.
  • Förbättring av sammanslagningen av dubbletter.

ORCID-berikningen och autoklassificeringen återkopplas via tjänsten Databearbetning Länk till annan webbplats..

I anslutning till lanseringen av den nya versionen har all data hämtats och uppdaterats på nytt.

För frågor eller vidare information kontakta Libris kundservice.

Ämnesklassificering

Algoritmen för ämnesklassificeringen har bytts ut mot en annan för att generera mer träffsäkra förslag på forskningsämnesklassificering enligt Standard för svensk indelning av forskningsämnen.

Förbättrad autoklassificering

För den automatiska ämnesklassificering i Swepub används nu Annif Länk till annan webbplats., ett verktyg utvecklat av Nationalbiblioteket i Finland. Annif har konfigurerats att använda Omikuji som är en implementering av en familj av maskinlärningsalgoritmer. Algoritmen är tränad på stora mängder befintliga Swepubposter.

Ämnesklassificeringsförslagen genereras från text bestående av titel, sammanfattning och/eller nyckelord som algoritmen jämför med poster i Swepub som har liknande ord i dessa fält. Vid varje match samlar algoritmen ämnesklassificeringen från den matchande posten och lägger ihop poäng utifrån alla poster där klassificeringen förekommer. Poängen ligger inom skala mellan 0-1. Desto högre poäng, desto mer tillförlitligt är resultatet.

I tjänsten för Ämnesklassificering visas upp till fem förslag på forskningsämnesklassificeringar på 3- och 5-siffernivå. Observera att eftersom det finns mer dataunderlag i Swepub för klassificeringar på 3-siffernivå är förslagen på den nivån mer träffsäkra än på 5-siffernivån. Detta gäller även de olika ämnesområden där träffsäkerheten är högre inom Naturvetenskap och Medicin än inom Lantbruksvetenskap, Samhällsvetenskap och Humaniora. Det finns stöd för engelska och svenska varav engelska genererar mer träffsäkra förslag än svenska på grund av omfattningen i dataunderlaget.

Skärmklipp från Swepubs tjänst för Ämnesklassificering som visar tre klassificeringsförslag på 3-siffernivå enligt Standard för svensk indelning av forskningsämnen och dess träffsäkerhet i form av poängvärde.

Autoklassificeringen görs för poster som saknar forskningsämnesklassificering eller har den endast på den övergripande nivån. Ytterligare kriterier för autoklassificeringen är att posten ska beskriva publikationer från och med 2012 som har titel, sammanfattning och/eller nyckelord på engelska eller svenska som överstiger 200 tecken. Upp till tre ämnesklassificeringar på 3-siffernivå med högsta poängvärde som överstiger 0,5 poäng läggs till på posten vid autoklassificeringen. Om det i originalposten saknas motsvarande ämnesklassificering på 1-siffernivå, läggs även denna till. Poster som har berikats med ämnesklassificering utifrån algoritmen märks upp som “Autoclassified by Swepub” och går att söka fram via tjänsten för Databearbetning.

Skärmbild på Swepubs tjänst för Databearbetning där en post har blivit berikad med autoklassificering av Swepub.

Ändringarna påverkar inte API:et för ämnesklassificeringen Länk till annan webbplats, öppnas i nytt fönster.. Koden för Swepubs implementation av ämnesklassificering finns dokumenterad i GitHub Länk till annan webbplats..

Swepub databearbetning

Nya och förbättrade funktioner i Swepub databearbetning Länk till annan webbplats..

Berikade ORCID-ID:n utifrån lokala personID:n

Om ett ORCID-ID förekommer tillsammans med ett lokalt personID, läggs detta ORCID till om det saknas i de poster där samma lokala personID förekommer. Ogiltiga värden så som n/a och - som har angetts som lokala personID:n utesluts från berikningen.

Berikningen återkopplas i databearbetningstjänsten under Berikade data med rubriken ORCID matchat med lokalt ID. Där visas vilken post och vilket lokalt personID som har matchats med vilket ORCID.

Skärmbild från Swepubs tjänst för Databearbetning med information om en post som har blivit berikad med ett ORCID-ID utifrån ett lokalt personID.

Dubbletthantering

Förbättringar i identifiering och sammanslagning av dubbletter. Läs mer om dubbletthanteringen i Swepub. Observera att trots förbättringar i dubbletthanteringen förekommer det fortsatt dubbletter och felaktiga sammanslagningar.

Förbättrad hantering av information om upphovspersoner vid sammanslagningen av dubblettposter

Namnform från dubblettkandidaten som har lokalt personID angiven för upphovspersonen väljs vid sammanslagningen av dubblettposter. Om det finns flera dubblettkandidater med lokalt personID för samma person, tas namnformen från den första kandidaten. Om det inte finns lokala personID för upphovsperson i någon av dubblettkandidaterna, behålls namnform från masterposten. Ytterligare uppgifter som födelseår läggs till vid sammanslagningen.

Förbättrad hantering av lokala personID:n för upphovspersoner vid sammanslagning av dubblettposter

Vid sammanslagningen av dubblettposter läggs i samtliga lokala personID:n från dubblettkandidaterna till den sammanslagna posten.

Förbättrad namnjämförelse av upphovspersoner

Namnjämförelse av upphovspersoner har förbättrats så att dubbletthanteringen på ett mer träffsäkert sätt klarar av identifieringen och sammanslagningen av korta namn.

Förbättrad sammanslagning av information om publiceringskanaler och värdpublikationer

Sammanslagningen av information om publiceringskanaler och värdpublikationer har förbättrats. Om kanalen eller värdpublikationen har minst ett gemensamt ISSN eller ISBN läggs uppgifter som saknas i masterposten till från dubblettkandidaterna i den sammanslagna posten. Om ISSN, ISBN, titel, volym och tidskriftsnummer inte matchar, läggs all information om kanal eller värdpublikation till.

Autoklassningar utesluts vid sammanslagningen om tillräckligt djup klassificering finns i någon av dubblettkandidaterna

Om en dubblettkandidat har forskningsämnesklassificering på 3- eller 5-siffernivå medan en annan har blivit berikad med autoklassning av Swepub, läggs inte autoklassningar till i den sammanslagna posten.

Förbättrad sammanslagning av identifikatorer

Vid sammanslagningen av identifikatorer jämförs endast identifikatorerna, inte information kring dem, exempelvis tillägg som specificerar om identifikatorn gäller för elektroniskt eller tryckt material. Om identifikatorerna i dubblettkandidaterna matchar, läggs eventuell tilläggsinformation om dem från dubblettkandidaterna till den sammanslagna posten.

Buggfixar

Rättning av buggar listas här.

  • Stora bibliometriuttag avbryts inte längre i förtid.
  • Tomma identifikatorsfält genereras inte.
  • Alla autoklassningar syns i tjänsten för Databearbetning. Tidigare syntes inte ett mindre antal autoklassningar i gränssnittet.
  • Sökning utan parametrar i gränssnittet för Bibliometri går att genomföras.