Data- och system­­­mo­dell

Swepubs data- och systemmodell beskriver hur data i Swepub hanteras och struktureras.

Swepub hämtar bibliografiska metadata från de anslutna publikationsdatabaserna dagligen via OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Data hämtas i ett nationellt överföringsformat, Swepub MODS. För organisationer som använder sig av DiVA sker en konvertering från DiVA MODS till Swepub MODS enligt DiVA:s mappning som finns implementerad i Swepub Länk till annan webbplats, öppnas i nytt fönster.. Från MODS-formatet konverteras och lagras data i formatet BIBFRAME. Efter databearbetning visas data i Swepubs tjänster för bibliometri, databearbetning, datastatus och ämnesklassificering Länk till annan webbplats.. Därefter sker en konvertering till formatet MARC21 för omladdning av data i Swepubs söktjänst Länk till annan webbplats..

Originaldata

Originaldatalagret består av bibliografiska metadata om publikationer så som de är registrerade av lärosäten, myndigheter och andra forskningsinstitut. Data hämtas i MODS-formatet enligt XML-schema.

Originaldatamängden innehåller duplicerade data. Det är med andra ord dubblettposter som beskriver samma publikation. Duplicerade data består av lokala dubbletter samt nationella dubbletter.

  • Lokala dubbletter är publikationer som är registrerade flera gånger i organisationers egna publikationsdatabaser.
  • Nationella dubbletter är publikationer som är registrerade av flera organisationer i samband med organisationsöverskridande samarbeten.
Originaldata visas i Swepubs tjänst för Databearbetning - Datakvalitet och finns att hämta från OAI-PMH och som datadumpar enligt XML via FTP.

Berikade data

Datalagret i Swepubs tjänster för bibliometri, databearbetning, datastatus och ämnesklassificering består av berikade data. Först analyserar och bearbetar systemet originaldata som är konverterade till BIBFRAME-formatet. Systembearbetningen utgår från definierade regler för datakvalitet. I vissa fall verifieras data vid externa datakällor så som ISSN Portal och shortDOI Service. De publikationsposter som inte följer reglerna märks upp. Systemet tvättar, lägger till eller flyttar värden enligt reglerna, om tillämpligt. Vissa värden läggs till utifrån metadata från externa datakällor som Crossref och Unpaywall. Merparten av data normaliseras för att skapa konsekvens i hur data presenteras.

Allt detta görs för att höja datakvaliteten och säkerställa att beskrivningen av ett forskningsresultat och associerade metadata gäller samma publikation. På det sättet kvalitetssäkras uppgifterna som är av intresse vid bibliometriska analyser. Dessa är till exempel uppgifter om identifikatorer, upphov och sakkunniggranskad publiceringskanal.

Berikade data finns att hämta via datauttag i databearbetnings- och bibliometritjänsten och dess API:er samt som datadumpar enligt JSON Lines via FTP.

Deduplicerade data

Vid organisationsöverskridande samarbeten kan flera organisationer skicka metadata om samma forskningsresultat. Dubbletter hanteras genom att identifiera och föra ihop metadata till en post, vilket med andra ord är deduplicerade data. 

Dubbletthanteringen bygger på en maskinell identifiering baserad på ett regelverk. Publikationsposter med liknande titlar, identifikatorer, utgivningsår och sammanfattning identifieras som dubblettkandidater. Posten med flest metadatafält väljs som masterpost. Den berikas med upprepningsbara metadatafält från de andra dubblettkandidaterna, till exempel med flera identifikatorer, nyckelord och ämnesklassificeringar samt länkar. Masterposten är inte bestående utan vid varje hämtning av data blir den post som har identifierats som dubblett och har flest metadatafält en masterpost.

En mer detaljerad beskrivning av dedupliceringen hittar du under Dubbletthantering.

Deduplicerade data finns att hämta via datauttag i bibliometritjänsten och dess API, som datadumpar enligt JSON Lines via FTP samt via XSearch API från söktjänsten.

Data- och systembearbetning

Swepub kontrollerar metadata i publikationsposterna redan vid den nattliga hämtningen av nya och uppdaterade publikationsposter från de anslutna publikationssystemen. En bråkdel av posterna avvisas av Swepub om de inte uppfyller bibliografisk miniminivå. Posterna konverteras från MODS till BIBFRAME. Därefter bearbetar Swepub data genom att granska, validera, normalisera och i bästa fall även berika ofullständigheter. Bearbetade data indexeras och dedupliceras för att tillgängliggöra posterna från datalagret via API:er till gränssnitt.

Kontrollfunktionerna i Swepub ger användarna möjlighet att göra en sökning i form av listor över ofullständigheter och berikningar. Ofullständigheterna och berikningarna behöver åtgärdas lokalt i syfte att höja den nationella datakvaliteten för analysändamål. Därefter levereras de bearbetade posterna till Swepub på nytt. De organisationer som levererar data till Swepub kontrollerar själva att dataleveranser fungerar samt att ofullständiga metadata åtgärdas.

Tyck till

Hjälpte den här sidan dig?