Dubbletthantering
Här beskriver vi hur Swepub hanterar dubbletter om flera organisationer har skickat in metadata om samma forskningsresultat.
Så här fungerar dubbletthantering i Swepub (Deduplicering steg för steg)
-
En viktig funktion i Swepub är att hantera dubbletter som levereras från de anslutna organisationerna. Bakgrunden är samarbetspublikationer som läggs in av flera lärosäten och andra forskningsorganisationer, eller att en forskare bytt lärosäte och lagt in sina publikationer i flera system. Ungefär tio procent av posterna i Swepub är sammanslagningar av två, tre eller upp till tio poster.
Identifiering och sammanslagning sker automatiskt, efter valideringar och berikningar i Swepub. Bara poster som med stor säkerhet pekar på samma publikation tolkas som dubbletter. Det betyder att det även efter dedupliceringen förekommer dubbletter i Swepub.
De organisationer som levererar data kan underlätta dubbletthanteringen genom att tillhandahålla så mycket metadata som möjligt om forskningsresultat. Speciellt viktigt är att tillhandahålla beständiga identifikatorer eftersom de används för både identifieringen och sammanslagningen av dubblettkandidater.
Deduplicerade data visas i sök- och bibliometritjänsten.
-
Identifieringen utgår från att hitta starka argument för deduplicering för att minska risken att poster som inte är dubbletter slås samman.
Identifiering av dubblettkandidater kräver dels att åtminstone ett av följande stämmer:
- Liknande titel och minst en av identifikatorerna DOI, ISI ID, Scopus ID, PubMed ID och ISBN för den tryckta eller elektroniska versionen.
- Liknande titel, sammanfattning, utgivningsår.
Med liknande menas att titel eller sammanfattning består av ungefär samma sekvens av ord. Stavfel tolereras i allmänhet. Variationer i uppdelning mellan huvud- och undertitel, versaler eller gemener samt specialtecken ignoreras. Det finns också en filterlista på mycket vanligt förekommande titlar som inte får användas för matchningar. Titlarna på den listan är exempelvis "Förord", "Inledning" och "Introduktion".
Utöver detta så krävs det att posternas DOI (om sådana finns) inte är olika för dubblettkandidaterna.
Upphovspersoner används inte vid dubblettidentifieringen eftersom alla upphovspersoner nödvändigtvis inte är angivna i varje dubblettkandidat.
-
Vid sammanslagningen väljs den dubblettkandidat med mest metadata till så kallad master. Masterposten blir grunden för den sammanslagna posten. Den berikas med metadata från de andra dubblettkandidaterna. Masterposten byts ut om en annan post med mer metadata kommer in.
Masterpostens id blir den sammanslagna postens id. Dubblettkandidaternas id behålls. Om masterposten byts ut, ändras även den sammanslagna postens id mot id:t på den nya masterposten.
Icke-upprepningsbara fält
Fält som inte är upprepningsbara behålls från master.
Dessa är:- titel
- DOI
- ISI ID
- Scopus ID
- PubMedID
- output/publikationstyp
- innehållsmärkning
- utgivningsort
- utgivare
- utgivningsår
- sammanfattning
- antal upphovspersoner
Om något av dessa saknas i master, läggs de till från de andra dubblettkandidaterna.
Publiceringsstatus behålls från master så länge den inte har en lägre status i rangordning än någon av dubblettkandidaterna. I så fall byts publiceringsstatus ut enligt följande rangordning:
- "Publicerad"
- "Epub ahead of print / Online first"
- "In print"
- "Accepted"
- "Submitted"
Upprepningsbara fält
Upprepningsbara fält läggs till om de saknas i masterposten. Unika värden behålls. Dessa är:- upphov
- affilieringar
- URI:er
- ISBN
- ISSN
- ämnesklassificeringar
- nyckelord
- fulltextlänkar
- anmärkningar
- information om värdpublikation
- serie
- relaterat event
- relaterat projekt
- relaterat dataset
Sammanslagning av upphovspersoner och affilieringar
Match på upphovsperson utgår från enstaka namn. Både utskrivna namn och initialer kan matchas mot varandra. Om upphovspersonen kan identifieras som dubblett, läggs eventuellt ORCID, lokalt personID och de affilieringar som saknas i masterposten till.Om upphovsperson inte går att identifieras som dubblett, läggs varje varierande namnform till. Samma sak gäller affilieringar. De auktoriserade namnformerna är prioriterade vid sammanslagningen. Namnvariationer av affilieringar som inte går att identifiera som dubbletter läggs till.