Länkade data och arbetet framåt

Länkade data och bibliotek

Bibliotek var tidigt ute med att anamma datorer som stöd för informationsförsörjning. Dessa har kommit att bli en förutsättning för en utbredd och konsekvent åtkomst till det material som återfinns i bibliotekens kataloger. En grundläggande filosofi har varit viljan att dela med sig av det arbete man lagt ned. Även Libris bygger på principen att man skapar en post och delar med sig till kollektivet för att undvika onödigt dubbelarbete. MARC har under många decennier tjänat biblioteken väl för detta ändamål.

Att data ska vara öppen och återanvändbar ses mer och mer som en självklarhet inom offentlig sektor idag [1], [2]. Internet har dessutom gjort att allt fler människor använder webbens sökmotorer med större förväntningar på sökresultaten. Många använder sig endast av sökmotorerna för att få svar på frågor som traditionellt besvarats av bibliotekens kataloger (vem skrev boken, var finns den, hur hittar jag dit, vilka öppettider gäller, finns begränsningar i tillgänglighet, finns den som e-bok istället?). Genom att publicera bibliografisk data i ett strukturerat länkat format kan dessa typer av frågor besvaras direkt via webbens sökmotorer. Vårt mål är att producera data som ska fungera i en webbaserad miljö där maskiner pratar direkt med varandra.

RDF [3] är det ramverk som används inom länkade data för att beskriva saker på webben. I grund och botten görs det genom påståenden som uttrycker information om, och relationer mellan resurser. Ur ett RDF-perspektiv kan en resurs (här synonymt med ting eller entitet) vara i stort sett vad som helst; en person, ett dokument, ett fysiskt objekt eller ett ämne. Den centrala aspekten är dock URI:n som hänvisar till den beskrivna resursen, vilket gör att vi inte är beroende av sammansatta strängar för att unikt identifiera denna. För att skapa en struktur och semantisk mening i beskrivningarna används kontrollerade vokabulär. Olika vokabulär fyller olika funktioner eller beskriver olika domäner. I RDF Schema [4], som är det grundläggande vokabuläret för att definiera och beskriva andra vokabulär, finns möjligheter att tala om hur olika egenskaper och typer förhåller sig till varandra. Till exempel att Person är en subtyp till Agent eller att medverkan kan användas som egenskap på typerna Verk, Instans eller Bestånd. Detta gör att man på ett effektivare sätt kan beskriva ett tings egenskaper och relationer än när man ska beskriva samma ting i en platt struktur.

Länkade data i nya Libris

I och med övergången till den nya Libris-plattformen med länkade data har vi tagit nästa kliv framåt mot att öppna upp den rika mängd data och metadata som Libris-kollektivet besitter. Vokabuläret som ligger till grund för den nya datamodellen är fortfarande under utveckling och kommer att förfinas med tydligare avgränsningar för att styra vilka detaljer som hör hemma var i de bibliografiska beskrivningarna.

Detta är särskilt tydligt i katalogiseringsverktygets gränssnitt, som primärt styrs av vårt vokabulär. Det innebär att alla egenskaper och typer som är valbara i gränssnittet kommer från själva datamodellen. Den nuvarande versionen av vokabuläret kan upplevas väl tillåtande, vilket man som användare märker genom att det går att lägga till fler egenskaper i katalogiseringsformuläret än vad som förväntas. Ännu saknas många restriktioner för att underlätta för katalogisatörer att inte välja fel värden, exempelvis att det i dagsläget är möjligt att lägga alla subtyper för en identifikator på vilken entitet som helst.

Vokabuläret har i många fall ärvt denormaliserad data från MARC samt från en genom åren varierande katalogiseringspraxis. I MARC kan datainnehållet vara oprecist och spretigt, där fritextformuleringar om verkets karaktär och tvetydiga upphovsuppgifter samsas i samma fält och delfält som en beskrivning av relationer till andra resurser, eller en uppgift om titelkälla. Att pussla ihop denna information till nya sammanhängande entiteter är en komplex utmaning där behovet av att konsolidera och gruppera information på ett konsekvent sätt ofta står i kontrast mot uppgiften att se till att de lokala systemen fortfarande får fungerande MARC-data.

En vanlig källa till problem att arbeta i nya gränssnittet beror på att information om relaterade ting samlas i samma post i MARC. Exempel på detta är länkfälten 760-78X, där ett litet urval av sammanfattande presentationsdetaljer om ett annat ting läggs till för att möjliggöra identifiering. I princip innebär detta att man beskriver målposten en gång till i länkfältet. I nya Libris ska inte dessa detaljer kopieras och repeteras, utan det relaterade tinget ska länkas till, med ett enda faktum, URI:n. Just nu ser det ut som om en stor mängd detaljer ska anges djupt inne i en beskrivning, eftersom vi ännu inte maskinellt har gjort den analys och bearbetning av datat som behövs för att ersätta presentationsdetaljerna med en länk till det faktiska tinget. Målet är länkar, inte en samling av strängar.

Arbetet framåt

Vår ambition är att det ska bli lättare att länka till ting. Med oss från MARC har vi en stor mängd överlappande kodlistor för olika materialtyper som vi framgent ska se över användningen av. I takt med att vi fortsätter att förbättra vår datamodell genom att konsolidera data kommer vi också i högre grad kunna skapa länkar till befintliga ting. Ett exempel på detta är att kunna länka till entiteter för Verk, vilket gör att man inte behöver återupprepa verksinformation som idag beskrivs lokalt i varje instans. Det är något som vi ser som ett prioriterat arbete framöver.

Det fortsatta arbetet framöver kommer att kräva en stor mängd behovs- och dataanalys med många verksamhetsöverskridande samarbeten för att vi ska förstå vilka möjligheter och utmaningar vi står inför. Vissa verksamheter prioriterar enkelhet och snabbhet, medan andra behöver kunna skapa beskrivningar med hög detaljrikedom och komplexa relationer. Av den anledningen vill vi inte låsa formatet i ett allt för tidigt skede eftersom vi behöver kartlägga var vokabuläret behöver stramas åt och var öppenheten snarare möjliggör att resurser kan beskrivas på ett tydligare sätt. I förlängningen kommer dessa förbättringar att resultera inte bara i ett tydligare och mer effektivt katalogiseringsverktyg men också att det grundläggande datat ger bättre förutsättningar för sök- och upptäckbarhet, även i slutanvändartjänster.

Länkade data är ett paradigmskifte som inte bara ger oss nya möjligheter att dela information, vi kan också lättare koppla ihop och använda oss av andra datamängder som kan skapa nya kontexter utanför den egna katalogen. Bibliotek och kulturarvsinstitutioner har också möjligheten och förhoppningsvis det långsiktiga ansvaret att skapa ett stabilt fundament där vi fortsatt kan bidra till informationens öppna tillgänglighet och beständighet, vilket särskiljer oss från många andra aktörer på webben.

Senast uppdaterad: 2018-09-25
Innehållsansvar: Libris kundservice, e-post: fornamn.efternamn@kb.se