Ezt a bejegyzést eredetileg a magyar könyvtárosok levelezőlistájára írtam, de talán érdekelheti a szemantikus web iránt érdeklődő nem könyvtárosokat is.
Tegnap nagy jelentősségű bejelentést tett az OCLC. A Worldcat-en belül elérhetővé tettek 194 millió munka-szintű rekordot. Bizonyára ismeretes, hogy a MARC alapvetően egy szintű, a nyomtatványra koncentráló adatmodelljével szemben az FRBR további leírási szinteket tesz lehetővé. A legfelsőbb szint a work, vagyis a munka. Ez egy könyv elméleti ideálképe, ami alapvetően a tartalmat (szerző, cím, téma) és nem a nyomtatvány fizikai tulajdonságait (kiadási adatok, külső megjelenés stb.) hordozza. Az FRBR-ben a mű és annak manifesztációja között van még egy köztes szint, az expression, ami a mű megjelenési és nyelvi változatait írja le (pl. nyomtatott könyv, színpadi mű, képregény, x nyelvi fordítás stb.) Az OCLC az eddigi 311 millió MARC, vagyis manfestációs szintű rekordból készített és publikált 194 millió mű szintű rekordot (a köztes szintről - egyelőre? - nincs szó).
A mű szintnek (és egyáltalán az FRBR-nak) nincs sztandard implementációja, több kísérlet is létezik ennek megvalósítására (például az Library of Congress új bibliográfiai keretrendszere, vagy az eXtensible Catalog RDA-n alapuló sémája). Az OCLC most egy új implementációval állt elő: a W3C keretén belül létrejött "Schema Bib Extend" közösségi csoport ajánlásait követve a schema.org bibliográfiai kiterjesztésére és a Linked Open Data alapelvekre alapoztak (bővebben egyik tavalyi levelemben írtam errő: https://listserv.niif.hu/pipermail/katalist/2013-February/028019.html). Ami azt jelenti, hogy a rekord leírása elsősorban nem szöveg-alapú, hanem egy géppel olvasható, RDF állításokat tartalmazó részgráf. Mivel ez elég absztraktul hangzik, íme egy példa a könnyebb megértés végett:
<http://worldcat.org/entity/work/id/12477503> a schema:CreativeWork , schema:Book ; schema:about <http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons>, <http://experiment.worldcat.org/entity/work/data/12477503#Topic/philosophy_and_civilization>; schema:creator <http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert_m>, <http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert>; schema:name "Zen and the art of motorcycle maintenance an inquiry into values,"@en , "Zen and the art of motorcycle maintenance."@en , "Zen and the art of motorcycle maintenance : an inquiry into values /" , "Zen and the art of motorcycle maintenance : an inquiry into values /"@en , "Zen and the art of motorcycle maintenance: an inquiry into values,"@en ; schema:workExample <http://www.worldcat.org/oclc/191931910> , <http://www.worldcat.org/oclc/13038756> .
A Linked Data (és általában az RDF) egyik előnye, hogy a szintaxis pusztán hordozója a mögöttes adatoknak, és tetszőlegesen lehet számos adatformátumba konvertálni ugyanazt az állításkészletet. A fenti példa az úgynevezett Turtle szintaxis használja, de a Worldcatban elérhető emellett az N3, JSON-LD, RDF és HTML formátum is.
Tehát fenti példában a http://worldcat.org/entity/work/id/12477503 URI-vel azonosított dologról az alábbi állításokat tettük:
- ez egy kreatív munka
- ez egy könyv
- tárgya az http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons URI-vel azonosított dolog
- alkotója az http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert_m URI-vel azonosított dolog
- angol címe: Zen and the art of motorcycle maintenance an inquiry into values
- angol címe: Zen and the art of motorcycle maintenance. ...
- manifesztációja az http://www.worldcat.org/oclc/191931910 URI-vel azonosított dolog
- manifesztációja az http://www.worldcat.org/oclc/13038756 URI-vel azonosított dolog ...
Ugyanazon „rekordban” más állításokat is megtalálunk, például:
<http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert> a schema:Person ; schema:name "Pirsig, Robert." .
Ennek jelentése:
A http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert URI-vel azonosított dolog
- egy személy
- neve: Pirsig, Robert.
A példa elérhetősége: http://experiment.worldcat.org/entity/work/data/12477503.html.
Az alternatív formátumokat a http://experiment.worldcat.org/entity/work/data/12477503.ttl, .nt, .jsonld, .rdf URL-eken keresztül lehet elérni.
A következő hetekben az munka szintű rekordokra mutató linkek fokozatosan beépülnek a manifesztum rekordok oldalaiba, például a Linked Data szekcióban elérhető lesz a
schema:exampleOfWork http://worldcat.org/entity/work/id/12477503
típusú állítás, és az xISBN, xOCLCnum APIkban is szépen lassan meg fog jelenni (jelenleg is el lehet érni bizonyos trükkökkel).
Az adatokat az Open Data Commons Attributions (ODC-BY, http://opendatacommons.org/licenses/by/) licensze szerint lehet újrafelhasználni, ami nagyjából a Creative Commons „Nevezd meg!” típusú licenszeinek (pl. http://creativecommons.org/licenses/by/4.0/) felel meg.
Következő lépés a személyekre vonatkozó URI-k lecserélése VIAF azonosítókra, majd a tárgyi besorolási adatok legyerélése FAST, LCSH és hasonló névterek URI-jeire. (Jut eszembe: a múlt héten a Getty Thesaurust publikálták szintén Linked Open Data formában és ugyanezen ODC-BY licensz alatt. Bővebben: http://www.getty.edu/research/tools/vocabularies/lod/).
Az fenti fejleményeket először Richard Wallis, az említett W3C munkacsoport elnöke publikálta a blogjában, és különféle levelezőlistákon máris beindult a közös gondolkodás az adatok kapcsán: http://dataliberate.com/2014/02/oclc-preview-194-million-open-bibliographic-work-descriptions/
A dolognak - számomra - nagyon sok tanulsága van:
- ma már alig van olyan nagy projekt, ami nem valamilyen újrafelhasználást elősegítő licensszel tesz közre adatokat, ami számunkra is követendő példa kell legyen
- mivel az FRBR-nek megfelelő átalakítás egy nagyon összetett és soklépcsős folyamat, az OCLC úgy ítélte meg, hogy felesleges várni a standardizálás bevezetésére, vagy arra várni, hogy az algoritmusok elérjék tökéletesség állapotát. Ugyanennek a műnek a magyar változata például nem jelenik meg a manifesztációk között. Viszont a munkát elkezdték, lehet elemezni az eredményeket és javítani az eszközökön.
- az adatmodell lényegesebb, mint a konkrét formátum. Formátumok között lehet váltani, és ha kijön a LoC új szabványa, vagy áttörést hoz valamelyik másik (például a bibExtend, vagy az FRBRoo), akkor el lehet gondolkozni a kompabilitási kérdéseken.
- a hagyományos „bibliográfiai rekord” pontos határokból állt. Egy rekord tartalmazott minden releváns dolgot. A Linked Data esetében a rekord határa nem ilyen precíz. Fenti példában az műre vonatkozó alapállítások tárgya sokszor egy, a mű határain kívül eső állításhalmaz, mivel a tárgyakat, szerzőt és egy sor más dolgot a saját helyén kezelünk. Az OCLC által egy fájlba pakolt információk önkéntes döntést tükröznek. Gondoljuk el az alábbi szituációt: a szerzőre vonatkozó állítás egy Viaf rekordra mutat, a Viaf rekorban pedig a DBPediaára (a Wikipedia LOD változatára) mutatnak. Mit tartalmazzon ezek után a bibliográfiai rekord? Hol legyen a határa a hivatkozások felgöngyölítésének? Ezt a kérdést ezután minden egyes alkalmazás esetében a készítők kell eldöntsék.
Kellemes szórakozást mindenkinek!