HTML

View Péter Király's profile on LinkedIn

20 éves a MEK, 10 éves az EPA Én is
MEK önkéntes
vagyok

20 éves a MEK
10 éves az EPA

kirunews

Király Péter, keresés, Lucene, Solr, Java, Perl, PHP, OAI-PMH, webfejlesztés, digitális könyvtár, MARC, FRBR, RDA, Drupal, EAD, EAC, Europeana, eXtensibleCatalog.org, MEK, és sok minden más.

Friss topikok

Linkblog

194 millió munka-szintű rekord a WorldCat-ban

2014.02.28. 21:53 kirunews

Ezt a bejegyzést eredetileg a magyar könyvtárosok levelezőlistájára írtam, de talán érdekelheti a szemantikus web iránt érdeklődő nem könyvtárosokat is.

Tegnap nagy jelentősségű bejelentést tett az OCLC. A Worldcat-en belül elérhetővé tettek 194 millió munka-szintű rekordot. Bizonyára ismeretes, hogy a MARC alapvetően egy szintű, a nyomtatványra koncentráló adatmodelljével szemben az FRBR további leírási szinteket tesz lehetővé. A legfelsőbb szint a work, vagyis a munka. Ez egy könyv elméleti ideálképe, ami alapvetően a tartalmat (szerző, cím, téma) és nem a nyomtatvány fizikai tulajdonságait (kiadási adatok, külső megjelenés stb.) hordozza. Az FRBR-ben a mű és annak manifesztációja között van még egy köztes szint, az expression, ami a mű megjelenési és nyelvi változatait írja le (pl. nyomtatott könyv, színpadi mű, képregény, x nyelvi fordítás stb.) Az OCLC az eddigi 311 millió MARC, vagyis manfestációs szintű rekordból készített és publikált 194 millió mű szintű rekordot (a köztes szintről - egyelőre? - nincs szó).

A mű szintnek (és egyáltalán az FRBR-nak) nincs sztandard implementációja, több kísérlet is létezik ennek megvalósítására (például az Library of Congress új bibliográfiai keretrendszere, vagy az eXtensible Catalog RDA-n alapuló sémája). Az OCLC most egy új implementációval állt elő: a W3C keretén belül létrejött "Schema Bib Extend" közösségi csoport ajánlásait követve a schema.org bibliográfiai kiterjesztésére és a Linked Open Data alapelvekre alapoztak (bővebben egyik tavalyi levelemben írtam errő: https://listserv.niif.hu/pipermail/katalist/2013-February/028019.html). Ami azt jelenti, hogy a rekord leírása elsősorban nem szöveg-alapú, hanem egy géppel olvasható, RDF állításokat tartalmazó részgráf. Mivel ez elég absztraktul hangzik, íme egy példa a könnyebb megértés végett:

<http://worldcat.org/entity/work/id/12477503>
  a schema:CreativeWork , schema:Book ;
  schema:about 
    <http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons>,
    <http://experiment.worldcat.org/entity/work/data/12477503#Topic/philosophy_and_civilization>;
  schema:creator
    <http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert_m>, 
    <http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert>;
  schema:name 
    "Zen and the art of motorcycle maintenance an inquiry into values,"@en ,
    "Zen and the art of motorcycle maintenance."@en ,
    "Zen and the art of motorcycle maintenance : an inquiry into values /" ,
    "Zen and the art of motorcycle maintenance : an inquiry into values /"@en ,
    "Zen and the art of motorcycle maintenance: an inquiry into values,"@en ;
  schema:workExample 
    <http://www.worldcat.org/oclc/191931910> ,
    <http://www.worldcat.org/oclc/13038756> .

 

A Linked Data (és általában az RDF) egyik előnye, hogy a szintaxis pusztán hordozója a mögöttes adatoknak, és tetszőlegesen lehet számos adatformátumba konvertálni ugyanazt az állításkészletet. A fenti példa az úgynevezett Turtle szintaxis használja, de a Worldcatban elérhető emellett az N3, JSON-LD, RDF és HTML formátum is.

Tehát fenti példában a http://worldcat.org/entity/work/id/12477503 URI-vel azonosított dologról az alábbi állításokat tettük:

  • ez egy kreatív munka
  • ez egy könyv
  • tárgya az http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons URI-vel azonosított dolog
  • alkotója az http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert_m URI-vel azonosított dolog
  • angol címe: Zen and the art of motorcycle maintenance an inquiry into values
  • angol címe: Zen and the art of motorcycle maintenance. ...
  • manifesztációja az http://www.worldcat.org/oclc/191931910 URI-vel azonosított dolog
  • manifesztációja az http://www.worldcat.org/oclc/13038756 URI-vel azonosított dolog ...

Ugyanazon „rekordban” más állításokat is megtalálunk, például:

<http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert>
  a schema:Person ;
  schema:name "Pirsig, Robert." .

Ennek jelentése:

A http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert URI-vel azonosított dolog

  • egy személy
  • neve: Pirsig, Robert.

A példa elérhetősége: http://experiment.worldcat.org/entity/work/data/12477503.html.

Az alternatív formátumokat a http://experiment.worldcat.org/entity/work/data/12477503.ttl, .nt, .jsonld, .rdf URL-eken keresztül lehet elérni.

A következő hetekben az munka szintű rekordokra mutató linkek fokozatosan beépülnek a manifesztum rekordok oldalaiba, például a Linked Data szekcióban elérhető lesz a

schema:exampleOfWork http://worldcat.org/entity/work/id/12477503

típusú állítás, és az xISBN, xOCLCnum APIkban is szépen lassan meg fog jelenni (jelenleg is el lehet érni bizonyos trükkökkel).

Az adatokat az Open Data Commons Attributions (ODC-BY, http://opendatacommons.org/licenses/by/) licensze szerint lehet újrafelhasználni, ami nagyjából a Creative Commons „Nevezd meg!” típusú licenszeinek (pl. http://creativecommons.org/licenses/by/4.0/) felel meg.

Következő lépés a személyekre vonatkozó URI-k lecserélése VIAF azonosítókra, majd a tárgyi besorolási adatok legyerélése FAST, LCSH és hasonló névterek URI-jeire. (Jut eszembe: a múlt héten a Getty Thesaurust publikálták szintén Linked Open Data formában és ugyanezen ODC-BY licensz alatt. Bővebben: http://www.getty.edu/research/tools/vocabularies/lod/).

Az fenti fejleményeket először Richard Wallis, az említett W3C munkacsoport elnöke publikálta a blogjában, és különféle levelezőlistákon máris beindult a közös gondolkodás az adatok kapcsán: http://dataliberate.com/2014/02/oclc-preview-194-million-open-bibliographic-work-descriptions/

A dolognak - számomra - nagyon sok tanulsága van:

  • ma már alig van olyan nagy projekt, ami nem valamilyen újrafelhasználást elősegítő licensszel tesz közre adatokat, ami számunkra is követendő példa kell legyen
  • mivel az FRBR-nek megfelelő átalakítás egy nagyon összetett és soklépcsős folyamat, az OCLC úgy ítélte meg, hogy felesleges várni a standardizálás bevezetésére, vagy arra várni, hogy az algoritmusok elérjék tökéletesség állapotát. Ugyanennek a műnek a magyar változata például nem jelenik meg a manifesztációk között. Viszont a munkát elkezdték, lehet elemezni az eredményeket és javítani az eszközökön.
  • az adatmodell lényegesebb, mint a konkrét formátum. Formátumok között lehet váltani, és ha kijön a LoC új szabványa, vagy áttörést hoz valamelyik másik (például a bibExtend, vagy az FRBRoo), akkor el lehet gondolkozni a kompabilitási kérdéseken.
  • a hagyományos „bibliográfiai rekord” pontos határokból állt. Egy rekord tartalmazott minden releváns dolgot. A Linked Data esetében a rekord határa nem ilyen precíz. Fenti példában az műre vonatkozó alapállítások tárgya sokszor egy, a mű határain kívül eső állításhalmaz, mivel a tárgyakat, szerzőt és egy sor más dolgot a saját helyén kezelünk. Az OCLC által egy fájlba pakolt információk önkéntes döntést tükröznek. Gondoljuk el az alábbi szituációt: a szerzőre vonatkozó állítás egy Viaf rekordra mutat, a Viaf rekorban pedig a DBPediaára (a Wikipedia LOD változatára) mutatnak. Mit tartalmazzon ezek után a bibliográfiai rekord? Hol legyen a határa a hivatkozások felgöngyölítésének? Ezt a kérdést ezután minden egyes alkalmazás esetében a készítők kell eldöntsék.

Kellemes szórakozást mindenkinek!

 

Szólj hozzá!

A bejegyzés trackback címe:

http://kirunews.blog.hu/api/trackback/id/tr485837658

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Nincsenek hozzászólások.