2014. február 26., szerda

[KATALIST] 194 millió munka-szintű rekord a WorldCat-ban

Tisztelt Lista!

Tegnap nagy jelentősségű bejelentést tett az OCLC. A Worldcat-en belül
elérhetővé tettek 194 millió munka-szintű rekordot. Bizonyára
ismeretes, hogy a MARC alapvetően egy szintű, a nyomtatványra
koncentráló adatmodelljével szemben az FRBR további leírási szinteket
tesz lehetővé. A legfelsőbb szint a work, vagyis a munka. Ez egy könyv
elméleti ideálképe, ami alapvetően a tartalmat (szerző, cím, téma) és
nem a nyomtatvány fizikai tulajdonságait (kiadási adatok, külső
megjelenés stb.) hordozza. Az FRBR-ben a mű és annak manifesztációja
között van még egy köztes szint, az expression, ami a mű megjelenési
és nyelvi változatait írja le (pl. nyomtatott könyv, színpadi mű,
képregény, x nyelvi fordítás stb.) Az OCLC az eddigi 311 millió MARC,
vagyis manfestációs szintű rekordból készített és publikált 194 millió
mű szintű rekordot (a köztes szintről - egyelőre? - nincs szó).

A mű szintnek (és egyáltalán az FRBR-nak) nincs sztandard
implementációja, több kísérlet is létezik ennek megvalósítására
(például az Library of Congress új bibliográfiai keretrendszere, vagy
az eXtensible Catalog RDA-n alapuló sémája). Az OCLC most egy új
implementációval állt elő: a W3C keretén belül létrejött "Schema Bib
Extend" közösségi csoport ajánlásait követve a schema.org
bibliográfiai kiterjesztésére és a Linked Open Data alapelvekre
alapoztak (bővebben egyik tavalyi levelemben írtam errő:
https://listserv.niif.hu/pipermail/katalist/2013-February/028019.html).
Ami azt jelenti, hogy a rekord leírása elsősorban nem szöveg-alapú,
hanem egy géppel olvasható, RDF állításokat tartalmazó részgráf. Mivel
ez elég absztraktul hangzik, íme egy példa a könnyebb megértés végett:

<http://worldcat.org/entity/work/id/12477503>
a schema:CreativeWork , schema:Book ;
schema:about
<http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons>
, <http://experiment.worldcat.org/entity/work/data/12477503#Topic/philosophy_and_civilization>;
schema:creator
<http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert_m>
, <http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert>
;
schema:name "Zen and the art of motorcycle maintenance
an inquiry into values,"@en , "Zen and the art of motorcycle
maintenance."@en , "Zen and the art of motorcycle maintenance : an
inquiry into values /" , "Zen and the art of motorcycle maintenance :
an inquiry into values /"@en , "Zen and the art of motorcycle
maintenance: an inquiry into values,"@en ;
schema:workExample <http://www.worldcat.org/oclc/191931910> ,
<http://www.worldcat.org/oclc/13038756> .

A Linked Data (és általában az RDF) egyik előnye, hogy a szintaxis
pusztán hordozója a mögöttes adatoknak, és tetszőlegesen lehet számos
adatformátumba konvertálni ugyanazt az állításkészletet. A fenti példa
az úgynevezett Turtle szintaxis használja, de a Worldcatban elérhető
emellett az N3, JSON-LD, RDF és HTML formátum is.

Tehát fenti példában a http://worldcat.org/entity/work/id/12477503
URI-vel
azonosított dologról az alábbi állításokat tettük:
* ez egy kreatív munka
* ez egy könyv
* tárgya az http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons
URI-vel
azonosított dolog
* alkotója az http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert_m
URI-vel
azonosított dolog
* angol címe: Zen and the art of motorcycle maintenance an inquiry into values
* angol címe: Zen and the art of motorcycle maintenance.
...
* manifesztációja az http://www.worldcat.org/oclc/191931910 URI-vel
azonosított dolog
* manifesztációja az http://www.worldcat.org/oclc/13038756 URI-vel
azonosított dolog
...

Ugyanazon „rekordban" más állításokat is megtalálunk, például:

<http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert>
a schema:Person ;
schema:name "Pirsig, Robert." .

Ennek jelentése:

A http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert
URI-vel
azonosított dolog
* egy személy
* neve: Pirsig, Robert.

A példa elérhetősége:
http://experiment.worldcat.org/entity/work/data/12477503.html. Az
alternatív formátumokat a
http://experiment.worldcat.org/entity/work/data/12477503.ttl, .nt,
.jsonld, .rdf URL-eken keresztül lehet elérni.

A következő hetekben az munka szintű rekordokra mutató linkek
fokozatosan beépülnek a manifesztum rekordok oldalaiba, például a
Linked Data szekcióban elérhető lesz a

schema:exampleOfWork http://worldcat.org/entity/work/id/12477503

típusú állítás, és az xISBN, xOCLCnum APIkban is szépen lassan meg fog
jelenni (jelenleg is el lehet érni bizonyos trükkökkel).

Az adatokat az Open Data Commons Attributions (ODC-BY,
http://opendatacommons.org/licenses/by/) licensze szerint lehet
újrafelhasználni, ami nagyjából a Creative Commons „Nevezd meg!"
típusú licenszeinek (pl. http://creativecommons.org/licenses/by/4.0/)
felel meg.

Következő lépés a személyekre vonatkozó URI-k lecserélése VIAF
azonosítókra, majd a tárgyi besorolási adatok legyerélése FAST, LCSH
és hasonló névterek URI-jeire. (Jut eszembe: a múlt héten a Getty
Thesaurust publikálták szintén Linked Open Data formában és ugyanezen
ODC-BY licensz alatt. Bővebben:
http://www.getty.edu/research/tools/vocabularies/lod/).

Az fenti fejleményeket először Richard Wallis, az említett W3C
munkacsoport elnöke publikálta a blogjában, és különféle
levelezőlistákon máris beindult a közös gondolkodás az adatok kapcsán:
http://dataliberate.com/2014/02/oclc-preview-194-million-open-bibliographic-work-descriptions/

A dolognak - számomra - nagyon sok tanulsága van:
* ma már alig van olyan nagy projekt, ami nem valamilyen
újrafelhasználást elősegítő licensszel tesz közre adatokat, ami
számunkra is követendő példa kell legyen
* mivel az FRBR-nek megfelelő átalakítás egy nagyon összetett és
soklépcsős folyamat, az OCLC úgy ítélte meg, hogy felesleges várni a
standardizálás bevezetésére, vagy arra várni, hogy az algoritmusok
elérjék tökéletesség állapotát. Ugyanennek a műnek a magyar változata
például nem jelenik meg a manifesztációk között. Viszont a munkát
elkezdték, lehet elemezni az eredményeket és javítani az eszközökön.
* az adatmodell lényegesebb, mint a konkrét formátum. Formátumok
között lehet váltani, és ha kijön a LoC új szabványa, vagy áttörést
hoz valamelyik másik (például a bibExtend, vagy az FRBRoo), akkor el
lehet gondolkozni a kompabilitási kérdéseken.
* a hagyományos „bibliográfiai rekord" pontos határokból állt. Egy
rekord tartalmazott minden releváns dolgot. A Linked Data esetében a
rekord határa nem ilyen precíz. Fenti példában az műre vonatkozó
alapállítások tárgya sokszor egy, a mű határain kívül eső
állításhalmaz, mivel a tárgyakat, szerzőt és egy sor más dolgot a
saját helyén kezelünk. Az OCLC által egy fájlba pakolt információk
önkéntes döntést tükröznek. Gondoljuk el az alábbi szituációt: a
szerzőre vonatkozó állítás egy Viaf rekordra mutat, a Viaf rekorban
pedig a DBPediaára (a Wikipedia LOD változatára) mutatnak. Mit
tartalmazzon ezek után a bibliográfiai rekord? Hol legyen a határa a
hivatkozások felgöngyölítésének? Ezt a kérdést ezután minden egyes
alkalmazás esetében a készítők kell eldöntsék.

Kellemes szórakozást mindenkinek!
király péter

--
Péter Király
software developer

Europeana - http://europeana.eu
eXtensible Catalog - http://eXtensibleCatalog.org

_______________________________________________
Katalist mailing list
Katalist@listserv.niif.hu
https://listserv.niif.hu/mailman/listinfo/katalist