2014. január 12., vasárnap

Re: [KATALIST] ETO és Google

2014/1/11 <katalist-request@listserv.niif.hu>:
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Fri, 10 Jan 2014 09:09:12 -0800 (PST)
> From: "mandygabor@yahoo.com" <mandygabor@yahoo.com>
> To: katalist@listserv.niif.hu
> Subject: [KATALIST] ETO és Google
> Message-ID:
> <1389373752.95467.YahooMailBasic@web121504.mail.ne1.yahoo.com>
> Content-Type: text/plain; charset=utf-8
>
> Egy kicsit változtatnék a témán. Eredeti téma:
> szavazas - KIT Hirlevel (ETO vs. targyszavak).
>
>
> A Google (és néhány egyéb keresőprogram) könyvtári alkalmazása
> már itt van a spájzban. Nem annak vagyok a híve, hogy hagyjunk
> mindent a Google-re, hanem azt javaslom, hogy lehetőség szerint
> minél jobban vonjuk be a keresésekbe, azaz dolgozzunk a keze
> alá.
>
> Persze csak egyszerű lépésekről lehet szó. A korábban már
> említett amatőr kísérletben magam is ajánlottam, hogy a találatként
> kapott ISBN számokra a Google-ben keressünk rá. Ha az online
> katalógusokban kereshet a Google, akkor - némi zajjal - meg tudjuk
> találni az adott műveket.
>
> A javaslatom: a katalógusokba vegyünk bele valami egyezményes
> prefixumot, ami után jöhet a tárgyszó vagy ETO jelzet.
>
> Az "ISBN ..." mintájára bele lehetne venni a leírásokba az "ETO: ..."
> vagy a "Tárgyszó: ..." jelsort. Ha ezután a keresésben idézőjelek közé
> tesszük az adott ETO jelzetet vagy tárgyszót, a zaj jelentős mértékben
> csökkenhet.
>
> Az ETO jelzeteket vagy tárgyszavakat kombinálhatjuk is, így meglehetősen
> pontos találatokat kaphatnánk.
>
> A fagyöngyös gyilkosság című elbeszélésgyűjtemény esetében például
> a következő sor lenne a keresőkérdés:
> "ETO: 82-322.4=945.11" "ETO: 398.332.416"
> Vagy: "Tárgyszó: bűnügyi novellák, világirodalom".
>

Ezek tipikusan olyan ETO-jelzetek és tárgyszavak, amik önmagukban nem
sok mindenre jók, mert százával, ezrével hemzsegnek a nagykönyvtárak
katalógusaiban - írnám, ha nem próbáltam volna ki. Az OSZK
katalógusában 82-322.4=945.11 összesen 10
darab van, ha a Google jól számolja (nem biztos, hogy jól számolja),
mindenesetre 10-et talált. Ez pontosan 10-zel több, mint amit az OSZK
által nyújtott LibriVision felület talált. (Jó hír: lehet keresni
ETO-jelzetre az OSZK katalógusában! Csak meg kell adni a Google-nek a
keresőkifejezésben, hogy "site:nektar.oszk.hu".) Hálás köszönet az
OSZK-nak, hogy ha már a LibriVision olyan, amilyen, legalább a
Google-t nem tiltják ki a katalógusukból.

A Google egyébként remekül boldogul az alosztásokkal is, mivel minden
nem alfanumerikus karaktert szeparátorként fog fel. Ez nagyon hasznos
akkor, amikor a jelzet közepén megjelenik egy számomra épp közömbös
alosztás. Ha a "82-322.4=945.11" helyett azt adom meg
keresőkifejezésként, hogy
"82-322.4" "=945.11"
, akkor a 10 helyett 13 találatot kapok, pl. előkerül az Ötperces
rejtélyek otthonülő detektíveknek, melynek az ETO-jelzetébe a nyelvi
alosztás elé még bekeveredett egy földrajzi: "820-322.4 (73) =945.11"
Ezt persze így nem találta volna meg a Google sem, mert itt a
főtáblázati szám 820 a 82 helyett, de szerencsére besorolták még egy
jelzethez - konkrétan: 793.7 (0:82-322.4) -, amiben szerepel a
82-322.4 karakterlánc.

A Google valamikor finomított a betűhű keresésen, ami itt most nagyon
jól jön nekünk, ugyanis hogy az összetett jelzetek részei között
hagynak-e szóközt vagy sem, az könyvtáranként eltérhet. (Leginkább az
alkalmazott szoftver csóválja a könyvtárakat.) Az OSZK például hagy
szóközt, náluk a jelzet úgy fest, hogy "82-322.4 =945.11", ezt a
Google régebben nem illesztette volna az eredeti egybeírt változatra,
most azonban simán megtalálja már.

A módszer gyenge pontjai:

1) Érzékeny az osztályozás pontosságára. A Google számára a 820-322.4
nem a 82-322.4 részhalmaza, hanem két különböző karakterlánc. Az OSZK
katalógusában is azért csak 10 darab 82-322.4=945.11-et találtam, mert
inkább a 820-322.4=945.11-et használják. Abból van 170.
Ezen egyes esetekben (hosszú jelzeteknél) valamelyest lehet javítani a
jelzetek csonkolásával az utolsó pontig és az összetett jelzetek
jelzetelemekre bontásával, ez azonban rendszerint növeli a zajt, van
úgy, hogy nagyon.

2) Érzékeny az osztályozás szubjektivitására. A fagyöngyös kötetet az
egyik könyvtár 82-322.4, a másik 820-322.4, a harmadik 82 alá szakozza
be. Szakirodalomnál általában még sokkal rosszabb a helyzet.

3) Az is okozhat plusz zajt, ha jelzetelemekre bontva keresünk, mivel
azokat a rekordokat is megtaláljuk, amiknél a keresett elemek
különböző jelzet részei. De ez akár jól is jöhet, mint a fenti
Ötperces... példa is mutatja.

Az igazi mindenképp az lenne, ha az OPAC-okban lehetne _jól_ keresni
ETO-jelzetekre, mint ahogy azt a BME OMIKK-ban megvalósították. Amíg
máshol nem lehet, addig marad a Google.

(Ha valaki esetleg napi munkához használná ezután ezt a módszert,
annak javaslom, hogy vegye elő a TMT 2013/06-os számát, melyben Prokné
Palik Mária cikkében felsorolja azokat a jelzetszerkesztési eseteket,
amik egy OPAC-nak gondot szoktak okozni, és próbálgassa végig ezeket.
Néha a Google meglepően jól használható e célra, máskor kevésbé, de
általában nem feltétlenül úgy működik, ahogy várnánk az adott esetben,
szóval érdemes tapasztalatokat gyűjteni.)

> Mindez persze csak akkor működhetne, ha valamely webes dokumentumban
> megjelennek ezek a deszkriptorok, és az a dokumentum kereshető.
>

Van ilyen webes dokumentum, méghozzá az OPAC-ok webes felülete,
illetve a rajtuk megjelenített rekordok. A kereshetőség más kérdés. A
könyvtáraknak nem kéne kitiltaniuk a katalógusukból a Google
robotjait. Hogy aztán kitiltják-e, az szerintem a legtöbb magyar
könyvtárnál nem tudatos döntés eredménye, hanem ahogy sikerül.
Leginkább az OPAC részeként telepített webszerver elkövetőjétől függ,
legalábbis erre utal, hogy egy-egy szállító termékét használó
könyvtárak nagyjából egységesen engedik, vagy nem engedik. A
Corvinások, Huntékások általában engedik. Az Alephesek álatalában nem
engedik. Néhány kivétel van, tisztelet nekik.

Hogy a javasolt "ETO:", illetve "Tárgyszó:" címkéket érdemes-e
használni, az kérdéses. Ha adott könyvtár katalógusában keresünk, mint
én az előbb az OSZK-éban, akkor nyilván felesleges. Ha mondjuk a
magyar könyvtárak katalógusaiban keresek ("site:.hu"), akkor elvileg
szerencsés lenne, ha azok a könyvtárak, amelyek nem hajtják el a
keresők robotjait, ugyanúgy neveznék el az űrlapelemeiket.
Gyakorlatilag viszont az ETO jelzetek elég egyediek ahhoz, hogy ETO
jelzetre keresve a Google mindenféle további erőfeszítés vagy ravasz
trükk nélkül is katalógusrekordokat hordjon elénk.


> Mivel tudom, hogy a könyvtári katalógusok nagyon rugalmatlanok, a
> tanulmányom ötletét megismételve azt is megfontolandónak tartom,
> hogy mindezeket a leírásokat a katalógusokból exportált, hozzájuk
> képest tehát külső dokumentumokban tegyük hozzáférhetővé. Mit
> szólnának például a kollégák egy ilyen jellegű OSZK-gyarapodásjegyzékről?
> Legalább kísérletképpen...
>

Mint fentebb: az OPAC-ok webes felületén megjelenített rekordok erre
többnyire alkalmasak. Ha a besorolási rekordok be vannak linkelve,
akkor azok alapján a kereső robotjai valószínűleg szépen végig tudják
olvasni a katalógust a webszerveren keresztül, csak néhány rekordba
bele kell terelni őket. Erre a terelésre alkalmas például a sok
könyvtár portálján látható könyvajánló is. Ez a módszer egy dolgot nem
tud garantálni: a teljes katalógus megjelenését a keresőben. Ugyanis
lehetnek esetleg az adatbázisokban olyan szigetszerű rekordcsoportok,
amikre így nem futnak rá a robotok (pl. egy speciális tudományág,
amihez csak néhány, máshová nem besorolt dokumentuma van a
könyvtárnak). Ezt mindig egy-egy adott könyvtárra vonatkozóan kell
átgondolni, hogy vajon összeáll-e az adatbázis az OPAC linkjeire
felfűzve összefüggő gráffá.

Ami az OSZK-gyarapodásjegyzék ötletét illeti, van (majdnem) ilyen, az
MNB füzetei. A rekordazonosítót amúgy is feltüntetik minden
MNB-tételnél, csak be kéne linkelni rá a katalógusrekordot az MNB HTML
formátumú füzeteiben. Ez az új gyarapodásra vonatkozóan a teljességet
is (majdnem) garantálná.



Üdvözlettel,
Balogh Béla

_______________________________________________
Katalist mailing list
Katalist@listserv.niif.hu
https://listserv.niif.hu/mailman/listinfo/katalist