Örültem Balogh Béla írásának, jól kimélyíti a vitának ezt a
mezsgyéjét.
De mindekelőtt egy ön-pontosítás. Egy gyarapodásjegyzék (vagy
bármely más hosszú dokumentum) nem lenne alkalmas az
ETO jelzetek szerinti Google-keresésre, mivel a Google - legjobb
tudomásom szerint - az egész dokumentumot adja vissza, ezért
a keresőkérdést a találat szövegében meg kell ismételni; ráadásul
ott már nem működik az idézőjelekkel való szűkítés, pláne nem,
ha egyszerre két ilyen idézőjeles szövegrészletet akarunk
megtalálni. Ez a hiányosság csak úgy küszöbölhető ki, ha
minden rekordot külön webdokumentumként töltünk fel. Ennél
pedig egyszerűbb, ha megengedjük a Google-nek, hogy a katalógusainkban
böngésszen. (Igazából nem értem, mi lehetne ebből hátrány a könyvtárak
számára. Az egyértelmű előny, hogy a használó katalógusrekordokat is
találhat, ami ösztönözheti az illető könyvtár felkeresésére.)
Nekem nem jutott eszembe az olyan eszközök alkalmazása, mint
a site:.hu vagy a site:nektar.oszk.hu. Esetleg meg lehetne próbálni
ezek választékát szélesíttetni.
Izgalmas kísérletekről olvashatunk a gépi indexelés terén, de a
jelen helyzetben nem gondolok arra, hogy a Google a dokumentumokat
osztályozhatná. A nyelvi feltárásban viszont idővel egyre jobb eredményt
ér majd el. Laikus használóként nem tudom, hogy lehetne proximity
operátort alkalmazni, hogy más eredményt adjon a dokumentum-, a
fejezet-, a bekezdés- vagy a mondat szintű keresés. (Ahogy fentebb
utaltam rá, én eddig csak a dokumentum szinttel találkoztam.)
Ami végül az osztályozás pontatlanságait illeti (pl. egy világirodalmi
antológiánál a 82 helyett a 820), azok minden más esetben is gondot
okoznak. Ezeket csak egy erős és rendszeres szakmai kontroll
szűrhetné ki.
Mándy G.
--------------------------------------------
On Sun, 1/12/14, Béla Balogh <kutya.tanul@gmail.com> wrote:
Subject: Re: [KATALIST] ETO és Google
To: katalist@listserv.niif.hu
Date: Sunday, January 12, 2014, 7:20 AM
> Az ETO jelzeteket vagy tárgyszavakat kombinálhatjuk
is, így meglehetősen
> pontos találatokat kaphatnánk.
>
> A fagyöngyös gyilkosság című
elbeszélésgyűjtemény esetében például
> a következő sor lenne a keresőkérdés:
> "ETO: 82-322.4=945.11" "ETO: 398.332.416"
> Vagy: "Tárgyszó: bűnügyi novellák,
világirodalom".
>
Ezek tipikusan olyan ETO-jelzetek és tárgyszavak, amik
önmagukban nem
sok mindenre jók, mert százával, ezrével hemzsegnek a
nagykönyvtárak
katalógusaiban - írnám, ha nem próbáltam volna ki. Az
OSZK
katalógusában 82-322.4=945.11 összesen 10
darab van, ha a Google jól számolja (nem biztos, hogy
jól számolja),
mindenesetre 10-et talált. Ez pontosan 10-zel több, mint
amit az OSZK
által nyújtott LibriVision felület talált. (Jó hír:
lehet keresni
ETO-jelzetre az OSZK katalógusában! Csak meg kell adni a
Google-nek a
keresőkifejezésben, hogy "site:nektar.oszk.hu".) Hálás
köszönet az
OSZK-nak, hogy ha már a LibriVision olyan, amilyen,
legalább a
Google-t nem tiltják ki a katalógusukból.
A Google egyébként remekül boldogul az alosztásokkal is,
mivel minden
nem alfanumerikus karaktert szeparátorként fog fel. Ez
nagyon hasznos
akkor, amikor a jelzet közepén megjelenik egy számomra
épp közömbös
alosztás. Ha a "82-322.4=945.11" helyett azt adom meg
keresőkifejezésként, hogy
"82-322.4" "=945.11"
, akkor a 10 helyett 13 találatot kapok, pl. előkerül az
Ötperces
rejtélyek otthonülő detektíveknek, melynek az
ETO-jelzetébe a nyelvi
alosztás elé még bekeveredett egy földrajzi: "820-322.4
(73) =945.11"
Ezt persze így nem találta volna meg a Google sem, mert
itt a
főtáblázati szám 820 a 82 helyett, de szerencsére
besorolták még egy
jelzethez - konkrétan: 793.7 (0:82-322.4) -, amiben
szerepel a
82-322.4 karakterlánc.
A Google valamikor finomított a betűhű keresésen, ami
itt most nagyon
jól jön nekünk, ugyanis hogy az összetett jelzetek
részei között
hagynak-e szóközt vagy sem, az könyvtáranként
eltérhet. (Leginkább az
alkalmazott szoftver csóválja a könyvtárakat.) Az OSZK
például hagy
szóközt, náluk a jelzet úgy fest, hogy "82-322.4
=945.11", ezt a
Google régebben nem illesztette volna az eredeti egybeírt
változatra,
most azonban simán megtalálja már.
A módszer gyenge pontjai:
1) Érzékeny az osztályozás pontosságára. A Google
számára a 820-322.4
nem a 82-322.4 részhalmaza, hanem két különböző
karakterlánc. Az OSZK
katalógusában is azért csak 10 darab 82-322.4=945.11-et
találtam, mert
inkább a 820-322.4=945.11-et használják. Abból van 170.
Ezen egyes esetekben (hosszú jelzeteknél) valamelyest
lehet javítani a
jelzetek csonkolásával az utolsó pontig és az összetett
jelzetek
jelzetelemekre bontásával, ez azonban rendszerint növeli
a zajt, van
úgy, hogy nagyon.
2) Érzékeny az osztályozás szubjektivitására. A
fagyöngyös kötetet az
egyik könyvtár 82-322.4, a másik 820-322.4, a harmadik 82
alá szakozza
be. Szakirodalomnál általában még sokkal rosszabb a
helyzet.
3) Az is okozhat plusz zajt, ha jelzetelemekre bontva
keresünk, mivel
azokat a rekordokat is megtaláljuk, amiknél a keresett
elemek
különböző jelzet részei. De ez akár jól is jöhet,
mint a fenti
Ötperces... példa is mutatja.
Az igazi mindenképp az lenne, ha az OPAC-okban lehetne
_jól_ keresni
ETO-jelzetekre, mint ahogy azt a BME OMIKK-ban
megvalósították. Amíg
máshol nem lehet, addig marad a Google.
(Ha valaki esetleg napi munkához használná ezután ezt a
módszert,
annak javaslom, hogy vegye elő a TMT 2013/06-os számát,
melyben Prokné
Palik Mária cikkében felsorolja azokat a
jelzetszerkesztési eseteket,
amik egy OPAC-nak gondot szoktak okozni, és próbálgassa
végig ezeket.
Néha a Google meglepően jól használható e célra,
máskor kevésbé, de
általában nem feltétlenül úgy működik, ahogy
várnánk az adott esetben,
szóval érdemes tapasztalatokat gyűjteni.)
> Mindez persze csak akkor működhetne, ha valamely
webes dokumentumban
> megjelennek ezek a deszkriptorok, és az a dokumentum
kereshető.
>
Van ilyen webes dokumentum, méghozzá az OPAC-ok webes
felülete,
illetve a rajtuk megjelenített rekordok. A kereshetőség
más kérdés. A
könyvtáraknak nem kéne kitiltaniuk a katalógusukból a
Google
robotjait. Hogy aztán kitiltják-e, az szerintem a legtöbb
magyar
könyvtárnál nem tudatos döntés eredménye, hanem ahogy
sikerül.
Leginkább az OPAC részeként telepített webszerver
elkövetőjétől függ,
legalábbis erre utal, hogy egy-egy szállító termékét
használó
könyvtárak nagyjából egységesen engedik, vagy nem
engedik. A
Corvinások, Huntékások általában engedik. Az Alephesek
álatalában nem
engedik. Néhány kivétel van, tisztelet nekik.
Hogy a javasolt "ETO:", illetve "Tárgyszó:" címkéket
érdemes-e
használni, az kérdéses. Ha adott könyvtár
katalógusában keresünk, mint
én az előbb az OSZK-éban, akkor nyilván felesleges. Ha
mondjuk a
magyar könyvtárak katalógusaiban keresek ("site:.hu"),
akkor elvileg
szerencsés lenne, ha azok a könyvtárak, amelyek nem
hajtják el a
keresők robotjait, ugyanúgy neveznék el az
űrlapelemeiket.
Gyakorlatilag viszont az ETO jelzetek elég egyediek ahhoz,
hogy ETO
jelzetre keresve a Google mindenféle további
erőfeszítés vagy ravasz
trükk nélkül is katalógusrekordokat hordjon elénk.
> Mivel tudom, hogy a könyvtári katalógusok nagyon
rugalmatlanok, a
> tanulmányom ötletét megismételve azt is
megfontolandónak tartom,
> hogy mindezeket a leírásokat a katalógusokból
exportált, hozzájuk
> képest tehát külső dokumentumokban tegyük
hozzáférhetővé. Mit
> szólnának például a kollégák egy ilyen jellegű
OSZK-gyarapodásjegyzékről?
> Legalább kísérletképpen...
>
Mint fentebb: az OPAC-ok webes felületén megjelenített
rekordok erre
többnyire alkalmasak. Ha a besorolási rekordok be vannak
linkelve,
akkor azok alapján a kereső robotjai valószínűleg
szépen végig tudják
olvasni a katalógust a webszerveren keresztül, csak
néhány rekordba
bele kell terelni őket. Erre a terelésre alkalmas
például a sok
könyvtár portálján látható könyvajánló is. Ez a
módszer egy dolgot nem
tud garantálni: a teljes katalógus megjelenését a
keresőben. Ugyanis
lehetnek esetleg az adatbázisokban olyan szigetszerű
rekordcsoportok,
amikre így nem futnak rá a robotok (pl. egy speciális
tudományág,
amihez csak néhány, máshová nem besorolt dokumentuma van
a
könyvtárnak). Ezt mindig egy-egy adott könyvtárra
vonatkozóan kell
átgondolni, hogy vajon összeáll-e az adatbázis az OPAC
linkjeire
felfűzve összefüggő gráffá.
Ami az OSZK-gyarapodásjegyzék ötletét illeti, van
(majdnem) ilyen, az
MNB füzetei. A rekordazonosítót amúgy is feltüntetik
minden
MNB-tételnél, csak be kéne linkelni rá a
katalógusrekordot az MNB HTML
formátumú füzeteiben. Ez az új gyarapodásra
vonatkozóan a teljességet
is (majdnem) garantálná.
Üdvözlettel,
Balogh Béla
_______________________________________________
Katalist mailing list
Katalist@listserv.niif.hu
https://listserv.niif.hu/mailman/listinfo/katalist