Tisztelt Katalist!
Örömmel jelentem, hogy megjelent a Code4Lib Journal 54. száma
A folyóirat negyedévente jelenik meg, fókuszában a számitástechnika és a könyvtár, vagy tágabban a közgyűjtemények metszéspontja áll. A jelen számban szerepet kap a természetes nyelvfeldolgozás, a mesterséges intelligencia oktatása, a perzisztens aznositók közül az ARK, a webarchiválás (a korai digitális bölcsészet kontextusában), a digitális állománvédelem, zenei ontológiaépités, bevezetés az API-k használatába nem informatikus hátterű könyvtárosoknak, egy kis múzeumok számára készülő tartalomkezelő rendszer, valamint egy igazi, tőrőlmetszett polcológiai cikk, ami azt taglalja, hogy a könyvtári könyvek átrendezésénél hogyan lehet megbecsülni a szükséges polcok mennyiségét.
Külön kiemelek egyetlen cikket, amit a finn nemzeti könyvtár munkatársai Osma Suominen és Ilkka Koskenniemi irtak: Annif Analyzer Shootout: Comparing text lemmatization methods for automated subject indexing (Annif elemzők csatája: automatizált tartalomfeltérésban használt szótövesitő módszerek összehasonlitása). Az Annif egy nyilt forráskódú szoftver neve, ami az automatizált osztályozást segiti. Az eszköz elemzi a szövegek tartalmát és gépi tanulás segitségével egy szótárból kulcsszavakat rendel a szöveghez. Ahhoz, hogy ez működjön kell egy szótár (méghozzá a szemantikus web OWL szabványával épitett), illetve egy "betanitott" vagyis már osztályozott szövegegyüttes. Az Annif először a szöveg és a hozzárendelt tárgyszavak tulajdonságai alapján felállit egy modelt - ez a tanulási fázis -, majd ezt a modelt alkalmazza a teljes korpuszra. Néhány éve a holland nemzeti könyvtár jelentetett meg egy tanulmányt, amiben ehhez hasonló eszközöket versenyeztetett meg egymással, és végül az Annif-ot választották. Azóta az Annifot sok helyen alkalmazzák, és létrejött egy elég széles felhasználói közössége is, remek dokumentációja és oktatási anyagai vannak.
A jelen cikk egyetlen aspektust tárgyal. A modell elkészitéséhez és alkalmazásához a szövegek egy természetes nyelv feldolgozási "csőhálózaton" mennek keresztül, aminek egyik lépése a szavak „normalizálása" vagyis a ragok és egyéb toldalékok levágása, a szótő megtalálása. Számos ilyen szótövesitő algoritmus létezik, de vajon melyik a jobb? A cikk különféle finn, svéd és angol nyelvű korpuszokon, több szepont szerint vizsgál hét ilyen szótövező eljárást (mindegyiket lehet az Anniffal használni) bemutatva ezek előnyeit és hátrányait, közölve az összehasonlitható mérési eredményeket.
A teljes tartalomjegyzék:
The Code4Lib Journal Issue 54, 2022-08-29
https://journal.code4lib.org/
https://journal.code4lib.org/issues/issues/issue54
Editorial: On FOSS in Libraries
Andrew Darby
https://journal.code4lib.org/articles/16820
Preservation and Visualization of the Rural Route Nomad Photo and Video Collection
Alan Webber
https://journal.code4lib.org/articles/16626
Predictable Book Shifting
Joshua Lambert
https://journal.code4lib.org/articles/16577
"You could use the API!": A Crash Course in Working with the Alma APIs using Postman
Rebecca Hyams and Tamara Pilko
https://journal.code4lib.org/articles/16597
Archiving an Early Web-Based Journal: Addressing Issues of Workflow, Authenticity, and Bibliodiversity
Nick Szydlowski, Rhonda Holberton, Erika Johnson
https://journal.code4lib.org/articles/16696
Annif Analyzer Shootout: Comparing text lemmatization methods for automated subject indexing
Osma Suominen, Ilkka Koskenniemi
https://journal.code4lib.org/articles/16719
Teaching AI when to care about gender
James Powell, Kari Sentz, Elizabeth Moyer, Martin Klein
https://journal.code4lib.org/articles/16718
Ontology for Voice, Instruments, and Ensembles (OnVIE): Revisiting the Medium of Performance Concept for Enhanced Discoverability
Kimmy Szeto
https://journal.code4lib.org/articles/16608
Simplifying ARK ID management for persistent access to digital objects
Kyle Huynh, Natkeeran Ledchumykanthan, Kirsta Stapelfeldt, Irfan Rahman
https://journal.code4lib.org/articles/16774
Building CyprusArk a Web Content Management System for Small Museums Collections Online
Avgoustinos Avgousti, Georgios Papaioannou, and Feliz Ribeiro Gouveia
https://journal.code4lib.org/articles/16722
Jó olvasást!
Király Péter, szerkesztő