Kedves Kollégák!
Van most egy egyoldalas ismertetés a TLS tavaly november 29-i számában Matthew L. Jockers: Macroanalysis: digital methods and literary history c. új könyvéről.
Néhány gyorsan kiragadott gondolat:
A recenzes megjegyzi, hogy a könyv még a lehallgatási botrány előtt íródott. Azóta még inkább kitűnt, hogy a tömeges adatelemző módszereket kellene alkalmazni tudományos céllal is hatalmas szövegmennyiségek, digitális könyvtárak szaktudományos elemzésére. (Saját megjegyzésem: azt nem támogatnám, hogy nagy tömegű magán telefonbeszélgetéseket, emaileket is alávessenek pl. szociológiai vagy nyelvészeti elemzésnek adatbányászat eszközeivel, még ha politikai és kereskedelmi érdekből próbálnak is újabban, félig titokban, ilyesmiket művelni azok, akiknek erre műszaki és egyéb lehetőségük van.)
Ahogy a cikk említi, léteznek már egyetemeken óriási szövegarchívumok vagy digitális kiadások gyűjteményei,
pl. a Stanfordi Egyetemem Literary Lab adatbázisában már 3300-nál több XIX. századi angolszász regény teljes szövege található.
Az egyes irodalmárok csak néhány, esetleg pár tucat regényt tudnak hagyományosan végigolvasni, elemezni, hogy következtetéseket vonjanak le egy-egy irodalomtörténeti korszakra vonatkozóan. Háromezer regényt viszont ember nem képes alaposan elolvasni.
Gépi módszerekkel mégis lehetséges bizonyos újfajta elemzéseket végezni, és talán nem pusztán közhelyes megállapításokra jutni, pl. szógyakoriság vizsgálatával, hanem a korszak stílusáról, visszatérő témáiról, egyes műfajokról, szövegkapcsolatokról, hatásokról stb. is jó lenne valami érvényeset mondani.
(Hozzáteszem, hogy pl. középkori oklevek több tízezres gépi gyűjteményeit vagy újságcikkekből egyszerre több milliót is alá lehetne vetni pl. történettudományi szempontú gépi elemzésnek.)
A cikk kiemeli, hogy a szakmák közötti szorosabb együttműködésnek elengedhetetlen az információs szakemberek, alkalmazott matematikusok nem ismerhetik annyira részletekbe menően pl. az irodalomtörténeti (társadalomtörténeti) kapcsolódásokat, a bölcsészek/ társadalomtudósok viszont nem lehetnek teljesen tisztában pl. a klaszteres elemzés, téma modellezés, kulcsszavak kiemelés, eloszlások statisztikai vizsgálata stb. módszereivel, új fejleményeivel.
A cikk elmondja még, hogy a kapott eredmények fényében időről-időre (ciklikusan) vissza kell térni az új szempontontból kiválasztott szöveghelyek/ egyes művek alapos olvasásához. (A gép szerintem sem tud gondolkodva olvasni, ill. attól is függ, hogy mit nevezünk "olvasásnak".)
A recenzió végül hozzáteszi: egyelőre szerzői jogi akadályokba ütközhet az eredmények idézetek közzététele, de az igények és a szabályozások folyamatosan változnak.
Elnézést az időrabló hosszúságért. A könyvtárosok egy része nálam ezerszer többet tud minderről. A hálózatkutatásban, mely szintén kapcsolódhat ide, - én azonban csak rövid hírekből értesültem róla -, voltak magyar kezdeményezések is ...
Üdvözlettel:
NpL
Van most egy egyoldalas ismertetés a TLS tavaly november 29-i számában Matthew L. Jockers: Macroanalysis: digital methods and literary history c. új könyvéről.
Néhány gyorsan kiragadott gondolat:
A recenzes megjegyzi, hogy a könyv még a lehallgatási botrány előtt íródott. Azóta még inkább kitűnt, hogy a tömeges adatelemző módszereket kellene alkalmazni tudományos céllal is hatalmas szövegmennyiségek, digitális könyvtárak szaktudományos elemzésére. (Saját megjegyzésem: azt nem támogatnám, hogy nagy tömegű magán telefonbeszélgetéseket, emaileket is alávessenek pl. szociológiai vagy nyelvészeti elemzésnek adatbányászat eszközeivel, még ha politikai és kereskedelmi érdekből próbálnak is újabban, félig titokban, ilyesmiket művelni azok, akiknek erre műszaki és egyéb lehetőségük van.)
Ahogy a cikk említi, léteznek már egyetemeken óriási szövegarchívumok vagy digitális kiadások gyűjteményei,
pl. a Stanfordi Egyetemem Literary Lab adatbázisában már 3300-nál több XIX. századi angolszász regény teljes szövege található.
Az egyes irodalmárok csak néhány, esetleg pár tucat regényt tudnak hagyományosan végigolvasni, elemezni, hogy következtetéseket vonjanak le egy-egy irodalomtörténeti korszakra vonatkozóan. Háromezer regényt viszont ember nem képes alaposan elolvasni.
Gépi módszerekkel mégis lehetséges bizonyos újfajta elemzéseket végezni, és talán nem pusztán közhelyes megállapításokra jutni, pl. szógyakoriság vizsgálatával, hanem a korszak stílusáról, visszatérő témáiról, egyes műfajokról, szövegkapcsolatokról, hatásokról stb. is jó lenne valami érvényeset mondani.
(Hozzáteszem, hogy pl. középkori oklevek több tízezres gépi gyűjteményeit vagy újságcikkekből egyszerre több milliót is alá lehetne vetni pl. történettudományi szempontú gépi elemzésnek.)
A cikk kiemeli, hogy a szakmák közötti szorosabb együttműködésnek elengedhetetlen az információs szakemberek, alkalmazott matematikusok nem ismerhetik annyira részletekbe menően pl. az irodalomtörténeti (társadalomtörténeti) kapcsolódásokat, a bölcsészek/ társadalomtudósok viszont nem lehetnek teljesen tisztában pl. a klaszteres elemzés, téma modellezés, kulcsszavak kiemelés, eloszlások statisztikai vizsgálata stb. módszereivel, új fejleményeivel.
A cikk elmondja még, hogy a kapott eredmények fényében időről-időre (ciklikusan) vissza kell térni az új szempontontból kiválasztott szöveghelyek/ egyes művek alapos olvasásához. (A gép szerintem sem tud gondolkodva olvasni, ill. attól is függ, hogy mit nevezünk "olvasásnak".)
A recenzió végül hozzáteszi: egyelőre szerzői jogi akadályokba ütközhet az eredmények idézetek közzététele, de az igények és a szabályozások folyamatosan változnak.
Elnézést az időrabló hosszúságért. A könyvtárosok egy része nálam ezerszer többet tud minderről. A hálózatkutatásban, mely szintén kapcsolódhat ide, - én azonban csak rövid hírekből értesültem róla -, voltak magyar kezdeményezések is ...
Üdvözlettel:
NpL