Bemutatkoztak a legújabb digitális bölcsészeti kutatások

2022.05.04.
Bemutatkoztak a legújabb digitális bölcsészeti kutatások
Harmincegy éve már, hogy a húsvéti szünetben valamelyik nagy egyetemi városban összegyűlnek az ún. akadémiai szférában dolgozó, az informatikai eszközöket magas szinten használó szakemberek, hogy beszámoljanak legújabb eredményeikről és kicseréljék tapasztalataikat. A HUNGARNET által szervezett NETWORKSHOP konferencia helyszínén évről-évre több száz résztvevő hallgatja az előadásokat, amelyek videofelvétele az interneten később elérhetővé válik.

2022 tavaszán a Debreceni Egyetem látta vendégül a konferenciára érkezőket. Az elmúlt évekhez hasonlóan az idén is a HUNGARNET, az Innovációs és Technológiai Minisztérium, valamint a Digitális Jólét Program együttműködésével valósult meg a rendezvény, amelyen az ELTE munkatársai huszonegy előadással képviselték az egyetemet – erről egy rövid beszámoló olvasható az alábbi cikkben.  

Ahogy tavaly, a BTK az idén is kitett magáért: a kar oktatói, kutatói tizenhét előadást tartottak. (A számok kedvelőinek megemlítjük, hogy ez az összes előadás több mint 10%-át tette ki.)

Palkó Gábort, a Digitális Bölcsészet Tanszék és a Digitális Örökség Nemzeti Laboratórium (DH-LAB) vezetőjét plenáris előadás tartására kérték föl, a többiek az alábbi szekciókban számoltak be kutatásaikról:

  • A felsőoktatás és a közgyűjtemények digitális transzformációja,
  • Tudomány- és kutatástámogatás,
  • A szélesebb körű digitális átalakulás kérdései,
  • Az oktatás informatizálása.

A plenáris előadás

A „Mesterséges intelligencia, digitális bölcsészet, kulturális örökség: trendek és eredmények” című előadásában Palkó Gábor először a mesterséges intelligencia, illetve a digitális kulturális örökség kultúrtechnikái közül emelt ki néhányat, majd az együttműködés intézményi formáira tért ki.

Napjaink általános tapasztalata, hogy egyre több helyen mesterséges intelligencia (MI) alapú alkalmazások értelmezik elhangzó és leírt megnyilvánulásainkat, illetve reagálnak azokra. Mindehhez szükség van a mélytanulásos technológiára épülő nyelvmodellek fejlesztésére, melynek terén az elmúlt években több kutatóhely is jelentős eredményeket ért el. Hogy egy jól működő nyelvmodellhez milyen hatalmas kapacitás kell, arra sokan rácsodálkozhattak az ITM és az OTP közös szuperszámítógép-projektjének bemutatása során.

A jó minőségű magyar nyelvmodellek széles körben lesznek alkalmazhatók: Palkó Gábor első helyen említette – a határon inneni és túli – nemzeti örökség feldolgozását, amely elsőrendű kötelezettségünk. Ugyanez a technológia azonban innovatív piaci megoldások fejlesztésére is alkalmas a beszéd- és kézírás-felismerés, a szövegkivonatolás, a szemantikus keresés, az ügyfélkapcsolat-automatizálás stb. terén.

A nyelvmodellek kidolgozásának alapfeltétele a gigantikus korpuszok létrehozása, amely szempontból kedvező fejlemény, hogy EU kezdeményezésére a magyar jogalkotó a szerzői jogi törvénybe implementálta azt a módosítást, amely a szabad felhasználás körébe vonta a szöveg- és adatbányászatot.

Fontos kultúrtechnika a távoli olvasás (distant reading) szolgálatába állított szemantikus technológia, amelyre nemcsak a kritikus tömeget meghaladó digitális állományok miatt van szükség. Jól tudjuk, hogy a szabad szöveges keresés mennyire korlátozott megoldást jelent az agglutináló nyelvek esetében. Az egyik legkomplexebb szemantikus technológia a wikifikáció, melynek során a szövegobjektumokból kinyert szöveg egyes szavaihoz és szókapcsolataihoz a Wikidata tudástár elemeit rendeljük hozzá. A többnyelvű eszközök nem hatékonyak a magyar nyelvre, ezért a DH-LAB a magyar nyelvre optimalizált wikifikáló eszközt fejleszt.

Az írott szövegek MI alapú feldolgozása kétféle inputtal dolgozik: eddig szinte csak a nyomdai úton előállított szövegek digitalizálására volt kidolgozott technológia, de a nagy számban létrehozott, kétrétegű PDF fájlok túlnyomó többsége gyenge minőségű. A megszokottól eltérő, jobb gyakorlatot kellene ezen a téren kialakítani. Egy ideje léteznek már kézírásfelismerő rendszerek is, de ezeket csak korlátozottan lehet nálunk használni – részben, mert nincs magyar kézírásra tanított kész modell, részben, mert egy nagyobb gyűjteményben jól használható szoftver ára igen magas. A DH-LAB egyik fő feladata a szemantikus szövegfeltárással és a gépi tanulással optimalizált kézírásfelismerés munkamenetének kidolgozása és széles körű elérhetővé tétele.

A negyedik kultúrtechnika a born digital curation, vagyis a digitálisan létrejött anyagok archiválása és kezelése. E tevékenységnek ki kellene terjednie részben a napjainkban keletkező, illetve a már elavult hordozókon tárolt korábbi digitális anyagok feldolgozására. Ez utóbbi speciális eszközkészletet és szaktudást feltételez.

Előadása második felében Palkó Gábor beszámolt a nyílt tudományosság jegyében zajló élénk intézményi diskurzusról, a kutatási adatok kezelését támogató Research Data Alliance magyar csoportjának megalakulásáról, az adatrepozitórium-fejlesztési projektekről, valamint az ELTE-n szeptemberben induló adatgazdász képzésről.

A szekcióelőadások

A digitális bölcsészek több új fejlesztés bemutatását időzítették a NETWORKSHOP-ra – ilyen volt például a Verskorpusz adatbázissal együtt elérhetővé tett, újonnan elkészült Népdalkorpusz, amely jelenleg az 1976-ban kiadott, Ortutay Gyula és Katona Imre által szerkesztett Magyar népdalok című kötet anyagát tartalmazza. A 2390 népdal annotációs rétegei: szerkezeti egységek, szavak grammatikai jellemzői, hangzásjellemzőkhöz kapcsolódó poétikai tulajdonságok. A több mint 113 ezer szóból, közel 150 ezer tokenből álló gyűjtemény forrása a Magyar Elektronikus Könyvtárban elérhető HTML állomány volt; a közzétételhez meg kellett szerezni a két szerkesztő jogörököseinek hozzájárulását. A szerkezeti egységek annotálása Python szkripttel történt, a kimeneti állomány formátuma a szabványos TEI XML. A tokenizálás, a lemmatizálás, a szófaji és morfoszintaktikai jellemzők annotálása az e-magyar eszközzel történt, a kimenet itt is TEI XML. A hangzásjellemzőkhöz kapcsolódó tulajdonságok annotálása az előadó, Horváth Péter által 2021-ben fejlesztett hunpoem_analyzer-TEI programmal történt. A gitHub oldalon közzétették a használt XML-elemekről és ‑attribútumokról készült részletes dokumentációt.

A lekérdezőfelület „mögött” a következő keresési lehetőségeket nyújtó MariaDB-alapú SQL-adatbázis működik:

  • szóalakok, lemmák, morfoszintaktikai jellemzők, szótagszám, hangrend, szótagok hosszúsága, fonológiai szerkezet és ezek tetszőleges kombinációi;
  • több szóból álló szerkezetek;
  • gyakorisági listák generálása szavakra vagy szószerkezetekre, szóalakok vagy lemmák alapján;
  • a népdalok szűrése rímképletek alapján.

Horváth Péter összevetette a Verskorpusz és a Népdalkorpusz kvantitatív jellemzőit, melyek közül számos érdekes adatot mutatott be. Amíg a költői művek leggyakoribb főnévi lemmája a szív, a népdalokban az isten áll az első helyen, az igei lemmák esetén viszont az első két helyen egyformán a van és a lesz a leggyakoribb, a harmadik helyen a verseknél a lát, a népdaloknál az ad ige szerepel.

A DH-LAB munkatársai közül tizenhárom szerző jegyzi a Drámakorpusz szolgáltatásról, vagyis a gépi olvasás technikáival végzett drámaelemzés eredményeiről szóló előadást. A folyamatosan bővülő Drámakorpusz a magyar drámairodalom szövegeinek nyelvi-stilisztikai és egyéb jellemzőit, szerkezeti felépítésük vizsgálatát teszi elérhetővé és kereshetővé, a HunDraCor révén pedig leképezi a drámák karakterhálózatának vizualizációját.

Szenzációszámba menő „felfedezés” köszönhető Kasza Péternek és Petneházi Gábornak: 2020-ban ők találták meg Trentóban Johannes Michael Brutus „Rerum Ungaricarum libri” című művének húsz könyvből álló kéziratát. A XVI. században Brutus kapott megbízást arra, hogy folytassa Bonfini munkáját, és írja meg a magyarok történetét 1490-től 1571-ig. A rendkívüli értéket képviselő kéziratot a mesterséges intelligencia segítségével dolgozzák föl és teszik kereshetővé; ennek első eredményeiről adott számot Bobák Barbara és Kasza Péter előadása.

A digitalizálás során a kézírásos dokumentumok egyediségük, korlátozott elérhetőségük, sérülékenységük miatt jelentős hátrányba kerültek – ennek egyik fő oka, hogy korábban nem állt rendelkezésre széles körben elérhető eszköz a kézírásos szövegek felismertetésére, és a külföldön zajló fejlesztések természetesen nem a magyar nyelvre koncentrálnak. A Magyar Nemzeti Levéltárral együttműködve a DH-LAB szuperszámítógépén zajlik egy ingyenes, magyar szövegeken tanított, saját kézírás-felismerő szolgáltatás fejlesztése, melynek ígéretes eredményeiről Szekrényes István számolt be.

A digitálisan létrejövő kutatási anyagok archiválása és megőrzése esetén gondolni kell a digitális bölcsészet kutatási célú adatkészleteit tároló, a legveszélyeztetettebbek közé tartozó relációs adatbázisokra (SQL). Dióssy Anna és Alföldi István az adatbázisok szakszerű kezelésének problémáit és nemzetközi jó gyakorlatait mutatta be.

Az ELTE BTK Történeti Intézetében 2016-ban kezdődött „A tudományos tudás áramlásának mintázatai Magyarországon, 1770-1830” című NKFIH kutatási program, amely a rendelkezésre álló több műfajú, eltérő struktúrájú és nyelvezetű forráskorpusz elemzése révén hat tudományterületen vizsgálja a korabeli tudásáramlás folyamatát. A tudománytörténeti kutatásba a DH-LAB megalakulása után kapcsolódtak be a digitális bölcsészek, és egy adatbázis építésével segítik a tudásáramlás folyamatának láthatóvá, kereshetővé tételét.

Szentkereszti Máté részletesen ismertette, a digitális bölcsészet hogyan tudja segíteni a tudománytörténeti kutatást. A DH-LAB munkatársai létrehozták és üzemeltetik a Wikibase-szoftveren alapuló ELTEdata adatbázist, amely alkalmas a történeti kutatások forrásanyagainak digitális megjelenítésére és szemantikus adathálózatba rendezésére, az egyes szövegek közötti összefüggések, kapcsolatok vizualizálására, az adatok közzétételére. Az adatokat szemantikus állítások formájában írják le, minden állítás egy tulajdonság és érték párosával képezhető le. Az ELTEdata mind a szemantikus állítások, mind az entitások szintjén össze van kapcsolva a Wikidata megfelelő állításaival.

A digitális bölcsészek hozzák létre a kutatók által kijelölt releváns földrajzi és személynevek alapján a névtereket, illetve a megadott fogalmak alapján a fogalomteret. A kutatóknak a feldolgozás során számos nehézséggel kell szembenézniük, melyek közül az egyes forrásokon belül található adatok következetlenségének feloldása, megfejtése a legnehezebb.

A DH-LAB és az Irodalomtudományi Intézet egyik közös projektje, az ITIData keretében építik azt az adatbázist, amely Kosztolányi Dezső meghatározott műveinek kutatási adatait tartalmazza. Az ELTEData-hoz hasonlóan az ITIData is a Wikidata struktúrájára épülő, a Wikibase szoftverrel működő önálló alkalmazás. Dobás Kata és Fazekas Júlia Kosztolányi folyóiratokban publikált műveinek feldolgozásáról számolt be.

Az előző évi konferencián mutatta be Sebestyén Ádám az ELTEdata szolgáltatás keretében a „Humanizmus Kelet-Közép-Európában” projekt alapjait. Azóta lényegében elkészült a szerzői lexikon biográfiai része, és már a hozzá tartozó bibliográfia is hozzáférhető és kereshető. Az idén az előadó főleg a szemantikus hálózatok felől közelítette meg az ELTEdata szolgáltatást, ismertetve a szemantikus formában feldolgozott szócikkeket.

Egy gigantikus méretű, magyar nyelvű korpusz anyagának összegyűjtése önmagában nem elegendő; szükség van a nyelvfeldolgozó algoritmusok fejlesztésére, a szövegek szemantikus adatgazdagítására, melynek során a szöveg egyes entitásait névtérelemeknek feleltetik meg. A DH-LAB egyik jelentős projektje a Nemeskey Dávid nevéhez fűződő magyar wikifikációs eszköz, a HuWikifier fejlesztése. Az első tapasztalatok azt bizonyították, hogy a legtöbb nehézség a releváns köznevek megtalálásában és linkelésében adódott. A sikeres entitásfelismeréshez szükség van a szövegek morfológiai elemzésére, egy kulcsszókereső algoritmus integrálására, ezért az eszközbe integrálták az emtsv automatikus nyelvi elemzőt.

Egy speciális – vagyis egy tagmondatból álló – hasonlattípus számítógépes azonosítása és az eljárás stilometriai relevanciájának tesztelése a tárgya a Szlávich Eszter, Szemes Botond, Bajzát Tímea által végzett kutatásnak. A sűrített hasonlatokként kategorizált szerkezetek sajátos stíluspotenciállal rendelkeznek. A száz magyar regény szövegében elvégzett kutatás során egy több lépcsőből álló, reguláris kifejezéseken alapuló, valamint a szerkezetek komponenseinek morfológiai és szemantikai tulajdonságait is figyelembe vevő módszert dolgoztak ki. Az eredmények hozzájárulnak a magyar regény stílustörténetének újszerű megközelítéséhez.

A 2014-ben indult DigiPhil (A magyar irodalomtudomány filológiai portálja) projekt tavaly csatlakozott a DH-LAB-hoz, és ezzel megkezdődött a program szakmai és technikai átalakítása, melynek keretében az Irodalomtudományi Intézetben készülő kritikai kiadások publikációs platformjának kialakítása érdekében átállnak a szemantikus web technológiára. Fellegi Zsófia mutatta be az átalakítás és a migráció folyamatát, az új szolgáltatások és rendszerek kapcsolatát, valamint a legújabb fejlesztéseket.

A XVIII. század előtti költészeti alkotásokat összegyűjtő Régi Magyar Költők Tára első sorozata 1877 és 1937 között jelent meg, majd az időközbeni kutatásokkal kiegészülve az 1960-as évektől indult újra. Hernády Judit és Etlinger Mihály a projekt legújabb fázisáról, a szabványos TEI XML kód és az annotációs réteg alkalmazásáról, az új megjelenítő felületről, illetve a szerkesztői eljárások közötti eltérésekről is tájékoztatta a hallgatóságot.

A BTK-n minden alapszakos hallgató számára kötelezően elvégzendő a Digitális bölcsészeti bevezető kurzus, amelyet félévente ezres létszámban teljesítenek az egyetemisták. A Networkshopon az oktatók arról a kutatásról számoltak be, melynek célja a hallgatók digitális írástudási kompetenciájának mérésére alkalmas diagnosztikus eszközök fejlesztése. A tervek szerint a longitudinális vizsgálatban több ponton mérik majd a hallgatók digitális írástudásának változását.

A digitális bölcsészeti tárgyú előadások végén említjük meg az a fejlesztést, amely megteremti a kutatásokhoz szükséges hardver- és szoftverinfrastruktúrát, és amely a DH-LAB és a Monguz Információtechnológiai Kft. együttműködésében jött létre. A NKFIH Ígéretes Kutatási Infrastruktúra (Emerging RI) minősítését elnyerő közös fejlesztések lehetővé teszik a nemzeti kulturális örökség mesterséges intelligencia alapú feldolgozását, kutatását, oktatását és közzétételét saját fejlesztésű, magyar nyelvre optimalizált nyelvfeldolgozó alkalmazások segítségével. A konferencián Kiss Tamás és Palkó Gábor közös előadása hangzott el a fejlesztés komponenseiről.

Beszámolónk végére két, nem digitális bölcsészeti tárgyú  – egy információtörténeti és egy szerzői jogi témáról szóló – előadás került.

Csík Tibor, a Könyvtár- és Információtudományi Intézet adjunktusa a XX. század első feléből a nyílt tudományosság, az ismeretmegosztás érdekében kidolgozott két jelentős kezdeményezésre hívta föl a figyelmet. Paul Otlet és Henri La Fontaine kezdeményezte az egyetemes tudásrepertórium, a Repertoire Bibliographique Universel (RBU), illetve a Mundaneum létrehozását. A német nyelvterületen dolgozták ki a sikeresnek bizonyuló tudományos információellátás modelljét, illetve a szakirodalmi referáló szolgáltatás rendszerét.

A könyvtárosok hívták föl a figyelmet arra, hogy a kulturális örökség terén szabályos fekete lyuk keletkezett: a túlzottan szigorú szerzői jogi szabályok miatt a XX. század második felében keletkezett alkotások rendkívül kis hányada érhető el az online térben. E káros jelenség hatásának csökkentésére törekszik az Európai Unió a CDSM irányelv kiadásával, mely a kulturális örökségvédelmi intézmények számára több új szabad felhasználási módot engedélyez. Tószegi Zsuzsanna ismertette a kedvező változásokat, miszerint a direktívának megfelelően a magyar jogalkotó módosította a hatályos szerzői jogi törvényt, amely immár lehetővé teszi – többek között – a webarchiválást, valamint a szöveg- és adatbányászathoz szükséges többszörözést.   

Az előadások részletei