Adatbázisok, kéziratok és publikációk a szemantikus térben

2022.11.08.
Adatbázisok, kéziratok és publikációk a szemantikus térben
Az ELTE Digitális Bölcsészet Tanszék új előadássorozatot indított, hogy bemutassa, mivel foglalkoznak és eddig milyen eredményeket értek el a digitális bölcsészek. A 2022. október 26-i esemény a prozopográfiai, illetve bibliográfiai adatbázisok építésével, az adatgazdagítással, a szemantikus kapcsolatok létrehozásával és az adatvizualizációval foglalkozott. Tószegi Zsuzsanna beszámolója.

Az esten Palkó Gábor tanszékvezető ismertette a tanszék, illetve a vele szoros egységben működő Digitális Örökség Nemzeti Laboratórium (DH-LAB) fő célkitűzéseit. Mint elmondta, a tanszék egyik legfőbb feladata jelenleg a tervezett minor és adatgazdász szakirányú továbbképzési szak előkészítése. A DH-LAB konzorciumi keretek között végzi a kormányzat által jóváhagyott kutatási feladatokat; az együttműködő partnerek a Magyar Nemzeti Levéltár, a Miskolci Egyetem és az ELKH Bölcsészettudományi Központ Irodalomtudományi Intézet (ITI).

A DH-LAB munkatársa, Sebestyén Ádám évek óta tagja az ELTE Humanizmus Kelet-Közép-Európában (Humanism in East Central Europe – HECE) kutatócsoportnak, amelynek célja az 1420 és 1620 között a Magyar Királyság területén született irodalmi művek és szerzőik értelmiségi karriermintázatainak vizsgálata. A prozopográfiai kutatócsoport munkája kapcsán dolgozták ki az ELTEdata projektet, a nyílt forráskódú Wikibase szoftverrel működő és a Wikidata adatszerkezetét követő önálló alkalmazást.

Az ELTEdata első és legkidolgozottabb alprojektje a HECE kutatócsoport prozopografiai adatait adatbázsiba rendező szolgáltatás – mondta el a kutató. 

Az adatbázis a magyarországi humanista szerzők műveit, illetve életpályáját azonos szempontrendszer alapján tárja föl,

a biográfiákat, a bibliográfiákat, a forrásművek leírását, az incipiteket, a kiadásokat, a fellelhető példányok lelőhelyeit és esetenként a dedikációkat dolgozza fel. Az egyik legnagyobb feladat a szövegekben előforduló entitások (pl. személy- és  intézménynevek) azonosítása. A szemantikus háló építése során a kutatók törekedtek a hierarchikus kapcsolatok leképezésére, a foglalkozásoknál jelezték a fölé-, illetve az alárendelt kapcsolatokat (például az ornitológus és a zoológus visszakereshető a természettudós fogalom alatt is).

Az adatbázisban tárolt adatokat nemcsak lekérdezni, de vizualizálni is lehet – magyarázta Sebestyén Ádám. Látványos eredményeket mutat például a peregrinációs célpontok térképre vetített bemutatása, a korabeli oktatási intézmények látogatottságának megoszlása az egyes felekezetek szerint, a különböző egyházi és világi pozíciók betöltése. De ábrázolni lehet azt is, mely műveket idézték a legtöbben, milyen utazásokat tettek az egyes humanisták az adott korszakban.  

Dobás Kata az Irodalomtudományi Intézet néhány projektjéről tartott beszámolót. Az ITI a Petőfi Irodalmi Múzeummal együttműködve indította el  2014-ben digitális filológiai projektjét, a DIGIPHIL (A magyar irodalomtudomány filológiai portálja) szolgáltatást, amely 2021 májusától az ITI keretei között, a DH-LAB-bal együttműködve működik.

Az előadó részletesen beszélt a teljességre törekvő Kosztolányi-forrásjegyzékkel kapcsolatos munkálatokról. A több száz periodikából összegyűjtött mintegy 11 ezer bibliográfiai tételt az MTA-ELTE Hálózati Kritikai Szövegkiadás Kutatócsoport 2008 és 2013 között öt kötetben adta ki. Be kell látni, hogy a hatalmas invesztícióval elkészített nyomtatott kötetekben nagyon nehézkes a keresés, a kereshetőség érdekében ezért vetődött föl a bibliográfiai tételek adatbázisba töltése. A feladat azonban korántsem egyszerű, mert

egészen más logikát követel az egyes adatok leírása a nyomdai megjelentetés érdekében,

illetve azok minősítése, értelmezése, egységesítése – ez utóbbi azonban az adatbázisba töltés elengedhetetlen feltétele.   

A DIGIPHIL berkeiben zajló projektek közül Dobás Kata Hajnóczy Péter hagyatékának feldolgozását is említette. Korábban elképzelhetetlen volt egy olyan összetett adatbázis, amely például a kéziratokat képes volt összekötni egy másik dokumentummal, például az író által készített vázlattal, jegyzettel vagy éppen a belőle készült publikációval.

Mind a Kosztolányi, mind a Hajnóczy hagyaték feldolgozása az ITIdata rendszerben történik, amely az ELTEdatához képest később indul, így annak tapasztalatait integrálni tudja. Az egyik legfontosabb kérdés, hogyan lehet más adatbázisokból – például a PIM Névtérből, az MTMT-ből, az OSZK EPA-ból – hatékonyan átvenni adatokat, hogyan lehet az eltérő struktúrákban tárolt mezőket megfeleltetni egymásnak. A cél viszont egyértelmű: a jövőben az Intézetben az ITIdata lesz az egyetlen adatbázis, a korábban építetteket ebbe fogják integrálni.

Az előadások utáni élénk szakmai eszmecserét a főépület zárása miatt 20 órakor be kellett rekeszteni. A következő előadás időpontja még nincs kitűzve, mert a takarékossági intézkedések miatt nehéz előre tervezni. A Tanszék és a DH-LAB azonban ezúton is meghívja az érdeklődőket a november 23–25. között tartandó DH-BUDAPEST nemzetközi konferenciára, amelyen az ELTE polgárok ingyenesen vehetnek részt.

Az Eötvös Loránd Tudományegyetem fontos feladata a bölcsészet művelése terén felmerült legújabb tudományos-technikai lehetőségek élenjáró alkalmazása. „Digital humanities” (DH) néven mára már világszerte elterjedt a bölcsészettudományok és az informatika termékeny összekapcsolása. A Böcsészettudományi Karon 2017-ben Kiszl Péter és Palkó Gábor vezetésével alakult meg a Digitális Bölcsészet Központ, majd 2020 őszén a Digitális Bölcsészet Tanszék, Palkó Gábor vezetésével. A Tanszék koordinálja a 2020-ban alakult Digitális Örökség Nemzeti Laboratórium kutatásait is.

Forrás: ELTE