Vajon mit csinál egy adatgazdász? Mit is jelent valójában a digitális adat és adatvagyon a bölcsészettudományokban? Milyen feladatokkal szembesülnek a bölcsész kutatók a mesterséges intelligencia előretörésével?
A Glossza 90. adásának vendégei Szabó Bálint, az ELTE Humán Tudományok Kutatóközpontjának adatgazdásza, mesterséges intelligencia nagykövete, továbbá Szekrényes István, az ELTE Digitális Örökség Nemzeti Laboratóriumának munkatársa, a Debreceni Egyetem Filozófia Intézetének oktatója voltak.
Szabó Bálint adatgazdászként segít a digitális adatok rendszerezésében, hogy azok hosszú távon elérhetők és érthetők legyenek; mesterséges intelligencia nagyköveteként pedig leginkább edukatív feladatokat lát el, támogatva a kutatókat abban, hogy tanuljanak a mesterséges intelligenciáról és arról, hogyan tudják azt jól használni a munkájuk során.
De ahhoz, hogy a bölcsészettudományok eredményei a digitális térben is jól hasznosuljanak, sok kis lépést kell megtennünk. Fontos, hogy tudományterület-specifikus szabványokat alakítsunk ki az adatok leírásához, illetve létrehozzunk olyan kategóriákat, amelyek nemcsak az azonosításra a legalkalmasabbak, de a kereshetőséget is biztosítják. Az adatok kezelésének és tárolásának ugyanis négy alapelve ismeretes: legyenek megtalálhatók, kereshetők, mások számára elérhetők, továbbá átjárható rendszerekben tárolják azokat, amelyekkel biztosítható az adat újrahasznosítása.
Az ezeknek az elveknek megfelelő digitális adatok halmaza már adatvagyont képezhet, amely nemcsak a kutatóknak, hanem a szélesebb közönség számára is értéket jelenthet. Például a korpuszépítés tipikusan olyan tevékenység, ahol a szövegegyüttest vagyontárgyként kezeljük, és értéket rendelünk hozzá. A korpuszok áttekintésében gépi modellek segítenek, és számos új szempontot nyújthatnak a kutatók számára, amelyek e nélkül nem lennének feltétlenül elérhetők. A mesterséges intelligencia felhasználásakor nem csupán a modellek előre meghatározott utasításokat követnek, hanem tanulási folyamatuk során konkrét példákat kapnak, ezért is szükséges a tanító korpuszok létrehozása. E modellek a példákból tanulva alakítják ki saját súlyozásukat, hogy később a tanítóanyagban nem szereplő példákból is tudjanak szöveget előállítani. A korpusz tanítása beszélt nyelv segítségével is történhet; ebben a Glossza is segítette az ELTE Digitális Örökség Nemzeti Laboratórium nyelvmodelljének tanítását, miután félszáz epizód hanganyagát adta át a modell fejlesztése érdekében.
Hogy milyen irányokat vehetnek a bölcsészettudományok a digitális adatvagyon építésének és a mesterséges intelligencia egyre gyakoribb használatának korában? Szabó Bálint meglátása szerint a kutatóknak stabil alapot kell találniuk ebben a digitális világban, hogy meg tudják határozni, hogyan viszonyuljanak ehhez a környezethez. Fontos, hogy közösen alakítsuk ki azokat a sarokpontokat, amelyek mentén navigálhatunk a kutatási trendekben, és tudományosan megalapozott módon tudjunk reagálni a folyamatosan változó környezetre. Bár az AI-rendszerek értékes eszközökké válhatnak a kutatásokban, a személyes tapasztalatok és az emberi értékek integrálása továbbra is kiemelkedő fontosságú. Talán furcsán hathat, de a tudás hosszú távú megőrzése érdekében célunk lehet, hogy lassítsuk a folyamatokat.
Az adás szerkesztői: Szilágyi Adrienn, az ELTE HTK Történettudományi Kutatóintézet munkatársa, és Szilágyi Zsolt, az ELTE HTK Néprajztudományi Kutatóintézet munkatársa.
A Glossza 90. adása meghallgatható a Spotify-on, illetve megtekinthető a YouTube-on.
További információ a Glossza Instagram és Facebook oldalán.
