Páneurópai PULI – Az egri várvédők nyelvén is megszólalhat majd a magyar nyelvi modell

A nagy nyelvi modellek, például a ChatGPT algoritmusai a laposföldhívők szövegeit is figyelembe veszi. A problémát az első magyar nyelvi modell, a PULI kezelné.

2024. 06. 26. 18:58

Legény Dániel

Cikklink a vágólapra másolva.

Félrevezető azt hinni, hogy a nagy nyelvi modellek, a Gemini, a Copilot vagy a ChatGPT emberi tudással rendelkeznek a világról. Ezek a rendszerek valójában egy szövegekből felépített nyelvi világot ismernek, ami nem azonos a fejünkben lévő világmodellel, véli Prószéky Gábor Széchenyi-díjas számítógépes nyelvész, aki az SZTE Bolyai Intézet alkalmazott matematikai konferenciáján beszélt a nagy nyelvi modellek és az emberi világmodell közötti különbségről.

A nagy nyelvi modellek algoritmusai hatalmas szövegkészletekből mélytanulás útján állapítják meg, hogy egy szó környezetében milyen szavak következhetnek; tudni azonban csak azt tudhatják, amit a szövegekből tanultak. A számítógépes nyelvész szerint

a modellek tanulása alapjául szolgáló szövegkorpuszokban a laposföldhívők szövegei is szerepelnek,

ezért fennáll az esélye, hogy a modell azt fogja mondani a Földről, hogy lapos. Másfelől attól is tartani lehet, hogy a modell a szövegekből okos és logikus dolgokat tanul ugyan, de úgy kombinálja őket össze, ahogyan a mi világképünk azt nem engedné.

Prószéky Gábor szerint a nyelvi modell működését nem szabályozza semmilyen világkép, ezért hiába tanítják jobban, vagy újabb szövegekkel, mindig előállhat annak a lehetősége, hogy a létező szövegek összekombinálásából valótlan állítás következik. A probléma kezelésére a Nyelvtudományi Kutatóközpontban megalkotott első magyar nyelvi modell, a PULI kutatói azon dolgoznak, hogy a rendszer a gépi tanulás közben egyes tényeket eleve hitelesnek tekintsen, és e tények eltorzítása nélkül adja meg válaszait.

Ezek a modellek nem rendelkeznek saját szándékkal vagy érzelmi reakcióval, ezért értelmezéseik nem lehetnek egyéniek, embert imitáló kommunikációjuk pedig külsőleg megtanult lesz, a rendszer valójában nem tud spontán viselkedést előállítani. A PULI modell a magyar nyelv jobb megértésére alapozza versenyképességét; a ChatGPT ugyanis csupán 130 millió szavas magyar szövegből tanult, míg a PULI szövegkorpusza 50 milliárdos. A nyelvtani szabályokat a ChatGPT és a többi nagy nyelvi modell is jól tudja, de a PULI a magyar kulturális tartalom ismereteiben is megbízható.

Prószéky az interjúban beszélt arról is, hogy a PULI szerepet kap egy készülő európai nyelvi modellben, amely az ALT–EDIC konzorcium keretében jön létre. Ez a modell minden európai nyelvet nagy mennyiségű adat alapján fog támogatni, így a magyar is benne lesz. Prószéky szerint, mivel a kutatócsoport már hanggal is foglalkozik, akár az is elképzelhető, hogy a nyelvi modell egyszer majd megszólal a török hódoltság idején használt magyar nyelven. A teljes interjú elolvasható az SZTE híroldalán.

Cikklink a vágólapra másolva.

Legény Dániel a Szegeder újságíró-szerkesztője, elsősorban építészeti, városfejlesztési és közlekedési témákkal foglalkozik. Írásaiban többnyire azt követi, mik épülnek városszerte, és ezek hogyan alakítják Szeged épített örökségét, amihez a köznek is hozzászólási joga van. A szerző további cikkei.

Szeged

Páneurópai PULI – Az egri várvédők nyelvén is megszólalhat majd a magyar nyelvi modell

Első fokon hat és fél év fegyházra ítélték Joób Márton világbajnok kenust, de szabadlábon maradhat a jogerős döntésig

Vitézy szerint lehívható a 16,4 milliárd eurónyi uniós forrás

Hőségriasztás jöhet szombattól, pénteken dönthetnek a fokozatáról

Már szeptembertől uszályok jöhetnek a szegedi téli kikötőbe

Közel 3-szorosára nőhet a szegedi fizető parkolóövezet mérete

Teljesen megújult a Szegeder

Ruff Bálint rendkívüli parlamenti ülést hívott össze az uniós pénzekért

Sulyok Tamás nem írta még alá, hogy Orbán Viktor ne lehessen többé miniszterelnök