Félrevezető azt hinni, hogy a nagy nyelvi modellek, a Gemini, a Copilot vagy a ChatGPT emberi tudással rendelkeznek a világról. Ezek a rendszerek valójában egy szövegekből felépített nyelvi világot ismernek, ami nem azonos a fejünkben lévő világmodellel, véli Prószéky Gábor Széchenyi-díjas számítógépes nyelvész, aki az SZTE Bolyai Intézet alkalmazott matematikai konferenciáján beszélt a nagy nyelvi modellek és az emberi világmodell közötti különbségről.
A nagy nyelvi modellek algoritmusai hatalmas szövegkészletekből mélytanulás útján állapítják meg, hogy egy szó környezetében milyen szavak következhetnek; tudni azonban csak azt tudhatják, amit a szövegekből tanultak. A számítógépes nyelvész szerint
a modellek tanulása alapjául szolgáló szövegkorpuszokban a laposföldhívők szövegei is szerepelnek,
ezért fennáll az esélye, hogy a modell azt fogja mondani a Földről, hogy lapos. Másfelől attól is tartani lehet, hogy a modell a szövegekből okos és logikus dolgokat tanul ugyan, de úgy kombinálja őket össze, ahogyan a mi világképünk azt nem engedné.
Prószéky Gábor szerint a nyelvi modell működését nem szabályozza semmilyen világkép, ezért hiába tanítják jobban, vagy újabb szövegekkel, mindig előállhat annak a lehetősége, hogy a létező szövegek összekombinálásából valótlan állítás következik. A probléma kezelésére a Nyelvtudományi Kutatóközpontban megalkotott első magyar nyelvi modell, a PULI kutatói azon dolgoznak, hogy a rendszer a gépi tanulás közben egyes tényeket eleve hitelesnek tekintsen, és e tények eltorzítása nélkül adja meg válaszait.
Ezek a modellek nem rendelkeznek saját szándékkal vagy érzelmi reakcióval, ezért értelmezéseik nem lehetnek egyéniek, embert imitáló kommunikációjuk pedig külsőleg megtanult lesz, a rendszer valójában nem tud spontán viselkedést előállítani. A PULI modell a magyar nyelv jobb megértésére alapozza versenyképességét; a ChatGPT ugyanis csupán 130 millió szavas magyar szövegből tanult, míg a PULI szövegkorpusza 50 milliárdos. A nyelvtani szabályokat a ChatGPT és a többi nagy nyelvi modell is jól tudja, de a PULI a magyar kulturális tartalom ismereteiben is megbízható.
Prószéky az interjúban beszélt arról is, hogy a PULI szerepet kap egy készülő európai nyelvi modellben, amely az ALT–EDIC konzorcium keretében jön létre. Ez a modell minden európai nyelvet nagy mennyiségű adat alapján fog támogatni, így a magyar is benne lesz. Prószéky szerint, mivel a kutatócsoport már hanggal is foglalkozik, akár az is elképzelhető, hogy a nyelvi modell egyszer majd megszólal a török hódoltság idején használt magyar nyelven. A teljes interjú elolvasható az SZTE híroldalán.













