Mi történik a mesterséges intelligencia „elméjében”, amikor megtanulja megérteni a nyelvet? Hogyan jut el oda, hogy nem csupán a szavak sorrendjét, hanem azok jelentését is képes követni? Egy nemrég megjelent kutatás a mesterséges intelligencia e belső folyamataiba enged elméleti betekintést, és olyan átváltozást azonosít, amely a fizikából ismert fázisátmenetekhez hasonlítható.
A modern nyelvi modellek, például a ChatGPT vagy a Gemini működésének alapját képező úgynevezett transformer hálózatok önfigyelő (self-attention) rétegekkel dolgoznak. Ezek az egységek azt segítik elő, hogy a rendszer az egyes szavak között kapcsolatot tudjon teremteni – figyelembe véve azok helyét a mondatban, valamint jelentésüket. A mostani kutatás e kétféle figyelmi stratégia – a pozicionális és a szemantikus – közötti váltás természetét vizsgálja matematikai és fizikai eszközökkel, elméleti keretben.
A kutatás legfőbb megállapítása, hogy a nyelvi modell tanulása során nem fokozatos átmenet, hanem egy éles, hirtelen váltás történik: a rendszer egy adott pontig elsősorban a szavak helyzetére épít, majd egy kritikus adatmennyiség elérése után hirtelen áttér a jelentés alapú feldolgozásra. Ezt a fordulatot a szerzők – Hugo Cui és kollégái – fázisátmenetként írják le, hasonlóan ahhoz, ahogy a víz például hirtelen forráspontjára érve gázzá alakul. A tanulmány matematikai szempontból elemzi ezt az átmenetet, és kimutatja, hogy az önfigyelő rétegek működésében ez a váltás pontosan lokalizálható.
A jelenség megértéséhez a szerzők egy leegyszerűsített modellt használtak, amelyben a mondatok véletlenszerűen generált, független szavakból álltak, és a tanulást egyetlen figyelmi rétegre korlátozták. Ez lehetővé tette, hogy nagy pontosságú matematikai elemzést végezzenek, és zárt formájú kifejezéseket adjanak a modell tanulási hibáira. A vizsgálat során azt tapasztalták, hogy kis mennyiségű tanulóadat esetén a modell a szavak sorrendjét tekinti meghatározónak, azonban ahogy nő az adatmennyiség, egy éles határon túl kizárólag a szavak jelentése alapján tájékozódik. Ezzel a váltással a modell teljesítménye is javul, feltéve, hogy elegendő tanulási adat áll rendelkezésre.
Fontos azonban megjegyezni, hogy a vizsgált modell a valós rendszerekhez képest egyszerűsített. A kutatás célja nem az volt, hogy teljes körűen leírja a ChatGPT-hez hasonló modellek működését, hanem hogy egy elméleti alapot adjon a megfigyelt tanulási mintázatok értelmezéséhez. Az eredmények mégis értékesek: rámutatnak arra, hogy a mesterséges neurális hálózatok nemcsak adaptívan, hanem akár diszkrét módon is képesek stratégiát váltani a tanulás során. Ez a tudás hosszabb távon segíthet abban, hogy hatékonyabb és kiszámíthatóbb rendszerek szülessenek.
A tanulmány nemcsak az MI-kutatás elméleti oldalához járul hozzá, hanem kapcsolatot teremt a fizika és az adatfeldolgozás világa között is. A szerzők analógiát vonnak a részecskefizika és a neurális hálózatok között: mindkét területre jellemző, hogy az összetett viselkedések statisztikai szinten megragadhatók, és hogy az egyszerű elemek közötti kölcsönhatásokból új, kollektív viselkedésformák jelennek meg.
Összességében ez a kutatás egy fontos lépés a nyelvi modellek belső működésének elméleti megértésében. Nem kínál végső válaszokat, de értékes alapot nyújt annak feltérképezéséhez, hogyan és miért változtat stratégiát egy mesterséges intelligencia rendszer a tanulás során – és ez a tudás előbb-utóbb hatással lehet arra is, hogyan fejlesztjük, értelmezzük és szabályozzuk ezeket a technológiákat.