Az Apple gépi tanulási csapata által készített új tanulmány megkérdőjelezi a fejlett mesterséges intelligencia gondolkodási rendszerek képességeivel kapcsolatos általános feltételezéseket. A „The Illusion of Thinking” (A gondolkodás illúziója) című tanulmányban közzétett kutatás feltárja a legkorszerűbb nagy gondolkodási modellek (LRM-ek), mint például a Claude 3.7 Sonnet Thinking és a Gemini Thinking kritikus korlátait, és rámutat arra, hogy ezek a modellek az alapvető komplexitási szinteken túlmutató szisztematikus problémamegoldással küszködnek.
A csapat testreszabható puzzle-környezeteket, például a Hanoi-torony, a Checkers Jumping és a River Crossing problémákat használva értékelte a legmodernebb LRM-eket. Ezek a beállítások lehetővé tették a feladat nehézségének pontos szabályozását, és szigorú logikai szabályok betartását igényelték, ahelyett, hogy mintázatfelismerésre támaszkodtak volna. A tanulmány három központi korlátot tárt fel. Először is, az összes tesztelt modell teljesen kudarcot vallott, amikor a puzzle komplexitása meghaladta a 15–20 lépést. A rendelkezésre álló számítási erőforrásoktól függetlenül a teljesítmény a magasabb nehézségi szinteken nulla százalékos pontosságra esett vissza, ami alapvető korlátot jelez a többlépcsős logika kezelésében. Másodszor, a modellek azt mutatták, amit a kutatók „túlgondolkodási paradoxonnak” neveztek. Ahogy a problémák egyre nehezebbé váltak, a modellek által generált megoldások egyre bőbeszédűbbek, de kevésbé hatékonyak lettek. Közepes komplexitási szinteken az LRM-ek két-háromszor több számítási erőforrást fogyasztottak, mint a standard modellek, miközben csak szerény pontosságnövekedést értek el. Végül a modellek skálázási korlátokat mutattak. Annak ellenére, hogy elegendő számítási kapacitással rendelkeztek, bizonyos komplexitási küszöbértékek felett csökkentették a következtetés erejét, amit a feldolgozási tokenek száma alapján mértek. Ez a viselkedés arra utal, hogy ezeknek a rendszereknek a kognitív erőforrások elosztásában vannak belső
Ezen korlátok további vizsgálata érdekében a tanulmány egy új keretrendszert vezetett be, amely az LRM-eket a standard nyelvi modellekkel hasonlította össze azonos számítási feltételek mellett. Alacsony komplexitási szinteken a standard modellek mind a pontosság, mind a hatékonyság tekintetében felülmúlták az LRM-eket: 85%-os pontosságot értek el a standard modellek 78%-ával szemben, és megoldásonként csak 1200 token-t használtak, míg az LRM-ek 4500-at. Közepes komplexitás esetén az LRM-ek mérsékelt előnyt élveztek, a problémák 45%-át oldották meg, szemben a standard modellek 32%-ával. Magas komplexitás esetén azonban mindkét típusú modell pontossága szinte nullára esett vissza. Érdekes módon az LRM-ek ezeken a szinteken gyakran rövidebb és kevésbé koherens érvelési nyomokat hoztak létre, mint egyszerűbb problémák megoldása esetén.
Ez jelentős következményekkel jár az AI fejlesztésére nézve. A tanulmány kimutatta, hogy a modelleknek nehézséget okozott az ismert algoritmusok, például a szélességi keresés megbízható megvalósítása, még akkor is, ha erre kifejezetten felkérték őket. Érvelésük gyakran inkonzisztens volt, megoldásaik gyakran megsértették az alapvető puzzle-szabályokat a folyamat közepén, ami a logikai korlátok gyenge megértésére utal. Továbbá, bár az LRM-ek bizonyos mértékben képesek voltak hibákat észlelni, gyakran ismétlődő korrekciós ciklusokba kerültek, ahelyett, hogy új stratégiákat dolgoztak volna ki a problémák megoldására.
Az Apple kutatói óvatosságra intenek a jelenlegi benchmarking eredmények értelmezésében. Állításuk szerint az, ami az LRM-ekben érvelésnek tűnik, pontosabban korlátozott mintázat-kiegészítésnek nevezhető, ami rutinproblémák esetén hatékony lehet, de új kihívásokkal szembesülve gyengének bizonyul. Hangsúlyozzák, hogy a valódi érvelés magában foglalja a megoldási stratégiáknak a probléma komplexitásához való alkalmazkodási képességét – amit a jelenlegi modellek még nem mutattak ki.
A tanulmány aláhúzza, hogy új értékelési paradigmákra van szükség, amelyek túlmutatnak a végső válasz pontosságának mérésén, és magában foglalják a gondolkodási folyamat elemzését is. Mivel az AI-rendszerekre egyre inkább kritikus döntéshozatali feladatok hárulnak, ezeknek az alapvető korlátoknak a megértése elengedhetetlen a megbízható és átlátható technológiák fejlesztéséhez.