Egy új Apple kutatás feltárja a nagy méretű érvelési modellek alapvető korlátait

Az Apple gépi tanulási csapata által készített új tanulmány megkérdőjelezi a fejlett mesterséges intelligencia gondolkodási rendszerek képességeivel kapcsolatos általános feltételezéseket. A „The Illusion of Thinking” (A gondolkodás illúziója) című tanulmányban közzétett kutatás feltárja a legkorszerűbb nagy gondolkodási modellek (LRM-ek), mint például a Claude 3.7 Sonnet Thinking és a Gemini Thinking kritikus korlátait, és rámutat arra, hogy ezek a modellek az alapvető komplexitási szinteken túlmutató szisztematikus problémamegoldással küszködnek.

A csapat testreszabható puzzle-környezeteket, például a Hanoi-torony, a Checkers Jumping és a River Crossing problémákat használva értékelte a legmodernebb LRM-eket. Ezek a beállítások lehetővé tették a feladat nehézségének pontos szabályozását, és szigorú logikai szabályok betartását igényelték, ahelyett, hogy mintázatfelismerésre támaszkodtak volna. A tanulmány három központi korlátot tárt fel. Először is, az összes tesztelt modell teljesen kudarcot vallott, amikor a puzzle komplexitása meghaladta a 15–20 lépést. A rendelkezésre álló számítási erőforrásoktól függetlenül a teljesítmény a magasabb nehézségi szinteken nulla százalékos pontosságra esett vissza, ami alapvető korlátot jelez a többlépcsős logika kezelésében. Másodszor, a modellek azt mutatták, amit a kutatók „túlgondolkodási paradoxonnak” neveztek. Ahogy a problémák egyre nehezebbé váltak, a modellek által generált megoldások egyre bőbeszédűbbek, de kevésbé hatékonyak lettek. Közepes komplexitási szinteken az LRM-ek két-háromszor több számítási erőforrást fogyasztottak, mint a standard modellek, miközben csak szerény pontosságnövekedést értek el. Végül a modellek skálázási korlátokat mutattak. Annak ellenére, hogy elegendő számítási kapacitással rendelkeztek, bizonyos komplexitási küszöbértékek felett csökkentették a következtetés erejét, amit a feldolgozási tokenek száma alapján mértek. Ez a viselkedés arra utal, hogy ezeknek a rendszereknek a kognitív erőforrások elosztásában vannak belső

Ezen korlátok további vizsgálata érdekében a tanulmány egy új keretrendszert vezetett be, amely az LRM-eket a standard nyelvi modellekkel hasonlította össze azonos számítási feltételek mellett. Alacsony komplexitási szinteken a standard modellek mind a pontosság, mind a hatékonyság tekintetében felülmúlták az LRM-eket: 85%-os pontosságot értek el a standard modellek 78%-ával szemben, és megoldásonként csak 1200 token-t használtak, míg az LRM-ek 4500-at. Közepes komplexitás esetén az LRM-ek mérsékelt előnyt élveztek, a problémák 45%-át oldották meg, szemben a standard modellek 32%-ával. Magas komplexitás esetén azonban mindkét típusú modell pontossága szinte nullára esett vissza. Érdekes módon az LRM-ek ezeken a szinteken gyakran rövidebb és kevésbé koherens érvelési nyomokat hoztak létre, mint egyszerűbb problémák megoldása esetén.

Ez jelentős következményekkel jár az AI fejlesztésére nézve. A tanulmány kimutatta, hogy a modelleknek nehézséget okozott az ismert algoritmusok, például a szélességi keresés megbízható megvalósítása, még akkor is, ha erre kifejezetten felkérték őket. Érvelésük gyakran inkonzisztens volt, megoldásaik gyakran megsértették az alapvető puzzle-szabályokat a folyamat közepén, ami a logikai korlátok gyenge megértésére utal. Továbbá, bár az LRM-ek bizonyos mértékben képesek voltak hibákat észlelni, gyakran ismétlődő korrekciós ciklusokba kerültek, ahelyett, hogy új stratégiákat dolgoztak volna ki a problémák megoldására.

Az Apple kutatói óvatosságra intenek a jelenlegi benchmarking eredmények értelmezésében. Állításuk szerint az, ami az LRM-ekben érvelésnek tűnik, pontosabban korlátozott mintázat-kiegészítésnek nevezhető, ami rutinproblémák esetén hatékony lehet, de új kihívásokkal szembesülve gyengének bizonyul. Hangsúlyozzák, hogy a valódi érvelés magában foglalja a megoldási stratégiáknak a probléma komplexitásához való alkalmazkodási képességét – amit a jelenlegi modellek még nem mutattak ki.

A tanulmány aláhúzza, hogy új értékelési paradigmákra van szükség, amelyek túlmutatnak a végső válasz pontosságának mérésén, és magában foglalják a gondolkodási folyamat elemzését is. Mivel az AI-rendszerekre egyre inkább kritikus döntéshozatali feladatok hárulnak, ezeknek az alapvető korlátoknak a megértése elengedhetetlen a megbízható és átlátható technológiák fejlesztéséhez. 

Osszd meg ezt a cikket
Gödel gép az MI, amely saját magát fejleszti
Képzeljük el, hogy egy számítógépes program képes önállóan, emberi beavatkozás nélkül módosítani a saját kódját, hogy még jobbá, okosabbá váljon! Ez a futurisztikusnak hangzó koncepció, a "Gödel gép".
Fejlettebb R1 modellel igyekszik sarokba szorítania DeepSeek az OpenAI o3 modelljét
A DeepSeek R1-0528, a kínai DeepSeek cég legújabb fejlesztése, jelentős előrelépést képvisel a mesterséges intelligencia modell érvelési képességeiben. Az új modell a januári DeepSeek R1-re épül, annak továbbfejlesztett változata. A cég állítása szerint a DeepSeek R1-0528 teljesítménye már vetekszik az OpenAI o3-as modelljével és megközelíti a Google Gemini 2.5 Pro képességeit.
Megérkezett a Rocky Linux 10
Az egyik legfontosabb változás, amely a Rocky Linux 10-ben kiemelt figyelmet érdemel, az architektúra-támogatás finomhangolása. Az x86-64-v2 architektúrák támogatása megszűnt, helyüket az AMD és Intel 64 bites x86-64-v3 architektúrák veszik át. Ez a lépés összhangban van a modern hardverek fejlődésével és biztosítja a rendszer optimális teljesítményét. Fontos megjegyezni, hogy a 32 bites csomagok teljes egészében eltávolításra kerültek, így a 32 bites alkalmazások futtatásához 64 bites könyvtárakra vagy 32 bites függőségekkel rendelkező konténerekre lesz szükség.
Japán digitális valuta táplálná adatokkal az AI modelleket
Japán a digitális jen bevezetésén gondolkodik, ami egy olyan digitális valuta lenne, amelyet a betétekhez hasonlóan, az egyéni felhasználókhoz kötve lehetne használni. Ennek bevezetése számos előnnyel járna, különösen az adatok felhasználása terén.