Egy új Apple kutatás feltárja a nagy méretű érvelési modellek alapvető korlátait

Az Apple gépi tanulási csapata által készített új tanulmány megkérdőjelezi a fejlett mesterséges intelligencia gondolkodási rendszerek képességeivel kapcsolatos általános feltételezéseket. A „The Illusion of Thinking” (A gondolkodás illúziója) című tanulmányban közzétett kutatás feltárja a legkorszerűbb nagy gondolkodási modellek (LRM-ek), mint például a Claude 3.7 Sonnet Thinking és a Gemini Thinking kritikus korlátait, és rámutat arra, hogy ezek a modellek az alapvető komplexitási szinteken túlmutató szisztematikus problémamegoldással küszködnek.

A csapat testreszabható puzzle-környezeteket, például a Hanoi-torony, a Checkers Jumping és a River Crossing problémákat használva értékelte a legmodernebb LRM-eket. Ezek a beállítások lehetővé tették a feladat nehézségének pontos szabályozását, és szigorú logikai szabályok betartását igényelték, ahelyett, hogy mintázatfelismerésre támaszkodtak volna. A tanulmány három központi korlátot tárt fel. Először is, az összes tesztelt modell teljesen kudarcot vallott, amikor a puzzle komplexitása meghaladta a 15–20 lépést. A rendelkezésre álló számítási erőforrásoktól függetlenül a teljesítmény a magasabb nehézségi szinteken nulla százalékos pontosságra esett vissza, ami alapvető korlátot jelez a többlépcsős logika kezelésében. Másodszor, a modellek azt mutatták, amit a kutatók „túlgondolkodási paradoxonnak” neveztek. Ahogy a problémák egyre nehezebbé váltak, a modellek által generált megoldások egyre bőbeszédűbbek, de kevésbé hatékonyak lettek. Közepes komplexitási szinteken az LRM-ek két-háromszor több számítási erőforrást fogyasztottak, mint a standard modellek, miközben csak szerény pontosságnövekedést értek el. Végül a modellek skálázási korlátokat mutattak. Annak ellenére, hogy elegendő számítási kapacitással rendelkeztek, bizonyos komplexitási küszöbértékek felett csökkentették a következtetés erejét, amit a feldolgozási tokenek száma alapján mértek. Ez a viselkedés arra utal, hogy ezeknek a rendszereknek a kognitív erőforrások elosztásában vannak belső

Ezen korlátok további vizsgálata érdekében a tanulmány egy új keretrendszert vezetett be, amely az LRM-eket a standard nyelvi modellekkel hasonlította össze azonos számítási feltételek mellett. Alacsony komplexitási szinteken a standard modellek mind a pontosság, mind a hatékonyság tekintetében felülmúlták az LRM-eket: 85%-os pontosságot értek el a standard modellek 78%-ával szemben, és megoldásonként csak 1200 token-t használtak, míg az LRM-ek 4500-at. Közepes komplexitás esetén az LRM-ek mérsékelt előnyt élveztek, a problémák 45%-át oldották meg, szemben a standard modellek 32%-ával. Magas komplexitás esetén azonban mindkét típusú modell pontossága szinte nullára esett vissza. Érdekes módon az LRM-ek ezeken a szinteken gyakran rövidebb és kevésbé koherens érvelési nyomokat hoztak létre, mint egyszerűbb problémák megoldása esetén.

Ez jelentős következményekkel jár az AI fejlesztésére nézve. A tanulmány kimutatta, hogy a modelleknek nehézséget okozott az ismert algoritmusok, például a szélességi keresés megbízható megvalósítása, még akkor is, ha erre kifejezetten felkérték őket. Érvelésük gyakran inkonzisztens volt, megoldásaik gyakran megsértették az alapvető puzzle-szabályokat a folyamat közepén, ami a logikai korlátok gyenge megértésére utal. Továbbá, bár az LRM-ek bizonyos mértékben képesek voltak hibákat észlelni, gyakran ismétlődő korrekciós ciklusokba kerültek, ahelyett, hogy új stratégiákat dolgoztak volna ki a problémák megoldására.

Az Apple kutatói óvatosságra intenek a jelenlegi benchmarking eredmények értelmezésében. Állításuk szerint az, ami az LRM-ekben érvelésnek tűnik, pontosabban korlátozott mintázat-kiegészítésnek nevezhető, ami rutinproblémák esetén hatékony lehet, de új kihívásokkal szembesülve gyengének bizonyul. Hangsúlyozzák, hogy a valódi érvelés magában foglalja a megoldási stratégiáknak a probléma komplexitásához való alkalmazkodási képességét – amit a jelenlegi modellek még nem mutattak ki.

A tanulmány aláhúzza, hogy új értékelési paradigmákra van szükség, amelyek túlmutatnak a végső válasz pontosságának mérésén, és magában foglalják a gondolkodási folyamat elemzését is. Mivel az AI-rendszerekre egyre inkább kritikus döntéshozatali feladatok hárulnak, ezeknek az alapvető korlátoknak a megértése elengedhetetlen a megbízható és átlátható technológiák fejlesztéséhez. 

Osszd meg ezt a cikket
Mesterséges intelligencia, űr és emberiség
Elon Musk, a SpaceX, Tesla, Neuralink és xAI alapítója és vezetője egy közelmúltbeli interjúban osztotta meg gondolatait a jövő lehetséges irányairól, különös tekintettel a mesterséges intelligenciára, az űrbe való terjeszkedésre és az emberiség fejlődésére.
 Valós idejű zene komponálás a Google Magenta RT modelljével
A mesterséges intelligencia alkalmazása a zene komponálásban nem új keletű törekvés, ám a valós idejű működés sokáig jelentős akadályokba ütközött. A Google Magenta csapata most olyan fejlesztést mutatott be, amely a műfaj technikai és kreatív lehetőségeit egyaránt kiszélesítheti. A Magenta RealTime (röviden: Magenta RT) névre keresztelt új modell valós időben generál zenét, miközben nyitott forráskódjának köszönhetően bárki számára hozzáférhető.
Ufficio Zero egy olasz Linux disztribúció a fenntartható digitális munkavégzésért
Az Ufficio Zero Linux OS egy kevéssé ismert, de egyre komolyabb figyelmet érdemlő olasz fejlesztésű operációs rendszer. Elsősorban irodai és hivatali munkakörnyezetek számára készült, és különösen azoknak lehet érdekes, akik stabil, megbízható és hosszú távon is használható alternatívát keresnek a kereskedelmi rendszerekkel szemben. Az Ufficio Zero sajátos helyet foglal el a nyílt forráskódú rendszerek világában: egyszerre kíván választ adni a digitális infrastruktúra elavulására, valamint a munkavégzéshez nélkülözhetetlen szoftvereszközök elérhetőségének problémáira.
Mit jelentene az Apple számára a Perplexity AI felvásárlása?
Az Apple régóta igyekszik megtalálni a helyét a generatív mesterséges intelligencia gyorsan alakuló piacán. A vállalat évtizedeken át stratégikusan kivárt, mielőtt jelentősebb erőforrásokat irányított volna mesterséges intelligencia-alapú fejlesztésekbe. Most azonban, a legfrissebb hírek szerint, a cupertinói cég egy minden eddiginél nagyobb szabású lépésre készülhet: belső körökben megindultak az egyeztetések a Perplexity AI nevű startup esetleges felvásárlásáról.
Így torzít az LLM
A mesterséges intelligencia (MI) fejlődésével párhuzamosan egyre több figyelem irányul az úgynevezett nagy nyelvi modellekre (LLM-ekre), amelyek már nemcsak a tudományos kutatásban, hanem a mindennapi élet számos területén is jelen vannak – például ügyvédi munkában, egészségügyi adatok elemzésében vagy számítógépes programok kódolásában. E modellek működésének megértése ugyanakkor továbbra is komoly kihívást jelent, különösen akkor, amikor azok látszólag megmagyarázhatatlan módon követnek el hibákat vagy adnak félrevezető válaszokat.
MiniMax-M1 AI modell, célkeresztben a nagy méretű szövegek kezelése
A mesterséges intelligencia rendszerek fejlődésével egyre nagyobb az igény olyan modellekre, amelyek nemcsak a nyelv értelmezésére képesek, hanem összetett, többlépcsős gondolkodási folyamatokat is képesek végigvinni. Az ilyen modellek kulcsfontosságúak lehetnek nemcsak elméleti feladatokban, hanem például szoftverfejlesztés vagy valós idejű döntéshozatal során is. Ezek az alkalmazások azonban különösen érzékenyek a számítási költségekre, amelyeket a hagyományos megközelítések gyakran nehezen tudnak kordában tartani.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések