Egy új Apple kutatás feltárja a nagy méretű érvelési modellek alapvető korlátait

Az Apple gépi tanulási csapata által készített új tanulmány megkérdőjelezi a fejlett mesterséges intelligencia gondolkodási rendszerek képességeivel kapcsolatos általános feltételezéseket. A „The Illusion of Thinking” (A gondolkodás illúziója) című tanulmányban közzétett kutatás feltárja a legkorszerűbb nagy gondolkodási modellek (LRM-ek), mint például a Claude 3.7 Sonnet Thinking és a Gemini Thinking kritikus korlátait, és rámutat arra, hogy ezek a modellek az alapvető komplexitási szinteken túlmutató szisztematikus problémamegoldással küszködnek.

A csapat testreszabható puzzle-környezeteket, például a Hanoi-torony, a Checkers Jumping és a River Crossing problémákat használva értékelte a legmodernebb LRM-eket. Ezek a beállítások lehetővé tették a feladat nehézségének pontos szabályozását, és szigorú logikai szabályok betartását igényelték, ahelyett, hogy mintázatfelismerésre támaszkodtak volna. A tanulmány három központi korlátot tárt fel. Először is, az összes tesztelt modell teljesen kudarcot vallott, amikor a puzzle komplexitása meghaladta a 15–20 lépést. A rendelkezésre álló számítási erőforrásoktól függetlenül a teljesítmény a magasabb nehézségi szinteken nulla százalékos pontosságra esett vissza, ami alapvető korlátot jelez a többlépcsős logika kezelésében. Másodszor, a modellek azt mutatták, amit a kutatók „túlgondolkodási paradoxonnak” neveztek. Ahogy a problémák egyre nehezebbé váltak, a modellek által generált megoldások egyre bőbeszédűbbek, de kevésbé hatékonyak lettek. Közepes komplexitási szinteken az LRM-ek két-háromszor több számítási erőforrást fogyasztottak, mint a standard modellek, miközben csak szerény pontosságnövekedést értek el. Végül a modellek skálázási korlátokat mutattak. Annak ellenére, hogy elegendő számítási kapacitással rendelkeztek, bizonyos komplexitási küszöbértékek felett csökkentették a következtetés erejét, amit a feldolgozási tokenek száma alapján mértek. Ez a viselkedés arra utal, hogy ezeknek a rendszereknek a kognitív erőforrások elosztásában vannak belső

Ezen korlátok további vizsgálata érdekében a tanulmány egy új keretrendszert vezetett be, amely az LRM-eket a standard nyelvi modellekkel hasonlította össze azonos számítási feltételek mellett. Alacsony komplexitási szinteken a standard modellek mind a pontosság, mind a hatékonyság tekintetében felülmúlták az LRM-eket: 85%-os pontosságot értek el a standard modellek 78%-ával szemben, és megoldásonként csak 1200 token-t használtak, míg az LRM-ek 4500-at. Közepes komplexitás esetén az LRM-ek mérsékelt előnyt élveztek, a problémák 45%-át oldották meg, szemben a standard modellek 32%-ával. Magas komplexitás esetén azonban mindkét típusú modell pontossága szinte nullára esett vissza. Érdekes módon az LRM-ek ezeken a szinteken gyakran rövidebb és kevésbé koherens érvelési nyomokat hoztak létre, mint egyszerűbb problémák megoldása esetén.

Ez jelentős következményekkel jár az AI fejlesztésére nézve. A tanulmány kimutatta, hogy a modelleknek nehézséget okozott az ismert algoritmusok, például a szélességi keresés megbízható megvalósítása, még akkor is, ha erre kifejezetten felkérték őket. Érvelésük gyakran inkonzisztens volt, megoldásaik gyakran megsértették az alapvető puzzle-szabályokat a folyamat közepén, ami a logikai korlátok gyenge megértésére utal. Továbbá, bár az LRM-ek bizonyos mértékben képesek voltak hibákat észlelni, gyakran ismétlődő korrekciós ciklusokba kerültek, ahelyett, hogy új stratégiákat dolgoztak volna ki a problémák megoldására.

Az Apple kutatói óvatosságra intenek a jelenlegi benchmarking eredmények értelmezésében. Állításuk szerint az, ami az LRM-ekben érvelésnek tűnik, pontosabban korlátozott mintázat-kiegészítésnek nevezhető, ami rutinproblémák esetén hatékony lehet, de új kihívásokkal szembesülve gyengének bizonyul. Hangsúlyozzák, hogy a valódi érvelés magában foglalja a megoldási stratégiáknak a probléma komplexitásához való alkalmazkodási képességét – amit a jelenlegi modellek még nem mutattak ki.

A tanulmány aláhúzza, hogy új értékelési paradigmákra van szükség, amelyek túlmutatnak a végső válasz pontosságának mérésén, és magában foglalják a gondolkodási folyamat elemzését is. Mivel az AI-rendszerekre egyre inkább kritikus döntéshozatali feladatok hárulnak, ezeknek az alapvető korlátoknak a megértése elengedhetetlen a megbízható és átlátható technológiák fejlesztéséhez. 

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Brutális negyedév az Apple-nél, de mi lesz az iPhone után?
Az Apple a globális gazdasági és kereskedelmi kihívások közepette ismét bizonyította rendkívüli piaci erejét, felülmúlva az elemzői várakozásokat a 2025-ös pénzügyi év harmadik negyedévében. A cupertinói óriás nem csupán rekordbevételt könyvelt el a júniussal zárult időszakban, de egy történelmi mérföldkövet is elért: leszállította a hárommilliárdodik iPhone-t. Ez az eredmény egy olyan korszakban született, amikor a vállalatot egyszerre sújtják a büntetővámok költségei és a mesterséges intelligencia területén tapasztalható, egyre élesedő verseny és számos kudarc amit a vállalat kénytelen volt elszenvedni.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.