Thinkless, küzdelem az MI növekvő erőforrásigénye ellen

Amíg a nagy cégek sorra jelentették be az érvelési funkciókat a modelljeikben az elmúlt hónapokban, hamar kiderült ezen rendszerek hatalmas erőforrás igénye, így az ilyen szolgáltatásokra való előfizetések árai is az egekbe kúsztak. A Szingapúri Nemzeti Egyetem (NUS) kutatói egy új keretrendszert fejlesztettek ki „Thinkless” néven, amely akár jelentősen átalakíthatja a nagy nyelvi modellek (LLM) érvelési feladatainak megközelítését. Ez az innovatív megközelítés, amelyet Gongfan Fang, Xinyin Ma és Xinchao Wang fejlesztett ki a NUS xML Labban, lehetővé teszi az AI-rendszerek számára, hogy dinamikusan válasszanak az egyszerű és az összetett érvelési stratégiák között, ami akár 90%-kal is csökkentheti a számítási költségeket. A keretrendszer a jelenlegi mesterséges intelligencia érvelési módszerek kritikus hatékonysági hiányosságát orvosolja, és fontos előrelépést jelent az erőforrás-hatékonyabb mesterséges intelligencia megvalósításában.

A nagyméretű nyelvi modellek lenyűgöző érvelési képességekről tettek tanúbizonyságot az olyan technikák révén, mint a chain-of-thought (CoT), amely lépésről lépésre történő logikus gondolkodást tesz lehetővé. Fontos azonban megjegyezni, hogy bár a CoT javítja a teljesítményt a többlépcsős gondolkodást igénylő összetett feladatokban, ugyanakkor jelentős számítási költségekkel jár. A folyamat során generált kiterjedt érvelési tokenek növelik a késleltetést, a memóriahasználatot és az általános számítási igényt.

A kutatók által azonosított alapvető probléma az, hogy nem minden probléma igényel bonyolult érvelést. Sok lekérdezés közvetlenül megválaszolható egyszerű válaszokkal, a jelenlegi modellek azonban gyakran ugyanazt a kiterjedt érvelési folyamatot alkalmazzák a feladat összetettségétől függetlenül.

Ez az egyméretű megközelítés jelentős számítási pazarlást eredményez, különösen akkor, ha a problémák egyszerű megoldásokkal rendelkeznek. Ha például egy mesterséges intelligenciát arra kérünk, hogy oldjon meg egy olyan egyszerű összeadási feladatot, mint a „2+2”, ugyanolyan erőforrás-igényes érvelési folyamatot indítunk el, mint egy összetett matematikai bizonyítás esetén.

Ez a nem hatékony működés különösen problémás ha nagyobb méretarányokban gondolkodunk, tehát például amikor az LLM-ek naponta több millió lekérdezést dolgoznak fel, akkor minden egyes felesleges következtetési lépés megsokszorozza az energiafogyasztást, a költségeket és a környezeti hatásokat. A Szingapúri Nemzeti Egyetem kutatói felfigyeltek erre a kihívásra, és a Thinkless-t javasolták megoldásként a hatékonyság javítására.

A Thinkless keretrendszer lehetővé teszi az LLM számára, hogy adaptívan válasszon a rövid és hosszú formájú érvelés között a feladat összetettsége és a modell képességei alapján. A rendszer két vezérlő tokent használ: „<short>” a tömör válaszokhoz és „<think>” a részletes érveléshez.

Ez a bináris megközelítés lehetővé teszi a modell számára, hogy dinamikusan meghatározza a megfelelő érvelési mélységet minden egyes lekérdezéshez.

A Thinkless módszer középpontjában az újszerű Decoupled Group Relative Policy Optimization (DeGRPO) algoritmus áll, amely jelentős előrelépést jelent a hagyományos megerősített tanulási megközelítésekhez képest. A DeGRPO a tanulási célt két alapvető összetevőre bontja szét:

  • Vezérlőtoken veszteség - Ez szabályozza az érvelési mód kiválasztását, segítve a modellt abban, hogy megtanulja, mikor alkalmazzon kiterjedt érvelést, és mikor adjon közvetlen válaszokat.

  • Válaszveszteség - Ez javítja a generált válaszok pontosságát, biztosítva, hogy a modell magas teljesítményt tartson fenn, függetlenül attól, hogy melyik érvelési módot választja.

Ez a szétválasztott megfogalmazás lehetővé teszi az egyes célkitűzések finomra szabott ellenőrzését, és stabilizálja a modell betanítását.

A modell betanítása megerősített tanulási paradigma szerint történik, amely lehetővé teszi, hogy tapasztalatból megtanulja, hogy mely problématípusok esetében hasznos a részletes érvelés, és melyek azok, amelyek minimális számítási erőforrásokkal hatékonyan megoldhatók.

A kutatócsoport több modellváltozatot fejlesztett ki, köztük egy 1,5B paraméteres megerősítő tanulásos modellt „Thinkless-1.5B-RL-DeepScaleR” és egy bemelegítő modellt „Thinkless-1.5B-Warmup” néven.

A NUS kutatói a Thinkless-t több benchmarkon is értékelték, köztük a Minerva Algebra, a MATH-500 és a GSM8K teszteken. Az eredmények figyelemre méltóak voltak: a keretrendszer 50-90%-kal csökkentette a hosszú láncú gondolkodás használatát, jelentősen javítva a következtető nyelvi modellek számítási hatékonyságát.

Ez a hatékonyságnövekedés a pontosság feláldozása nélkül valósul meg - ami kritikus eredmény, mivel a következtetési komplexitás csökkentésére tett korábbi kísérletek gyakran teljesítményromlással jártak. A DeGRPO algoritmus szétválasztott jellege lehetővé teszi a Thinkless számára a nagy teljesítmény fenntartását, miközben jelentősen csökkenti a számítási terheket.

A Thinkless keretrendszer nem az egyetlen olyan megközelítés, amely a mesterséges intelligencia érvelés számítási errőforrás igényét kezeli. Számos más módszert is kifejlesztettek hasonló kihívások kezelésére:

ThinkLess (képzés nélküli módszer)

Zavaró módon egy másik kutatócsoport Gengyang Li vezetésével egy hasonló hangzású megközelítést fejlesztett ki „ThinkLess” néven. Ez a módszer alapvetően abban különbözik a NUS Thinkless keretrendszerétől, hogy ez egy képzésmentes módszer.

Ahelyett, hogy a modellt képezné ki a következtetési módok kiválasztására, ez a megközelítés a kimenet minőségének megőrzése mellett korán befejezi a következtetés generálását. A kutatók felfedezték, hogy a válaszjelzők nem feltétlenül a korábbi érvelési lépésekre összpontosítanak, hanem elsősorban az érvelés megszüntető jelzőre figyelnek. A ThinkLess kihasználja ezt a felismerést azáltal, hogy a terminátor tokent korábban triggereli, hogy kihagyja a felesleges érvelést, miközben megőrzi a tudásátadást.

Early-Stopping Self-Consistency (ESC)

A Yiwei Li és munkatársai által javasolt ESC egy skálázható mintavételi eljárás, amelynek célja az önkonzisztencia (SC) költségeinek csökkentése a többlépéses érvelésben. Az önkonzisztencia jellemzően többszörös mintavételt igényel egy előre meghatározott méretben, ami növeli a számítási költségeket. Az ESC dinamikusan állítja be ezt a folyamatot, és jelentős mértékben (33,8%-tól 84,2%-ig) csökkenti a mintavételi műveletek átlagos számát a különböző következtetési benchmarkok esetében, miközben hasonló teljesítményt biztosít.

Dinamikus gondolatmenet (D-CoT)

Ez a keretrendszer adaptív érvelési időt és lépéseket valósít meg a számítási redundancia és a késleltetett jutalomkiosztás csökkentése érdekében a hosszú CoT érvelés során. A D-CoT állapottömörítési mechanizmust alkalmaz adaptív következtetési lépésekkel, és bevezet egy fontosságvezérelt metszési stratégiát az automatikus regresszív dekódolás során. Részleges jutalombecslőt tartalmaz a következtetési blokkok hatékonyságának azonnali értékelésére, és többszintű következtetési struktúrát épít fel makro-összefoglaló és mikrorészlet-pufferek segítségével.

Mivel a mesterséges intelligencia karbonlábnyomával kapcsolatos aggályok egyre nőnek, ezek a megközelítések, fontos lépést jelentenek a környezetileg fenntarthatóbb mesterséges intelligencia rendszerek felé. A hatékonyabb érvelés ugyanakkor egy másik fontos szempontból is releváns, mivel lehetőséget teremt a kifinomult mesterséges intelligencia képességek korlátozott számítási erőforrásokkal rendelkező eszközökön történő futtatására. 

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Brutális negyedév az Apple-nél, de mi lesz az iPhone után?
Az Apple a globális gazdasági és kereskedelmi kihívások közepette ismét bizonyította rendkívüli piaci erejét, felülmúlva az elemzői várakozásokat a 2025-ös pénzügyi év harmadik negyedévében. A cupertinói óriás nem csupán rekordbevételt könyvelt el a júniussal zárult időszakban, de egy történelmi mérföldkövet is elért: leszállította a hárommilliárdodik iPhone-t. Ez az eredmény egy olyan korszakban született, amikor a vállalatot egyszerre sújtják a büntetővámok költségei és a mesterséges intelligencia területén tapasztalható, egyre élesedő verseny és számos kudarc amit a vállalat kénytelen volt elszenvedni.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.