Thinkless, küzdelem az MI növekvő erőforrásigénye ellen

Amíg a nagy cégek sorra jelentették be az érvelési funkciókat a modelljeikben az elmúlt hónapokban, hamar kiderült ezen rendszerek hatalmas erőforrás igénye, így az ilyen szolgáltatásokra való előfizetések árai is az egekbe kúsztak. A Szingapúri Nemzeti Egyetem (NUS) kutatói egy új keretrendszert fejlesztettek ki „Thinkless” néven, amely akár jelentősen átalakíthatja a nagy nyelvi modellek (LLM) érvelési feladatainak megközelítését. Ez az innovatív megközelítés, amelyet Gongfan Fang, Xinyin Ma és Xinchao Wang fejlesztett ki a NUS xML Labban, lehetővé teszi az AI-rendszerek számára, hogy dinamikusan válasszanak az egyszerű és az összetett érvelési stratégiák között, ami akár 90%-kal is csökkentheti a számítási költségeket. A keretrendszer a jelenlegi mesterséges intelligencia érvelési módszerek kritikus hatékonysági hiányosságát orvosolja, és fontos előrelépést jelent az erőforrás-hatékonyabb mesterséges intelligencia megvalósításában.

A nagyméretű nyelvi modellek lenyűgöző érvelési képességekről tettek tanúbizonyságot az olyan technikák révén, mint a chain-of-thought (CoT), amely lépésről lépésre történő logikus gondolkodást tesz lehetővé. Fontos azonban megjegyezni, hogy bár a CoT javítja a teljesítményt a többlépcsős gondolkodást igénylő összetett feladatokban, ugyanakkor jelentős számítási költségekkel jár. A folyamat során generált kiterjedt érvelési tokenek növelik a késleltetést, a memóriahasználatot és az általános számítási igényt.

A kutatók által azonosított alapvető probléma az, hogy nem minden probléma igényel bonyolult érvelést. Sok lekérdezés közvetlenül megválaszolható egyszerű válaszokkal, a jelenlegi modellek azonban gyakran ugyanazt a kiterjedt érvelési folyamatot alkalmazzák a feladat összetettségétől függetlenül.

Ez az egyméretű megközelítés jelentős számítási pazarlást eredményez, különösen akkor, ha a problémák egyszerű megoldásokkal rendelkeznek. Ha például egy mesterséges intelligenciát arra kérünk, hogy oldjon meg egy olyan egyszerű összeadási feladatot, mint a „2+2”, ugyanolyan erőforrás-igényes érvelési folyamatot indítunk el, mint egy összetett matematikai bizonyítás esetén.

Ez a nem hatékony működés különösen problémás ha nagyobb méretarányokban gondolkodunk, tehát például amikor az LLM-ek naponta több millió lekérdezést dolgoznak fel, akkor minden egyes felesleges következtetési lépés megsokszorozza az energiafogyasztást, a költségeket és a környezeti hatásokat. A Szingapúri Nemzeti Egyetem kutatói felfigyeltek erre a kihívásra, és a Thinkless-t javasolták megoldásként a hatékonyság javítására.

A Thinkless keretrendszer lehetővé teszi az LLM számára, hogy adaptívan válasszon a rövid és hosszú formájú érvelés között a feladat összetettsége és a modell képességei alapján. A rendszer két vezérlő tokent használ: „<short>” a tömör válaszokhoz és „<think>” a részletes érveléshez.

Ez a bináris megközelítés lehetővé teszi a modell számára, hogy dinamikusan meghatározza a megfelelő érvelési mélységet minden egyes lekérdezéshez.

A Thinkless módszer középpontjában az újszerű Decoupled Group Relative Policy Optimization (DeGRPO) algoritmus áll, amely jelentős előrelépést jelent a hagyományos megerősített tanulási megközelítésekhez képest. A DeGRPO a tanulási célt két alapvető összetevőre bontja szét:

  • Vezérlőtoken veszteség - Ez szabályozza az érvelési mód kiválasztását, segítve a modellt abban, hogy megtanulja, mikor alkalmazzon kiterjedt érvelést, és mikor adjon közvetlen válaszokat.

  • Válaszveszteség - Ez javítja a generált válaszok pontosságát, biztosítva, hogy a modell magas teljesítményt tartson fenn, függetlenül attól, hogy melyik érvelési módot választja.

Ez a szétválasztott megfogalmazás lehetővé teszi az egyes célkitűzések finomra szabott ellenőrzését, és stabilizálja a modell betanítását.

A modell betanítása megerősített tanulási paradigma szerint történik, amely lehetővé teszi, hogy tapasztalatból megtanulja, hogy mely problématípusok esetében hasznos a részletes érvelés, és melyek azok, amelyek minimális számítási erőforrásokkal hatékonyan megoldhatók.

A kutatócsoport több modellváltozatot fejlesztett ki, köztük egy 1,5B paraméteres megerősítő tanulásos modellt „Thinkless-1.5B-RL-DeepScaleR” és egy bemelegítő modellt „Thinkless-1.5B-Warmup” néven.

A NUS kutatói a Thinkless-t több benchmarkon is értékelték, köztük a Minerva Algebra, a MATH-500 és a GSM8K teszteken. Az eredmények figyelemre méltóak voltak: a keretrendszer 50-90%-kal csökkentette a hosszú láncú gondolkodás használatát, jelentősen javítva a következtető nyelvi modellek számítási hatékonyságát.

Ez a hatékonyságnövekedés a pontosság feláldozása nélkül valósul meg - ami kritikus eredmény, mivel a következtetési komplexitás csökkentésére tett korábbi kísérletek gyakran teljesítményromlással jártak. A DeGRPO algoritmus szétválasztott jellege lehetővé teszi a Thinkless számára a nagy teljesítmény fenntartását, miközben jelentősen csökkenti a számítási terheket.

A Thinkless keretrendszer nem az egyetlen olyan megközelítés, amely a mesterséges intelligencia érvelés számítási errőforrás igényét kezeli. Számos más módszert is kifejlesztettek hasonló kihívások kezelésére:

ThinkLess (képzés nélküli módszer)

Zavaró módon egy másik kutatócsoport Gengyang Li vezetésével egy hasonló hangzású megközelítést fejlesztett ki „ThinkLess” néven. Ez a módszer alapvetően abban különbözik a NUS Thinkless keretrendszerétől, hogy ez egy képzésmentes módszer.

Ahelyett, hogy a modellt képezné ki a következtetési módok kiválasztására, ez a megközelítés a kimenet minőségének megőrzése mellett korán befejezi a következtetés generálását. A kutatók felfedezték, hogy a válaszjelzők nem feltétlenül a korábbi érvelési lépésekre összpontosítanak, hanem elsősorban az érvelés megszüntető jelzőre figyelnek. A ThinkLess kihasználja ezt a felismerést azáltal, hogy a terminátor tokent korábban triggereli, hogy kihagyja a felesleges érvelést, miközben megőrzi a tudásátadást.

Early-Stopping Self-Consistency (ESC)

A Yiwei Li és munkatársai által javasolt ESC egy skálázható mintavételi eljárás, amelynek célja az önkonzisztencia (SC) költségeinek csökkentése a többlépéses érvelésben. Az önkonzisztencia jellemzően többszörös mintavételt igényel egy előre meghatározott méretben, ami növeli a számítási költségeket. Az ESC dinamikusan állítja be ezt a folyamatot, és jelentős mértékben (33,8%-tól 84,2%-ig) csökkenti a mintavételi műveletek átlagos számát a különböző következtetési benchmarkok esetében, miközben hasonló teljesítményt biztosít.

Dinamikus gondolatmenet (D-CoT)

Ez a keretrendszer adaptív érvelési időt és lépéseket valósít meg a számítási redundancia és a késleltetett jutalomkiosztás csökkentése érdekében a hosszú CoT érvelés során. A D-CoT állapottömörítési mechanizmust alkalmaz adaptív következtetési lépésekkel, és bevezet egy fontosságvezérelt metszési stratégiát az automatikus regresszív dekódolás során. Részleges jutalombecslőt tartalmaz a következtetési blokkok hatékonyságának azonnali értékelésére, és többszintű következtetési struktúrát épít fel makro-összefoglaló és mikrorészlet-pufferek segítségével.

Mivel a mesterséges intelligencia karbonlábnyomával kapcsolatos aggályok egyre nőnek, ezek a megközelítések, fontos lépést jelentenek a környezetileg fenntarthatóbb mesterséges intelligencia rendszerek felé. A hatékonyabb érvelés ugyanakkor egy másik fontos szempontból is releváns, mivel lehetőséget teremt a kifinomult mesterséges intelligencia képességek korlátozott számítási erőforrásokkal rendelkező eszközökön történő futtatására. 

Osszd meg ezt a cikket
Az EU Open Web Index projektje újabb lépés a digitális függetlenség felé
Az Open Web Index (OWI) az Európai Unió Horizont programjának keretében megvalósuló, nyílt forráskódú kezdeményezés, amelynek célja a webes keresési technológiák demokratizálása és az Európa digitális szuverenitásának erősítése. A projekt 2025 júniusában lép nyilvánosság elé, amikor is egy közös, mindenki számára hozzáférhető webindexet bocsát rendelkezésre, elválasztva az indexelési infrastruktúrát az azt hasznosító keresőszolgáltatásoktól. Ezzel az OWI nem csupán technikai újításokat kínál, hanem paradigmaváltást is a globális keresőpiacon, ahol ma több mint kilencven százalékos részesedésével egyetlen szereplő – a Google – határozza meg az online információhoz való hozzáférést.
Fejlettebb védelemmel jelenik meg az Android 16
Az Android 16 új kiadása az eddigi legátfogóbb eszközszintű védelmet kínálja a platform hárommilliárd felhasználója számára, középpontba helyezve a magas kockázatú személyek védelmét, ugyanakkor minden biztonságtudatos felhasználó számára jelentős előrelépést jelent. A rendszer legfontosabb eleme a továbbfejlesztett Speciális védelmi program, amely korábbi, fiókszintű beállítások helyett immár teljes körű, eszközszintű védelmi mechanizmusokat aktivál. Így az újságírók, közéleti személyiségek és más, kifinomult kiberfenyegetéseknek kitett felhasználók is egyetlen kapcsoló érintésével juthatnak hozzá a platform legerősebb biztonsági funkcióihoz.
GitHub-integrációval erősít a Gemini Advanced
A mesterséges intelligencia alapú fejlesztői eszközök terén nincs hiány újabb és újabb fejlesztésekben. A Google ezzel kapcsolatban most bejelentette, hogy közvetlen GitHub-integrációval bővíti Gemini Advanced nevű prémium AI-asszisztensét. A lépés nem csupán válasz a rivális OpenAI hasonló fejlesztéseire, hanem egyben komoly előrelépés is a fejlesztői munkafolyamatok hatékonyságának növelésében.
Súlyos fenyegetést jelentenek a hamis AI videó generáló platformok
Kiberbiztonsági kutatók egy kifinomult új rosszindulatú támadási módszert fedeztek fel, amely a mesterséges intelligencia eszközök felhasználóit veszi célba. A Noodlophile Stealer névre keresztelt, korábban nem dokumentált rosszindulatú szoftvereket hamis AI-videógeneráló platformokon keresztül terjesztik, amelyeket Facebook-csoportokon és más közösségi média platformokon keresztül népszerűsítenek. A támadás kihasználja az AI-alapú tartalomkészítő eszközök iránti növekvő lelkesedést, és fejlett videoszerkesztési képességek ígéretével csalogatja az áldozatokat, hogy aztán rosszindulatú szoftvereket telepítsen. A támadás többlépcsős hiszen a social engineeringet összetett technikai megoldásokkal kombinálja, hogy végül egy trójai programon keresztül érzékeny információkat, köztük a böngésző hitelesítő adatokat és kriptopénz tárca adatokat lopjanak el.