Amíg a nagy cégek sorra jelentették be az érvelési funkciókat a modelljeikben az elmúlt hónapokban, hamar kiderült ezen rendszerek hatalmas erőforrás igénye, így az ilyen szolgáltatásokra való előfizetések árai is az egekbe kúsztak. A Szingapúri Nemzeti Egyetem (NUS) kutatói egy új keretrendszert fejlesztettek ki „Thinkless” néven, amely akár jelentősen átalakíthatja a nagy nyelvi modellek (LLM) érvelési feladatainak megközelítését. Ez az innovatív megközelítés, amelyet Gongfan Fang, Xinyin Ma és Xinchao Wang fejlesztett ki a NUS xML Labban, lehetővé teszi az AI-rendszerek számára, hogy dinamikusan válasszanak az egyszerű és az összetett érvelési stratégiák között, ami akár 90%-kal is csökkentheti a számítási költségeket. A keretrendszer a jelenlegi mesterséges intelligencia érvelési módszerek kritikus hatékonysági hiányosságát orvosolja, és fontos előrelépést jelent az erőforrás-hatékonyabb mesterséges intelligencia megvalósításában.
A nagyméretű nyelvi modellek lenyűgöző érvelési képességekről tettek tanúbizonyságot az olyan technikák révén, mint a chain-of-thought (CoT), amely lépésről lépésre történő logikus gondolkodást tesz lehetővé. Fontos azonban megjegyezni, hogy bár a CoT javítja a teljesítményt a többlépcsős gondolkodást igénylő összetett feladatokban, ugyanakkor jelentős számítási költségekkel jár. A folyamat során generált kiterjedt érvelési tokenek növelik a késleltetést, a memóriahasználatot és az általános számítási igényt.
A kutatók által azonosított alapvető probléma az, hogy nem minden probléma igényel bonyolult érvelést. Sok lekérdezés közvetlenül megválaszolható egyszerű válaszokkal, a jelenlegi modellek azonban gyakran ugyanazt a kiterjedt érvelési folyamatot alkalmazzák a feladat összetettségétől függetlenül.
Ez az egyméretű megközelítés jelentős számítási pazarlást eredményez, különösen akkor, ha a problémák egyszerű megoldásokkal rendelkeznek. Ha például egy mesterséges intelligenciát arra kérünk, hogy oldjon meg egy olyan egyszerű összeadási feladatot, mint a „2+2”, ugyanolyan erőforrás-igényes érvelési folyamatot indítunk el, mint egy összetett matematikai bizonyítás esetén.
Ez a nem hatékony működés különösen problémás ha nagyobb méretarányokban gondolkodunk, tehát például amikor az LLM-ek naponta több millió lekérdezést dolgoznak fel, akkor minden egyes felesleges következtetési lépés megsokszorozza az energiafogyasztást, a költségeket és a környezeti hatásokat. A Szingapúri Nemzeti Egyetem kutatói felfigyeltek erre a kihívásra, és a Thinkless-t javasolták megoldásként a hatékonyság javítására.
A Thinkless keretrendszer lehetővé teszi az LLM számára, hogy adaptívan válasszon a rövid és hosszú formájú érvelés között a feladat összetettsége és a modell képességei alapján. A rendszer két vezérlő tokent használ: „<short>” a tömör válaszokhoz és „<think>” a részletes érveléshez.
Ez a bináris megközelítés lehetővé teszi a modell számára, hogy dinamikusan meghatározza a megfelelő érvelési mélységet minden egyes lekérdezéshez.
A Thinkless módszer középpontjában az újszerű Decoupled Group Relative Policy Optimization (DeGRPO) algoritmus áll, amely jelentős előrelépést jelent a hagyományos megerősített tanulási megközelítésekhez képest. A DeGRPO a tanulási célt két alapvető összetevőre bontja szét:
-
Vezérlőtoken veszteség - Ez szabályozza az érvelési mód kiválasztását, segítve a modellt abban, hogy megtanulja, mikor alkalmazzon kiterjedt érvelést, és mikor adjon közvetlen válaszokat.
-
Válaszveszteség - Ez javítja a generált válaszok pontosságát, biztosítva, hogy a modell magas teljesítményt tartson fenn, függetlenül attól, hogy melyik érvelési módot választja.
Ez a szétválasztott megfogalmazás lehetővé teszi az egyes célkitűzések finomra szabott ellenőrzését, és stabilizálja a modell betanítását.
A modell betanítása megerősített tanulási paradigma szerint történik, amely lehetővé teszi, hogy tapasztalatból megtanulja, hogy mely problématípusok esetében hasznos a részletes érvelés, és melyek azok, amelyek minimális számítási erőforrásokkal hatékonyan megoldhatók.
A kutatócsoport több modellváltozatot fejlesztett ki, köztük egy 1,5B paraméteres megerősítő tanulásos modellt „Thinkless-1.5B-RL-DeepScaleR” és egy bemelegítő modellt „Thinkless-1.5B-Warmup” néven.
A NUS kutatói a Thinkless-t több benchmarkon is értékelték, köztük a Minerva Algebra, a MATH-500 és a GSM8K teszteken. Az eredmények figyelemre méltóak voltak: a keretrendszer 50-90%-kal csökkentette a hosszú láncú gondolkodás használatát, jelentősen javítva a következtető nyelvi modellek számítási hatékonyságát.
Ez a hatékonyságnövekedés a pontosság feláldozása nélkül valósul meg - ami kritikus eredmény, mivel a következtetési komplexitás csökkentésére tett korábbi kísérletek gyakran teljesítményromlással jártak. A DeGRPO algoritmus szétválasztott jellege lehetővé teszi a Thinkless számára a nagy teljesítmény fenntartását, miközben jelentősen csökkenti a számítási terheket.
A Thinkless keretrendszer nem az egyetlen olyan megközelítés, amely a mesterséges intelligencia érvelés számítási errőforrás igényét kezeli. Számos más módszert is kifejlesztettek hasonló kihívások kezelésére:
ThinkLess (képzés nélküli módszer)
Zavaró módon egy másik kutatócsoport Gengyang Li vezetésével egy hasonló hangzású megközelítést fejlesztett ki „ThinkLess” néven. Ez a módszer alapvetően abban különbözik a NUS Thinkless keretrendszerétől, hogy ez egy képzésmentes módszer.
Ahelyett, hogy a modellt képezné ki a következtetési módok kiválasztására, ez a megközelítés a kimenet minőségének megőrzése mellett korán befejezi a következtetés generálását. A kutatók felfedezték, hogy a válaszjelzők nem feltétlenül a korábbi érvelési lépésekre összpontosítanak, hanem elsősorban az érvelés megszüntető jelzőre figyelnek. A ThinkLess kihasználja ezt a felismerést azáltal, hogy a terminátor tokent korábban triggereli, hogy kihagyja a felesleges érvelést, miközben megőrzi a tudásátadást.
Early-Stopping Self-Consistency (ESC)
A Yiwei Li és munkatársai által javasolt ESC egy skálázható mintavételi eljárás, amelynek célja az önkonzisztencia (SC) költségeinek csökkentése a többlépéses érvelésben. Az önkonzisztencia jellemzően többszörös mintavételt igényel egy előre meghatározott méretben, ami növeli a számítási költségeket. Az ESC dinamikusan állítja be ezt a folyamatot, és jelentős mértékben (33,8%-tól 84,2%-ig) csökkenti a mintavételi műveletek átlagos számát a különböző következtetési benchmarkok esetében, miközben hasonló teljesítményt biztosít.
Dinamikus gondolatmenet (D-CoT)
Ez a keretrendszer adaptív érvelési időt és lépéseket valósít meg a számítási redundancia és a késleltetett jutalomkiosztás csökkentése érdekében a hosszú CoT érvelés során. A D-CoT állapottömörítési mechanizmust alkalmaz adaptív következtetési lépésekkel, és bevezet egy fontosságvezérelt metszési stratégiát az automatikus regresszív dekódolás során. Részleges jutalombecslőt tartalmaz a következtetési blokkok hatékonyságának azonnali értékelésére, és többszintű következtetési struktúrát épít fel makro-összefoglaló és mikrorészlet-pufferek segítségével.
Mivel a mesterséges intelligencia karbonlábnyomával kapcsolatos aggályok egyre nőnek, ezek a megközelítések, fontos lépést jelentenek a környezetileg fenntarthatóbb mesterséges intelligencia rendszerek felé. A hatékonyabb érvelés ugyanakkor egy másik fontos szempontból is releváns, mivel lehetőséget teremt a kifinomult mesterséges intelligencia képességek korlátozott számítási erőforrásokkal rendelkező eszközökön történő futtatására.