Thinkless, küzdelem az MI növekvő erőforrásigénye ellen

Amíg a nagy cégek sorra jelentették be az érvelési funkciókat a modelljeikben az elmúlt hónapokban, hamar kiderült ezen rendszerek hatalmas erőforrás igénye, így az ilyen szolgáltatásokra való előfizetések árai is az egekbe kúsztak. A Szingapúri Nemzeti Egyetem (NUS) kutatói egy új keretrendszert fejlesztettek ki „Thinkless” néven, amely akár jelentősen átalakíthatja a nagy nyelvi modellek (LLM) érvelési feladatainak megközelítését. Ez az innovatív megközelítés, amelyet Gongfan Fang, Xinyin Ma és Xinchao Wang fejlesztett ki a NUS xML Labban, lehetővé teszi az AI-rendszerek számára, hogy dinamikusan válasszanak az egyszerű és az összetett érvelési stratégiák között, ami akár 90%-kal is csökkentheti a számítási költségeket. A keretrendszer a jelenlegi mesterséges intelligencia érvelési módszerek kritikus hatékonysági hiányosságát orvosolja, és fontos előrelépést jelent az erőforrás-hatékonyabb mesterséges intelligencia megvalósításában.

A nagyméretű nyelvi modellek lenyűgöző érvelési képességekről tettek tanúbizonyságot az olyan technikák révén, mint a chain-of-thought (CoT), amely lépésről lépésre történő logikus gondolkodást tesz lehetővé. Fontos azonban megjegyezni, hogy bár a CoT javítja a teljesítményt a többlépcsős gondolkodást igénylő összetett feladatokban, ugyanakkor jelentős számítási költségekkel jár. A folyamat során generált kiterjedt érvelési tokenek növelik a késleltetést, a memóriahasználatot és az általános számítási igényt.

A kutatók által azonosított alapvető probléma az, hogy nem minden probléma igényel bonyolult érvelést. Sok lekérdezés közvetlenül megválaszolható egyszerű válaszokkal, a jelenlegi modellek azonban gyakran ugyanazt a kiterjedt érvelési folyamatot alkalmazzák a feladat összetettségétől függetlenül.

Ez az egyméretű megközelítés jelentős számítási pazarlást eredményez, különösen akkor, ha a problémák egyszerű megoldásokkal rendelkeznek. Ha például egy mesterséges intelligenciát arra kérünk, hogy oldjon meg egy olyan egyszerű összeadási feladatot, mint a „2+2”, ugyanolyan erőforrás-igényes érvelési folyamatot indítunk el, mint egy összetett matematikai bizonyítás esetén.

Ez a nem hatékony működés különösen problémás ha nagyobb méretarányokban gondolkodunk, tehát például amikor az LLM-ek naponta több millió lekérdezést dolgoznak fel, akkor minden egyes felesleges következtetési lépés megsokszorozza az energiafogyasztást, a költségeket és a környezeti hatásokat. A Szingapúri Nemzeti Egyetem kutatói felfigyeltek erre a kihívásra, és a Thinkless-t javasolták megoldásként a hatékonyság javítására.

A Thinkless keretrendszer lehetővé teszi az LLM számára, hogy adaptívan válasszon a rövid és hosszú formájú érvelés között a feladat összetettsége és a modell képességei alapján. A rendszer két vezérlő tokent használ: „<short>” a tömör válaszokhoz és „<think>” a részletes érveléshez.

Ez a bináris megközelítés lehetővé teszi a modell számára, hogy dinamikusan meghatározza a megfelelő érvelési mélységet minden egyes lekérdezéshez.

A Thinkless módszer középpontjában az újszerű Decoupled Group Relative Policy Optimization (DeGRPO) algoritmus áll, amely jelentős előrelépést jelent a hagyományos megerősített tanulási megközelítésekhez képest. A DeGRPO a tanulási célt két alapvető összetevőre bontja szét:

  • Vezérlőtoken veszteség - Ez szabályozza az érvelési mód kiválasztását, segítve a modellt abban, hogy megtanulja, mikor alkalmazzon kiterjedt érvelést, és mikor adjon közvetlen válaszokat.

  • Válaszveszteség - Ez javítja a generált válaszok pontosságát, biztosítva, hogy a modell magas teljesítményt tartson fenn, függetlenül attól, hogy melyik érvelési módot választja.

Ez a szétválasztott megfogalmazás lehetővé teszi az egyes célkitűzések finomra szabott ellenőrzését, és stabilizálja a modell betanítását.

A modell betanítása megerősített tanulási paradigma szerint történik, amely lehetővé teszi, hogy tapasztalatból megtanulja, hogy mely problématípusok esetében hasznos a részletes érvelés, és melyek azok, amelyek minimális számítási erőforrásokkal hatékonyan megoldhatók.

A kutatócsoport több modellváltozatot fejlesztett ki, köztük egy 1,5B paraméteres megerősítő tanulásos modellt „Thinkless-1.5B-RL-DeepScaleR” és egy bemelegítő modellt „Thinkless-1.5B-Warmup” néven.

A NUS kutatói a Thinkless-t több benchmarkon is értékelték, köztük a Minerva Algebra, a MATH-500 és a GSM8K teszteken. Az eredmények figyelemre méltóak voltak: a keretrendszer 50-90%-kal csökkentette a hosszú láncú gondolkodás használatát, jelentősen javítva a következtető nyelvi modellek számítási hatékonyságát.

Ez a hatékonyságnövekedés a pontosság feláldozása nélkül valósul meg - ami kritikus eredmény, mivel a következtetési komplexitás csökkentésére tett korábbi kísérletek gyakran teljesítményromlással jártak. A DeGRPO algoritmus szétválasztott jellege lehetővé teszi a Thinkless számára a nagy teljesítmény fenntartását, miközben jelentősen csökkenti a számítási terheket.

A Thinkless keretrendszer nem az egyetlen olyan megközelítés, amely a mesterséges intelligencia érvelés számítási errőforrás igényét kezeli. Számos más módszert is kifejlesztettek hasonló kihívások kezelésére:

ThinkLess (képzés nélküli módszer)

Zavaró módon egy másik kutatócsoport Gengyang Li vezetésével egy hasonló hangzású megközelítést fejlesztett ki „ThinkLess” néven. Ez a módszer alapvetően abban különbözik a NUS Thinkless keretrendszerétől, hogy ez egy képzésmentes módszer.

Ahelyett, hogy a modellt képezné ki a következtetési módok kiválasztására, ez a megközelítés a kimenet minőségének megőrzése mellett korán befejezi a következtetés generálását. A kutatók felfedezték, hogy a válaszjelzők nem feltétlenül a korábbi érvelési lépésekre összpontosítanak, hanem elsősorban az érvelés megszüntető jelzőre figyelnek. A ThinkLess kihasználja ezt a felismerést azáltal, hogy a terminátor tokent korábban triggereli, hogy kihagyja a felesleges érvelést, miközben megőrzi a tudásátadást.

Early-Stopping Self-Consistency (ESC)

A Yiwei Li és munkatársai által javasolt ESC egy skálázható mintavételi eljárás, amelynek célja az önkonzisztencia (SC) költségeinek csökkentése a többlépéses érvelésben. Az önkonzisztencia jellemzően többszörös mintavételt igényel egy előre meghatározott méretben, ami növeli a számítási költségeket. Az ESC dinamikusan állítja be ezt a folyamatot, és jelentős mértékben (33,8%-tól 84,2%-ig) csökkenti a mintavételi műveletek átlagos számát a különböző következtetési benchmarkok esetében, miközben hasonló teljesítményt biztosít.

Dinamikus gondolatmenet (D-CoT)

Ez a keretrendszer adaptív érvelési időt és lépéseket valósít meg a számítási redundancia és a késleltetett jutalomkiosztás csökkentése érdekében a hosszú CoT érvelés során. A D-CoT állapottömörítési mechanizmust alkalmaz adaptív következtetési lépésekkel, és bevezet egy fontosságvezérelt metszési stratégiát az automatikus regresszív dekódolás során. Részleges jutalombecslőt tartalmaz a következtetési blokkok hatékonyságának azonnali értékelésére, és többszintű következtetési struktúrát épít fel makro-összefoglaló és mikrorészlet-pufferek segítségével.

Mivel a mesterséges intelligencia karbonlábnyomával kapcsolatos aggályok egyre nőnek, ezek a megközelítések, fontos lépést jelentenek a környezetileg fenntarthatóbb mesterséges intelligencia rendszerek felé. A hatékonyabb érvelés ugyanakkor egy másik fontos szempontból is releváns, mivel lehetőséget teremt a kifinomult mesterséges intelligencia képességek korlátozott számítási erőforrásokkal rendelkező eszközökön történő futtatására. 

Osszd meg ezt a cikket
Mesterséges intelligencia, űr és emberiség
Elon Musk, a SpaceX, Tesla, Neuralink és xAI alapítója és vezetője egy közelmúltbeli interjúban osztotta meg gondolatait a jövő lehetséges irányairól, különös tekintettel a mesterséges intelligenciára, az űrbe való terjeszkedésre és az emberiség fejlődésére.
 Valós idejű zene komponálás a Google Magenta RT modelljével
A mesterséges intelligencia alkalmazása a zene komponálásban nem új keletű törekvés, ám a valós idejű működés sokáig jelentős akadályokba ütközött. A Google Magenta csapata most olyan fejlesztést mutatott be, amely a műfaj technikai és kreatív lehetőségeit egyaránt kiszélesítheti. A Magenta RealTime (röviden: Magenta RT) névre keresztelt új modell valós időben generál zenét, miközben nyitott forráskódjának köszönhetően bárki számára hozzáférhető.
Ufficio Zero egy olasz Linux disztribúció a fenntartható digitális munkavégzésért
Az Ufficio Zero Linux OS egy kevéssé ismert, de egyre komolyabb figyelmet érdemlő olasz fejlesztésű operációs rendszer. Elsősorban irodai és hivatali munkakörnyezetek számára készült, és különösen azoknak lehet érdekes, akik stabil, megbízható és hosszú távon is használható alternatívát keresnek a kereskedelmi rendszerekkel szemben. Az Ufficio Zero sajátos helyet foglal el a nyílt forráskódú rendszerek világában: egyszerre kíván választ adni a digitális infrastruktúra elavulására, valamint a munkavégzéshez nélkülözhetetlen szoftvereszközök elérhetőségének problémáira.
Mit jelentene az Apple számára a Perplexity AI felvásárlása?
Az Apple régóta igyekszik megtalálni a helyét a generatív mesterséges intelligencia gyorsan alakuló piacán. A vállalat évtizedeken át stratégikusan kivárt, mielőtt jelentősebb erőforrásokat irányított volna mesterséges intelligencia-alapú fejlesztésekbe. Most azonban, a legfrissebb hírek szerint, a cupertinói cég egy minden eddiginél nagyobb szabású lépésre készülhet: belső körökben megindultak az egyeztetések a Perplexity AI nevű startup esetleges felvásárlásáról.
Így torzít az LLM
A mesterséges intelligencia (MI) fejlődésével párhuzamosan egyre több figyelem irányul az úgynevezett nagy nyelvi modellekre (LLM-ekre), amelyek már nemcsak a tudományos kutatásban, hanem a mindennapi élet számos területén is jelen vannak – például ügyvédi munkában, egészségügyi adatok elemzésében vagy számítógépes programok kódolásában. E modellek működésének megértése ugyanakkor továbbra is komoly kihívást jelent, különösen akkor, amikor azok látszólag megmagyarázhatatlan módon követnek el hibákat vagy adnak félrevezető válaszokat.
MiniMax-M1 AI modell, célkeresztben a nagy méretű szövegek kezelése
A mesterséges intelligencia rendszerek fejlődésével egyre nagyobb az igény olyan modellekre, amelyek nemcsak a nyelv értelmezésére képesek, hanem összetett, többlépcsős gondolkodási folyamatokat is képesek végigvinni. Az ilyen modellek kulcsfontosságúak lehetnek nemcsak elméleti feladatokban, hanem például szoftverfejlesztés vagy valós idejű döntéshozatal során is. Ezek az alkalmazások azonban különösen érzékenyek a számítási költségekre, amelyeket a hagyományos megközelítések gyakran nehezen tudnak kordában tartani.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések