MiniMax-M1 AI modell, célkeresztben a nagy méretű szövegek kezelése

A mesterséges intelligencia rendszerek fejlődésével egyre nagyobb az igény olyan modellekre, amelyek nemcsak a nyelv értelmezésére képesek, hanem összetett, többlépcsős gondolkodási folyamatokat is képesek végigvinni. Az ilyen modellek kulcsfontosságúak lehetnek nemcsak elméleti feladatokban, hanem például szoftverfejlesztés vagy valós idejű döntéshozatal során is. Ezek az alkalmazások azonban különösen érzékenyek a számítási költségekre, amelyeket a hagyományos megközelítések gyakran nehezen tudnak kordában tartani.

A jelenleg széles körben alkalmazott transzformer-alapú modellek számítási terhelése gyorsan nő a bemenet hosszával, mivel az ún. softmax figyelemmechanizmus kvadratikusan skálázódik. Ez azt jelenti, hogy a hosszabb szövegekkel történő munka esetén drasztikusan nő az erőforrásigény, ami sok alkalmazásban egyszerűen nem fenntartható. Bár számos kutatási irány próbálkozott a probléma megoldásával — például ritkított vagy lineáris figyelmi mechanizmusok, illetve visszacsatoláson alapuló hálózatok — ezek a megközelítések jellemzően nem bizonyultak kellően stabilnak vagy méretezhetőnek a legnagyobb rendszerek szintjén.

Ebben a kihívásokkal teli környezetben mutatta be a MiniMax AI kutatócsoport a MiniMax-M1 nevű új modelljét, amely egyszerre törekszik a számítási hatékonyságra és a valós problémákhoz illeszkedő gyakorlati alkalmazhatóságra. A modell egyik fontos jellemzője, hogy nyílt súlyú, azaz nem kizárólagosan céges felhasználásra készült, hanem elérhető kutatási célokra is. A MiniMax-M1 egy több szakértőt alkalmazó architektúrára épül, és egy hibrid figyelmi rendszer révén képes hosszú szövegkörnyezetek kezelésére. Összesen 456 milliárd paraméterből áll, amelyekből tokenenként körülbelül 45,9 milliárd aktiválódik.

A rendszer akár egymillió token hosszúságú bemenetekkel is képes dolgozni, ami nyolcszorosa egyes korábbi modellek kapacitásának. A figyelmi mechanizmus optimalizálása érdekében a kutatók egy ún. „lightning attention” eljárást vezettek be, amely hatékonyabb a hagyományos softmax megközelítésnél. A MiniMax-M1 esetében minden hetedik transzformer blokkban továbbra is a klasszikus módszert alkalmazzák, míg a többi blokkban az új, lineáris figyelemalapú módszer működik. Ez a hibrid felépítés lehetővé teszi a nagy bemenetek kezelését úgy, hogy közben a számítási igény elfogadható szinten marad.

A modell tanításához egy új megerősítéses tanulási algoritmust is kidolgoztak, amely a CISPO nevet kapta. Ez az algoritmus nem a generált tokenek frissítését korlátozza, hanem az ún. fontos mintavételezési súlyokat, ami stabilabb tanulási folyamatot eredményez. A tanítási folyamat három hét alatt zajlott le 512 darab H800 típusú grafikus processzorral, ami körülbelül 534 ezer dollár bérleti költséget jelentett.

A modell teljesítményét különböző tesztek során is értékelték. Az eredmények alapján a MiniMax-M1 különösen jól szerepelt szoftverfejlesztési és hosszú szöveges kontextusokat igénylő feladatokban, de az ún. „agentikus” eszközhasználat területén is kiemelkedő eredményeket mutatott. Noha matematikai és kódolási versenyekben egyes újabb modellek megelőzték, a hosszú szövegekkel való munkavégzés terén meghaladta több, széles körben használt rendszer teljesítményét.

A MiniMax-M1 tehát nem csupán egy újabb nagy modell a mesterséges intelligencia fejlődéstörténetében, hanem egy olyan kezdeményezés, amely ötvözi a gyakorlati szempontokat a kutatási nyitottsággal. Bár a technológia még fejlődőben van, ez a fejlesztés ígéretes irányt mutat a hosszú kontextusú, mély gondolkodásra képes rendszerek skálázható és átlátható megvalósítására. 

Osszd meg ezt a cikket
Hol tart ma valójában a mesterséges intelligencia?
A mesterséges intelligencia fejlesztése az elmúlt években látványos és gyakran lenyűgöző eredményeket produkált. Az olyan rendszerek, mint a ChatGPT, képesek természetes nyelvű szövegeket generálni, problémákat megoldani és sokszor az emberi teljesítményt is meghaladni különféle feladatokban. Ugyanakkor egyre több neves kutató és technológiai vezető – köztük John Carmack és François Chollet – hívja fel a figyelmet arra, hogy ezek az eredmények nem feltétlenül jelentik az általános mesterséges intelligencia (AGI) közeledtét. A színfalak mögött most új típusú problémák és kérdések kerültek a figyelem középpontjába, amelyek messze túlmutatnak a puszta teljesítményen.
A Rhino Linux új kiadással jelentkezik: 2025.3
A Linux disztribúciók körében főként kétféle szemléletmód terjedt el, vannak a stabil, ritkán frissülő rendszerek biztonságos kiszámíthatósággal, és a naprakész, de időnként kényes egyensúlyon balanszírozó, gördülő kiadású disztribúciók. A Rhino Linux ezt a két ellenpontot próbálja áthidalni, azaz egyszerre próbál naprakész lenni gördülő disztribúcióként, de alapként az Ubuntura épül, hogy megfelelő stabilitást is biztosítson.
SEAL az önmagát tanító mesterséges intelligencia előhírnöke
Hosszú évek óta tartja magát az elképzelés, hogy a mesterséges intelligencia fejlesztésének kulcsa az emberi tanítás: adatok, címkék, finomhangolás, gondosan megtervezett beavatkozások. Most azonban egy új megközelítés látott napvilágot. Az MIT kutatóinak legújabb munkája, a SEAL (Self-Adapting Language Models) névre keresztelt rendszer olyan nyelvi modelleket mutat be, amelyek képessé válnak saját maguk tanítására. Az eredmények nemcsak technológiai újdonságot jelentenek, hanem felvetik a kérdést: vajon milyen szerepet szánunk a jövőben az embernek az intelligens rendszerek képzésében?
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
A térbeli intelligencia a következő leküzdendő akadály az AGI előtt
Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések