MiniMax-M1 AI modell, célkeresztben a nagy méretű szövegek kezelése

A mesterséges intelligencia rendszerek fejlődésével egyre nagyobb az igény olyan modellekre, amelyek nemcsak a nyelv értelmezésére képesek, hanem összetett, többlépcsős gondolkodási folyamatokat is képesek végigvinni. Az ilyen modellek kulcsfontosságúak lehetnek nemcsak elméleti feladatokban, hanem például szoftverfejlesztés vagy valós idejű döntéshozatal során is. Ezek az alkalmazások azonban különösen érzékenyek a számítási költségekre, amelyeket a hagyományos megközelítések gyakran nehezen tudnak kordában tartani.

A jelenleg széles körben alkalmazott transzformer-alapú modellek számítási terhelése gyorsan nő a bemenet hosszával, mivel az ún. softmax figyelemmechanizmus kvadratikusan skálázódik. Ez azt jelenti, hogy a hosszabb szövegekkel történő munka esetén drasztikusan nő az erőforrásigény, ami sok alkalmazásban egyszerűen nem fenntartható. Bár számos kutatási irány próbálkozott a probléma megoldásával — például ritkított vagy lineáris figyelmi mechanizmusok, illetve visszacsatoláson alapuló hálózatok — ezek a megközelítések jellemzően nem bizonyultak kellően stabilnak vagy méretezhetőnek a legnagyobb rendszerek szintjén.

Ebben a kihívásokkal teli környezetben mutatta be a MiniMax AI kutatócsoport a MiniMax-M1 nevű új modelljét, amely egyszerre törekszik a számítási hatékonyságra és a valós problémákhoz illeszkedő gyakorlati alkalmazhatóságra. A modell egyik fontos jellemzője, hogy nyílt súlyú, azaz nem kizárólagosan céges felhasználásra készült, hanem elérhető kutatási célokra is. A MiniMax-M1 egy több szakértőt alkalmazó architektúrára épül, és egy hibrid figyelmi rendszer révén képes hosszú szövegkörnyezetek kezelésére. Összesen 456 milliárd paraméterből áll, amelyekből tokenenként körülbelül 45,9 milliárd aktiválódik.

A rendszer akár egymillió token hosszúságú bemenetekkel is képes dolgozni, ami nyolcszorosa egyes korábbi modellek kapacitásának. A figyelmi mechanizmus optimalizálása érdekében a kutatók egy ún. „lightning attention” eljárást vezettek be, amely hatékonyabb a hagyományos softmax megközelítésnél. A MiniMax-M1 esetében minden hetedik transzformer blokkban továbbra is a klasszikus módszert alkalmazzák, míg a többi blokkban az új, lineáris figyelemalapú módszer működik. Ez a hibrid felépítés lehetővé teszi a nagy bemenetek kezelését úgy, hogy közben a számítási igény elfogadható szinten marad.

A modell tanításához egy új megerősítéses tanulási algoritmust is kidolgoztak, amely a CISPO nevet kapta. Ez az algoritmus nem a generált tokenek frissítését korlátozza, hanem az ún. fontos mintavételezési súlyokat, ami stabilabb tanulási folyamatot eredményez. A tanítási folyamat három hét alatt zajlott le 512 darab H800 típusú grafikus processzorral, ami körülbelül 534 ezer dollár bérleti költséget jelentett.

A modell teljesítményét különböző tesztek során is értékelték. Az eredmények alapján a MiniMax-M1 különösen jól szerepelt szoftverfejlesztési és hosszú szöveges kontextusokat igénylő feladatokban, de az ún. „agentikus” eszközhasználat területén is kiemelkedő eredményeket mutatott. Noha matematikai és kódolási versenyekben egyes újabb modellek megelőzték, a hosszú szövegekkel való munkavégzés terén meghaladta több, széles körben használt rendszer teljesítményét.

A MiniMax-M1 tehát nem csupán egy újabb nagy modell a mesterséges intelligencia fejlődéstörténetében, hanem egy olyan kezdeményezés, amely ötvözi a gyakorlati szempontokat a kutatási nyitottsággal. Bár a technológia még fejlődőben van, ez a fejlesztés ígéretes irányt mutat a hosszú kontextusú, mély gondolkodásra képes rendszerek skálázható és átlátható megvalósítására. 

Osszd meg ezt a cikket
Így torzít az LLM
A mesterséges intelligencia (MI) fejlődésével párhuzamosan egyre több figyelem irányul az úgynevezett nagy nyelvi modellekre (LLM-ekre), amelyek már nemcsak a tudományos kutatásban, hanem a mindennapi élet számos területén is jelen vannak – például ügyvédi munkában, egészségügyi adatok elemzésében vagy számítógépes programok kódolásában. E modellek működésének megértése ugyanakkor továbbra is komoly kihívást jelent, különösen akkor, amikor azok látszólag megmagyarázhatatlan módon követnek el hibákat vagy adnak félrevezető válaszokat.
Hogyan alakítja át a mesterséges intelligencia ökoszisztémát az OpenAI és a Microsoft viszonya?
A mesterséges intelligencia iparában zajló gyors technológiai és üzleti átalakulások egyik legszembetűnőbb példáját a Microsoft és az OpenAI kapcsolatának újradefiniálása jelenti. A két vállalat éveken át szoros szövetségben dolgozott együtt, ám a közelmúlt fejleményei világosan mutatják: az iparági logika immár nem a kizárólagos partnerségeket, hanem a rugalmasabb, többszereplős együttműködési modelleket részesíti előnyben.
Dél-Korea legnagyobb MI-központját építi az Amazon és az SK-csoport
Új korszak kezdődhet Dél-Korea mesterséges intelligencia iparában – az Amazon Web Services (AWS) bejelentette, hogy az SK-csoporttal közösen építi fel az ország történetének legnagyobb MI-számítási központját. A beruházás nemcsak technológiai mérföldkő, de az SK Hynix tőzsdei teljesítményére is látványos hatással van.
Változás a Windows arcfelismerő funkciójában: már nem működik sötétben
A Microsoft a közelmúltban egy fontos biztonsági frissítést vezetett be a Windows Hello nevű arcfelismerő bejelentkezési rendszeréhez, amely a Windows 11-es operációs rendszer része. A módosítás hatására az arcfelismerés sötétben már nem működik, és a vállalat megerősítette, hogy ez nem technikai hiba, hanem tudatos döntés eredménye.
Megjelent a Kali Linux 2025.2: Mértéktartó fejlesztések egy érett rendszerben
A népszerű etikus hackelésre és kiberbiztonsági elemzésekre specializált Linux disztribúció, a Kali Linux legújabb stabil kiadása, a 2025.2-es verzió, 2025 júniusában vált elérhetővé. A fejlesztők ezúttal sem csupán karbantartási frissítéseket hoztak, hanem több olyan újdonságot is bevezettek, amelyek a rendszer használhatóságát és funkcionalitását egyaránt bővítik. A frissítések különösen azok számára lehetnek érdekesek, akik az operációs rendszert behatolástesztelésre, hálózati forgalom elemzésére vagy más biztonsági célokra használják.
Forradalmi AI memóriarendszer MemOS
A nagy nyelvi modellek (LLM-ek) központi szerepet játszanak az általános mesterséges intelligencia (AGI) fejlesztésében, azonban jelenleg jelentős korlátokkal szembesülnek a memóriakezelés terén. A mai LLM-ek működésük során általában a rögzített súlyokba ágyazott tudásra és egy korlátozott kontextusablakra támaszkodnak, ami gátolja őket abban, hogy hosszabb ideig megőrizzék vagy frissítsék az információkat. Bár az olyan megközelítések, mint a visszakereséssel kiegészített generálás (RAG), integrálják a külső tudást, gyakran hiányzik belőlük a memóriára vonatkozó strukturált megközelítés. Ez gyakran olyan problémákhoz vezet, mint a korábbi interakciók elfelejtése, a csökkent alkalmazkodóképesség és a különböző platformok közötti elszigetelt memória. Lényegében a jelenlegi LLM-ek nem kezelik a memóriát tartós, kezelhető vagy megosztható erőforrásként, ami korlátozza gyakorlati hasznosságukat.