MiniMax-M1 AI modell, célkeresztben a nagy méretű szövegek kezelése

A mesterséges intelligencia rendszerek fejlődésével egyre nagyobb az igény olyan modellekre, amelyek nemcsak a nyelv értelmezésére képesek, hanem összetett, többlépcsős gondolkodási folyamatokat is képesek végigvinni. Az ilyen modellek kulcsfontosságúak lehetnek nemcsak elméleti feladatokban, hanem például szoftverfejlesztés vagy valós idejű döntéshozatal során is. Ezek az alkalmazások azonban különösen érzékenyek a számítási költségekre, amelyeket a hagyományos megközelítések gyakran nehezen tudnak kordában tartani.

A jelenleg széles körben alkalmazott transzformer-alapú modellek számítási terhelése gyorsan nő a bemenet hosszával, mivel az ún. softmax figyelemmechanizmus kvadratikusan skálázódik. Ez azt jelenti, hogy a hosszabb szövegekkel történő munka esetén drasztikusan nő az erőforrásigény, ami sok alkalmazásban egyszerűen nem fenntartható. Bár számos kutatási irány próbálkozott a probléma megoldásával — például ritkított vagy lineáris figyelmi mechanizmusok, illetve visszacsatoláson alapuló hálózatok — ezek a megközelítések jellemzően nem bizonyultak kellően stabilnak vagy méretezhetőnek a legnagyobb rendszerek szintjén.

Ebben a kihívásokkal teli környezetben mutatta be a MiniMax AI kutatócsoport a MiniMax-M1 nevű új modelljét, amely egyszerre törekszik a számítási hatékonyságra és a valós problémákhoz illeszkedő gyakorlati alkalmazhatóságra. A modell egyik fontos jellemzője, hogy nyílt súlyú, azaz nem kizárólagosan céges felhasználásra készült, hanem elérhető kutatási célokra is. A MiniMax-M1 egy több szakértőt alkalmazó architektúrára épül, és egy hibrid figyelmi rendszer révén képes hosszú szövegkörnyezetek kezelésére. Összesen 456 milliárd paraméterből áll, amelyekből tokenenként körülbelül 45,9 milliárd aktiválódik.

A rendszer akár egymillió token hosszúságú bemenetekkel is képes dolgozni, ami nyolcszorosa egyes korábbi modellek kapacitásának. A figyelmi mechanizmus optimalizálása érdekében a kutatók egy ún. „lightning attention” eljárást vezettek be, amely hatékonyabb a hagyományos softmax megközelítésnél. A MiniMax-M1 esetében minden hetedik transzformer blokkban továbbra is a klasszikus módszert alkalmazzák, míg a többi blokkban az új, lineáris figyelemalapú módszer működik. Ez a hibrid felépítés lehetővé teszi a nagy bemenetek kezelését úgy, hogy közben a számítási igény elfogadható szinten marad.

A modell tanításához egy új megerősítéses tanulási algoritmust is kidolgoztak, amely a CISPO nevet kapta. Ez az algoritmus nem a generált tokenek frissítését korlátozza, hanem az ún. fontos mintavételezési súlyokat, ami stabilabb tanulási folyamatot eredményez. A tanítási folyamat három hét alatt zajlott le 512 darab H800 típusú grafikus processzorral, ami körülbelül 534 ezer dollár bérleti költséget jelentett.

A modell teljesítményét különböző tesztek során is értékelték. Az eredmények alapján a MiniMax-M1 különösen jól szerepelt szoftverfejlesztési és hosszú szöveges kontextusokat igénylő feladatokban, de az ún. „agentikus” eszközhasználat területén is kiemelkedő eredményeket mutatott. Noha matematikai és kódolási versenyekben egyes újabb modellek megelőzték, a hosszú szövegekkel való munkavégzés terén meghaladta több, széles körben használt rendszer teljesítményét.

A MiniMax-M1 tehát nem csupán egy újabb nagy modell a mesterséges intelligencia fejlődéstörténetében, hanem egy olyan kezdeményezés, amely ötvözi a gyakorlati szempontokat a kutatási nyitottsággal. Bár a technológia még fejlődőben van, ez a fejlesztés ígéretes irányt mutat a hosszú kontextusú, mély gondolkodásra képes rendszerek skálázható és átlátható megvalósítására. 

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Brutális negyedév az Apple-nél, de mi lesz az iPhone után?
Az Apple a globális gazdasági és kereskedelmi kihívások közepette ismét bizonyította rendkívüli piaci erejét, felülmúlva az elemzői várakozásokat a 2025-ös pénzügyi év harmadik negyedévében. A cupertinói óriás nem csupán rekordbevételt könyvelt el a júniussal zárult időszakban, de egy történelmi mérföldkövet is elért: leszállította a hárommilliárdodik iPhone-t. Ez az eredmény egy olyan korszakban született, amikor a vállalatot egyszerre sújtják a büntetővámok költségei és a mesterséges intelligencia területén tapasztalható, egyre élesedő verseny és számos kudarc amit a vállalat kénytelen volt elszenvedni.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.