Számos fontos újdonsággal jelent meg a Llama 4

A Meta legújabb mesterséges intelligencia modellcsaládja a Llama 4 jelentős újításokat hozott a multimodális modellek fejlesztésében. A modellcsalád két azonnal elérhető változata – a Llama 4 Scout és a Llama 4 Maverick – mellett egy, még fejlesztés alatt álló, rendkívül nagy teljesítményű Llama 4 Behemoth is készül, amely a jövőben várhatóan további jelentős szerepet játszik majd a STEM (Science, Technology, Engineering, and Mathematics) fókuszú feladatokban.

Az utóbbi időben számos multimodális modell jelent meg, ezek olyan mesterséges intelligencia modellek, amelyek egyszerre képesek feldolgozni és integrálni többféle adatot, például szöveget, képet, hangot és videót. Az ilyen modellek sokkal gazdagabb kontextuson belül képesek értelmezni az egyes kérdéseket, ezáltal lényegesen komplexebb feladatokat is meg tudnak oldani, mint a korábbi csak szöveg alapú modellek. Azonban ami az előnyük az egyben a hátrányuk is hiszen általánosságban jóval több erőforrásra lehet szüksége egy ilyen modellnek mint egy hagyományos egymodális rendszernek. Ezen kíván segíteni a Llama 4 modellcsaládban alkalmazott Mixture of Experts (MoE) architektúra – amely csak a modell egy részét aktiválja adott bemenet esetén – jelentős hatékonyságot biztosítva ezzel, miközben a számítási költségek jelentősen csökkennek. Ez a megközelítés nem pusztán egy egyedi irány, hanem egy olyan trend, amelyben több nagyvállalat is elindult, de a Llama 4 nyíltforráskódú stratégiája egyértelműen megkülönbözteti a versenytársaktól.

Mint korábban említettem jelenleg még csak a modell család két kisebb modellje a Scout és a Maverick érhető el. Mindkettő 17 milliárd aktív paraméterrel rendelkezik, ami azt jelenti hogy a bemenetet ennyi paraméter dolgozza fel a modellen belül, de valójában mindkét modell jóval több valós paraméterrel rendelkezik. A Scout 109 milliárddal a Maverick pedig 400 milliárddal. Ez a MoE architektúrából következik, hiszen ahogy említettem a modellek mindig csak egyes almodulokat aktiválva dolgozzák fel a bemenetet. Ezeket az almodulokat a Meta szakértőknek nevezi, ennek megfelelően a Scout 16 szakértővel míg a Maverick 128 szakértő segítségével működik. A Scout tehát kisebb mint a Maverick ugyanakkor egyedülálló képessége hogy 10 millió token hosszú kontextusablakkal rendelkezik, amely ideálissá teszi hosszú szövegek, dokumentumok vagy például nagy kódbázisok elemzésére. A Maverick ugyan nem rendelkezik ekkora kontextus ablakkal, de következtetési és kódolási feladatokban több benchmark szerint is felülmúlja az olyan konkurenseket mint például a GPT-4o, vagy Gemini 2.0 Flash, miközben fele annyi paramétert használ mint a DeepSeek V3.

A Behemoth ugyan még nincs teljesen kész, de a Meta állítása szerint a STEM fókuszú feladatokban felül fogja múlni a GPT-4.5, Claude Sonnet 3.7 és Gemini 2.0 Pro modelleket. A Behemoth a két kis testvéréhez hasonló architektúra mellett 288 milliárd aktív paraméterrel fog rendelkezni, de a 16 almodulnak köszönhetően ez közel 2000 milliárd összesített paramétert jelent majd. A Behemoth azért is érdekes mivel a Meta ezt a modellt kívánja használni a kisebb modellek tanítására, valamint elképzelhető hogy integrálásra kerül a Meta olyan szolgáltatásaiba mint a Messanger, Instagram Direct illetve a WhatsApp. 

Osszd meg ezt a cikket
 Fázisátmenet figyelhető meg a nyelvi modellek tanulásában
Mi történik a mesterséges intelligencia „elméjében”, amikor megtanulja megérteni a nyelvet? Hogyan jut el oda, hogy nem csupán a szavak sorrendjét, hanem azok jelentését is képes követni? Egy nemrég megjelent kutatás a mesterséges intelligencia e belső folyamataiba enged elméleti betekintést, és olyan átváltozást azonosít, amely a fizikából ismert fázisátmenetekhez hasonlítható.
 Hogyan segít az MI a cementipar szén-dioxid-kibocsátásának csökkentésében
A globális szén-dioxid-kibocsátás mintegy nyolc százalékáért egyetlen iparág felelős: a cementgyártás. Ez több, mint amennyit az egész légi közlekedési szektor kibocsát világszerte. Miközben a világ egyre több betont használ — lakóházakhoz, infrastruktúrához, ipari létesítményekhez —, a cement előállítása továbbra is rendkívül energiaigényes és szennyező marad. Ezen a helyzeten kíván változtatni a svájci Paul Scherrer Intézet (PSI) kutatócsoportja, amely mesterséges intelligencia segítségével dolgozik ki új, környezetbarát cementrecepteket.
Hol tart ma valójában a mesterséges intelligencia?
A mesterséges intelligencia fejlesztése az elmúlt években látványos és gyakran lenyűgöző eredményeket produkált. Az olyan rendszerek, mint a ChatGPT, képesek természetes nyelvű szövegeket generálni, problémákat megoldani és sokszor az emberi teljesítményt is meghaladni különféle feladatokban. Ugyanakkor egyre több neves kutató és technológiai vezető – köztük John Carmack és François Chollet – hívja fel a figyelmet arra, hogy ezek az eredmények nem feltétlenül jelentik az általános mesterséges intelligencia (AGI) közeledtét. A színfalak mögött most új típusú problémák és kérdések kerültek a figyelem középpontjába, amelyek messze túlmutatnak a puszta teljesítményen.
A Rhino Linux új kiadással jelentkezik: 2025.3
A Linux disztribúciók körében főként kétféle szemléletmód terjedt el, vannak a stabil, ritkán frissülő rendszerek biztonságos kiszámíthatósággal, és a naprakész, de időnként kényes egyensúlyon balanszírozó, gördülő kiadású disztribúciók. A Rhino Linux ezt a két ellenpontot próbálja áthidalni, azaz egyszerre próbál naprakész lenni gördülő disztribúcióként, de alapként az Ubuntura épül, hogy megfelelő stabilitást is biztosítson.
SEAL az önmagát tanító mesterséges intelligencia előhírnöke
Hosszú évek óta tartja magát az elképzelés, hogy a mesterséges intelligencia fejlesztésének kulcsa az emberi tanítás: adatok, címkék, finomhangolás, gondosan megtervezett beavatkozások. Most azonban egy új megközelítés látott napvilágot. Az MIT kutatóinak legújabb munkája, a SEAL (Self-Adapting Language Models) névre keresztelt rendszer olyan nyelvi modelleket mutat be, amelyek képessé válnak saját maguk tanítására. Az eredmények nemcsak technológiai újdonságot jelentenek, hanem felvetik a kérdést: vajon milyen szerepet szánunk a jövőben az embernek az intelligens rendszerek képzésében?
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések