A Meta legújabb mesterséges intelligencia modellcsaládja a Llama 4 jelentős újításokat hozott a multimodális modellek fejlesztésében. A modellcsalád két azonnal elérhető változata – a Llama 4 Scout és a Llama 4 Maverick – mellett egy, még fejlesztés alatt álló, rendkívül nagy teljesítményű Llama 4 Behemoth is készül, amely a jövőben várhatóan további jelentős szerepet játszik majd a STEM (Science, Technology, Engineering, and Mathematics) fókuszú feladatokban.
Az utóbbi időben számos multimodális modell jelent meg, ezek olyan mesterséges intelligencia modellek, amelyek egyszerre képesek feldolgozni és integrálni többféle adatot, például szöveget, képet, hangot és videót. Az ilyen modellek sokkal gazdagabb kontextuson belül képesek értelmezni az egyes kérdéseket, ezáltal lényegesen komplexebb feladatokat is meg tudnak oldani, mint a korábbi csak szöveg alapú modellek. Azonban ami az előnyük az egyben a hátrányuk is hiszen általánosságban jóval több erőforrásra lehet szüksége egy ilyen modellnek mint egy hagyományos egymodális rendszernek. Ezen kíván segíteni a Llama 4 modellcsaládban alkalmazott Mixture of Experts (MoE) architektúra – amely csak a modell egy részét aktiválja adott bemenet esetén – jelentős hatékonyságot biztosítva ezzel, miközben a számítási költségek jelentősen csökkennek. Ez a megközelítés nem pusztán egy egyedi irány, hanem egy olyan trend, amelyben több nagyvállalat is elindult, de a Llama 4 nyíltforráskódú stratégiája egyértelműen megkülönbözteti a versenytársaktól.
Mint korábban említettem jelenleg még csak a modell család két kisebb modellje a Scout és a Maverick érhető el. Mindkettő 17 milliárd aktív paraméterrel rendelkezik, ami azt jelenti hogy a bemenetet ennyi paraméter dolgozza fel a modellen belül, de valójában mindkét modell jóval több valós paraméterrel rendelkezik. A Scout 109 milliárddal a Maverick pedig 400 milliárddal. Ez a MoE architektúrából következik, hiszen ahogy említettem a modellek mindig csak egyes almodulokat aktiválva dolgozzák fel a bemenetet. Ezeket az almodulokat a Meta szakértőknek nevezi, ennek megfelelően a Scout 16 szakértővel míg a Maverick 128 szakértő segítségével működik. A Scout tehát kisebb mint a Maverick ugyanakkor egyedülálló képessége hogy 10 millió token hosszú kontextusablakkal rendelkezik, amely ideálissá teszi hosszú szövegek, dokumentumok vagy például nagy kódbázisok elemzésére. A Maverick ugyan nem rendelkezik ekkora kontextus ablakkal, de következtetési és kódolási feladatokban több benchmark szerint is felülmúlja az olyan konkurenseket mint például a GPT-4o, vagy Gemini 2.0 Flash, miközben fele annyi paramétert használ mint a DeepSeek V3.
A Behemoth ugyan még nincs teljesen kész, de a Meta állítása szerint a STEM fókuszú feladatokban felül fogja múlni a GPT-4.5, Claude Sonnet 3.7 és Gemini 2.0 Pro modelleket. A Behemoth a két kis testvéréhez hasonló architektúra mellett 288 milliárd aktív paraméterrel fog rendelkezni, de a 16 almodulnak köszönhetően ez közel 2000 milliárd összesített paramétert jelent majd. A Behemoth azért is érdekes mivel a Meta ezt a modellt kívánja használni a kisebb modellek tanítására, valamint elképzelhető hogy integrálásra kerül a Meta olyan szolgáltatásaiba mint a Messanger, Instagram Direct illetve a WhatsApp.