Erős turbulencia a Meta Llama modelljei körül

Még egy hete sincs a piacon a Llama 4 máris erős kritikákat kapott a felhasználóktól. Mint korábban írtam a Llama 4 egyik újdonsága, hogy egy olyan architektúrát használ, amely különböző modulokból épül fel ezért lehetővé teszi, hogy sokkal nagyobb tényleges paraméterrel rendelkezzen, mint amennyit aktívan használ, ezért elméletileg jóval jobb teljesítményt kellene nyújtania. Több független felhasználói teszt alapján azonban, mégsem hozza az elvárt eredményeket főleg matematikai és kódolási feladatok esetében. Egyesek szerint a Meta erősen manipulálta a benchmarkokat, hogy minél jobb eredményeket tudjon felmutatni. Míg mások úgy vélik, hogy elképzelhető, hogy valamilyen belső modellverziót futtattak a benchmarkokon és a piacra már egy jóval szerényebb képességű modellt dobtak.

A Llama 4 másik nagy újdonsága a 10 millió token nagyságú kontextus ablak, amely lehetővé tenné hogy nagyobb kódbázisokat is kezelni tudjon a modell. A kritikusok megjegyzik, hogy a modell betanítása során 256 ezer tokennél nagyobb adatsorokat nem használtak, így az egyáltalán nem bizonyos, hogy ez a 10 milliós tokenszám valós. Azt állítják, hogy az ígért méretű bemeneti adatok esetében, a modell kimenetének minősége erősen kérdéses.

A Meta egyelőre azzal hárítja a kritikákat, hogy a kezdeti szakaszban hibák előfordulhatnak. Valamint azt mondják, hogy ezek egy része a felhasználói finomhangolások miatt adódnak, ezért láthatunk ennyire eltérő eredményeket. A szakmai közösségeket ez nem igazán nyugtatta meg, többen aggodalmukat fejezték ki az iránt, hogy nem átlátható módon kezeli a Meta a benchmarkokat.

Miközben a Llama 4 körül továbbra is erős turbulencia tapasztalható, két új modell is megjelent a Llama korábbi verziójának továbbfejlesztéseként. Mindkét új modell törekvése, hogy csökkentsék a modellek számítási igényét. Az NVIDIA Llama 3.1 Nemotron Ultra modellt mutatta be, amely 253 milliárd paraméteres, fejlett következtetési képességekkel rendelkezik és kifejezetten AI asszisztensi munkafolyamatok támogatására tervezték.

Az eredeti Llama 3.1 modellt többfázisú utótanítási műveletekkel sikerült úgy módosítani, hogy az lényegesen kevesebb memórián is elfusson, valamint a számítási igény is csökkent. Az NVIDIA azt állítja hogy az eredmény fele annyi paraméter mellett jobb eredményt mutat mint a DeepSeek R1.

A modell nyílt forráskódú és bárki számára elérhető a Hugging Face oldalon. Futtatásához elegendő egyetlen 8x H100 GPU node, így letöltése is annak javasolt akinek H100-as szerver node-ok állnak rendelkezésére. Ez nyilván továbbra is korlátozott számú otthoni felhasználást sejtet.

A másik fejlesztés a Deep Cogito által kiadott Cogito v1 modell, mely a Meta Llama 3.2 modelljéből lett finomhangolva. Az új modell célja, hogy a hibrid következtetési képességeken túl az önreflexiót is lehetővé tegye, így a modell iteratív módon képes finomítani saját érvelési stratégiáit. A modell több változatban is elérhető (3B, 8B, 14B, 32B és 70B paraméteres változatok), amelyek már több nemzetközi benchmarkon is kimagasló eredményeket produkáltak, például az MMLU, ARC és a különböző eszközhívási feladatok terén. Ugyanakkor bizonyos matematikai értékelésekben a Cogito egyelőre nem hozza a remélt eredményeket. 

Osszd meg ezt a cikket
Thinkless, küzdelem az MI növekvő erőforrásigénye ellen
Amíg a nagy cégek sorra jelentették be az érvelési funkciókat a modelljeikben az elmúlt hónapokban, hamar kiderült ezen rendszerek hatalmas erőforrás igénye, így az ilyen szolgáltatásokra való előfizetések árai is az egekbe kúsztak. A Szingapúri Nemzeti Egyetem (NUS) kutatói egy új keretrendszert fejlesztettek ki „Thinkless” néven, amely akár jelentősen átalakíthatja a nagy nyelvi modellek (LLM) érvelési feladatainak megközelítését. Ez az innovatív megközelítés, amelyet Gongfan Fang, Xinyin Ma és Xinchao Wang fejlesztett ki a NUS xML Labban, lehetővé teszi az AI-rendszerek számára, hogy dinamikusan válasszanak az egyszerű és az összetett érvelési stratégiák között, ami akár 90%-kal is csökkentheti a számítási költségeket. A keretrendszer a jelenlegi mesterséges intelligencia érvelési módszerek kritikus hatékonysági hiányosságát orvosolja, és fontos előrelépést jelent az erőforrás-hatékonyabb mesterséges intelligencia megvalósításában.
Az EU Open Web Index projektje újabb lépés a digitális függetlenség felé
Az Open Web Index (OWI) az Európai Unió Horizont programjának keretében megvalósuló, nyílt forráskódú kezdeményezés, amelynek célja a webes keresési technológiák demokratizálása és az Európa digitális szuverenitásának erősítése. A projekt 2025 júniusában lép nyilvánosság elé, amikor is egy közös, mindenki számára hozzáférhető webindexet bocsát rendelkezésre, elválasztva az indexelési infrastruktúrát az azt hasznosító keresőszolgáltatásoktól. Ezzel az OWI nem csupán technikai újításokat kínál, hanem paradigmaváltást is a globális keresőpiacon, ahol ma több mint kilencven százalékos részesedésével egyetlen szereplő – a Google – határozza meg az online információhoz való hozzáférést.
Fejlettebb védelemmel jelenik meg az Android 16
Az Android 16 új kiadása az eddigi legátfogóbb eszközszintű védelmet kínálja a platform hárommilliárd felhasználója számára, középpontba helyezve a magas kockázatú személyek védelmét, ugyanakkor minden biztonságtudatos felhasználó számára jelentős előrelépést jelent. A rendszer legfontosabb eleme a továbbfejlesztett Speciális védelmi program, amely korábbi, fiókszintű beállítások helyett immár teljes körű, eszközszintű védelmi mechanizmusokat aktivál. Így az újságírók, közéleti személyiségek és más, kifinomult kiberfenyegetéseknek kitett felhasználók is egyetlen kapcsoló érintésével juthatnak hozzá a platform legerősebb biztonsági funkcióihoz.
GitHub-integrációval erősít a Gemini Advanced
A mesterséges intelligencia alapú fejlesztői eszközök terén nincs hiány újabb és újabb fejlesztésekben. A Google ezzel kapcsolatban most bejelentette, hogy közvetlen GitHub-integrációval bővíti Gemini Advanced nevű prémium AI-asszisztensét. A lépés nem csupán válasz a rivális OpenAI hasonló fejlesztéseire, hanem egyben komoly előrelépés is a fejlesztői munkafolyamatok hatékonyságának növelésében.