Erős turbulencia a Meta Llama modelljei körül

Még egy hete sincs a piacon a Llama 4 máris erős kritikákat kapott a felhasználóktól. Mint korábban írtam a Llama 4 egyik újdonsága, hogy egy olyan architektúrát használ, amely különböző modulokból épül fel ezért lehetővé teszi, hogy sokkal nagyobb tényleges paraméterrel rendelkezzen, mint amennyit aktívan használ, ezért elméletileg jóval jobb teljesítményt kellene nyújtania. Több független felhasználói teszt alapján azonban, mégsem hozza az elvárt eredményeket főleg matematikai és kódolási feladatok esetében. Egyesek szerint a Meta erősen manipulálta a benchmarkokat, hogy minél jobb eredményeket tudjon felmutatni. Míg mások úgy vélik, hogy elképzelhető, hogy valamilyen belső modellverziót futtattak a benchmarkokon és a piacra már egy jóval szerényebb képességű modellt dobtak.

A Llama 4 másik nagy újdonsága a 10 millió token nagyságú kontextus ablak, amely lehetővé tenné hogy nagyobb kódbázisokat is kezelni tudjon a modell. A kritikusok megjegyzik, hogy a modell betanítása során 256 ezer tokennél nagyobb adatsorokat nem használtak, így az egyáltalán nem bizonyos, hogy ez a 10 milliós tokenszám valós. Azt állítják, hogy az ígért méretű bemeneti adatok esetében, a modell kimenetének minősége erősen kérdéses.

A Meta egyelőre azzal hárítja a kritikákat, hogy a kezdeti szakaszban hibák előfordulhatnak. Valamint azt mondják, hogy ezek egy része a felhasználói finomhangolások miatt adódnak, ezért láthatunk ennyire eltérő eredményeket. A szakmai közösségeket ez nem igazán nyugtatta meg, többen aggodalmukat fejezték ki az iránt, hogy nem átlátható módon kezeli a Meta a benchmarkokat.

Miközben a Llama 4 körül továbbra is erős turbulencia tapasztalható, két új modell is megjelent a Llama korábbi verziójának továbbfejlesztéseként. Mindkét új modell törekvése, hogy csökkentsék a modellek számítási igényét. Az NVIDIA Llama 3.1 Nemotron Ultra modellt mutatta be, amely 253 milliárd paraméteres, fejlett következtetési képességekkel rendelkezik és kifejezetten AI asszisztensi munkafolyamatok támogatására tervezték.

Az eredeti Llama 3.1 modellt többfázisú utótanítási műveletekkel sikerült úgy módosítani, hogy az lényegesen kevesebb memórián is elfusson, valamint a számítási igény is csökkent. Az NVIDIA azt állítja hogy az eredmény fele annyi paraméter mellett jobb eredményt mutat mint a DeepSeek R1.

A modell nyílt forráskódú és bárki számára elérhető a Hugging Face oldalon. Futtatásához elegendő egyetlen 8x H100 GPU node, így letöltése is annak javasolt akinek H100-as szerver node-ok állnak rendelkezésére. Ez nyilván továbbra is korlátozott számú otthoni felhasználást sejtet.

A másik fejlesztés a Deep Cogito által kiadott Cogito v1 modell, mely a Meta Llama 3.2 modelljéből lett finomhangolva. Az új modell célja, hogy a hibrid következtetési képességeken túl az önreflexiót is lehetővé tegye, így a modell iteratív módon képes finomítani saját érvelési stratégiáit. A modell több változatban is elérhető (3B, 8B, 14B, 32B és 70B paraméteres változatok), amelyek már több nemzetközi benchmarkon is kimagasló eredményeket produkáltak, például az MMLU, ARC és a különböző eszközhívási feladatok terén. Ugyanakkor bizonyos matematikai értékelésekben a Cogito egyelőre nem hozza a remélt eredményeket. 

Osszd meg ezt a cikket
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
A térbeli intelligencia a következő leküzdendő akadály az AGI előtt
Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.
Mi rejlik a Meta mesterséges intelligencia-újjászervezése mögött?
Mark Zuckerberg, a Meta vezérigazgatója nem először lép merészet, ám ezúttal minden eddiginél átfogóbb átszervezést hajt végre a cég mesterséges intelligenciával foglalkozó részlegeiben. A frissen létrehozott Meta Superintelligence Labs (MSL) névre keresztelt új divízió alá kerül az összes eddigi AI-csapat, beleértve a kutatás-fejlesztést, a termékfejlesztést és az alapmodellek építését. A cél nem csupán az emberi gondolkodással versenyképes mesterséges intelligencia (AGI), hanem egy olyan rendszerszintű szuperintelligencia megalkotása, amely meghaladja az emberi képességeket.
Nem támogatja tovább az X11-et GNOME 49
Bár a GNOME talán a legáltalánosabban használt asztali környezet az egyes Linux disztribúciók esetében, a fejlesztők a GNOME 49-ben mégis mélyebb szerkezeti változások mellett döntöttek, amely kihatással lesz a disztribúciók támogatására.
A Facebook új AI-funkciója csendben nyit kaput a személyes fotók tömeges elemzéséhez
Egy új figyelmeztetés fogadja azokat a felhasználókat, akik valamilyen bejegyzést szeretnének megosztani a Facebookon: egy felugró ablak, amely „felhőalapú feldolgozásra” kér engedélyt. A rendszer, ha jóváhagyjuk, hozzáférhet a telefonunk teljes fényképtárához – beleértve azokat a képeket is, amelyeket még soha nem töltöttünk fel a közösségi hálóra. A cél: mesterséges intelligencia által generált kreatív ötletek, például kollázsok, tematikus válogatások vagy stílusátalakított változatok készítése.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések