Janus Pro, multimodális modell a DeepSeek AI-tól

A DeepSeek újabb modellt tett közzé amely az előző R1-el ellentétben egy multimodális modell, azaz képes szöveget és képi információkat egyszerre feldolgozni. Ennek megfelelően a Janus Pro alkalmas arra, hogy képet elemezzen vagy szövegből képet generáljon, az R1-hez hasonlóan rendkívül alacsony költségek mellett, versenyképes alternatívát kínálva az olyan vezető megoldásokkal szemben, mint az OpenAI DALL-E 3 és a Stability AI Stable Diffusion.

Előzmények és a modell főbb jellemzői

Tanulva a korábbi rendszerek, mint például az eredeti Janus modell, hibáiból a fejlesztők szakítottak azzal a módszerrel, hogy elkülönített kódolást alkalmazzanak a szöveges és vizuális adatok feldolgozására, mivel ez a megközelítés hamar skálázhatósági korlátokba és hatékonysági problémákba ütköztek. A DeepSeek legújabb fejlesztése, a Janus Pro, jelentős lépést jelent e korlátok leküzdésében, köszönhetően annak fejlettebb tanulási stratégiákat vezettek be. A tanítást egyrészt optimalizált képzési szakaszokra bontották, másrészt nagyobb és változatosabb adathalmazokat használtak. Jelenleg több mint 72 millió szintetikus esztétikai adat és 90 millió multimodális megértési adat biztosítja a megbízható kimeneteket.

Az architektúra fejlesztése során a kutatók elkülönített vizuális kódolási rendszert alkalmaztak, amely külön kezeli a megértést és a generálást. A megértési modul a SigLIP technológiát használja, amely képes a képek szemantikai jellemzőinek kiemelésére, míg a generálási rendszer VQ tokenizálást alkalmaz, amely diszkrét reprezentációkba alakítja a vizuális információt. A feldolgozást egy egységes autoregresszív transzformer segíti, amely multimodális jellemzősort hoz létre a feladatokhoz.   

A Janus Pro és annak előzetes modellje a Janus közötti tudásbeli különbségek
A Janus Pro és annak előzetes modellje a Janus közötti tudásbeli különbségek

A Janus-Pro képzési stratégiája három fázisból áll:

  1. Hosszú előképzés, amely különböző adathalmazokra épül.
  2. Hatékony finomhangolás, amely módosított adatarányokat használ.
  3. Felügyelt finomítás, amely a modalitások teljesítésének optimalizálására összpontosít.

A Janus-Pro teljesítényét számos teszt igazolja. Az MMBench teszten a 7B modell 79,2-es pontszámot ért el, meghaladva a korábbi Janus (69,4), a TokenFlow-XL (68,9) és a MetaMorph (75,2) eredményeit. A GenEval teszten a Janus-Pro 80%-os pontosságot produkált, többet, mint a DALL-E 3 (67%) vagy a Stable Diffusion 3 Medium (74%). A DPG-Bench teszten 84,19-es eredményt ért el, igazolva képességét a komplex promptok kezelésében.

Mi nem a Janus Pro?

A Janus Pro egy multimodális rendszer, azonban ennek megfelelően nem kifejezetten csak arra lett optimalizálva, hogy szövegből képet állítson elő. Így vélhetően nem lesz mindenki elégedett, azokkal a képekkel amiket a modellel generálni fog. Amilyen ütemben öntik azonban az újabbnál újabb modelleket a piacra, nem csodálkoznék ha hamarosan egy ilyet is készítenek majd. Olyan környezetben azonban ahol az erőforrás igény kritikus, remek választás lehet.   

Mona Lisa bosszúja a Janus Pro-n és a kínaiakon
Mona Lisa bosszúja a Janus Pro-n és a kínaiakon

Hol lehet kipróbálni?

Mivel a modell open source, azaz nyílt forráskódú, egyrészt elérhető Hugging Face-en ahonnan vagy letölthetjük vagy ide kattintva akár ki is próbálhatjuk telepítés nélkül. Egy másik megoldás telepítést igényel ez esetben le kell tölteni a GitHub-ról a DeepSeek Gradio alkalmazását amelyben futtathatjuk a modellt.

Összegzés

A Janus Pro jelentős előrelépést képvisel a multimodális AI területén, javítva az adatok feldolgozását és a generált tartalmak minőségét. Az innovatív architektúra és fejlett képzési módszerek segítik a pontosabb és megbízhatóbb AI rendszerek fejlesztését, lehetőséget teremtve a mesterséges intelligencia további alkalmazásaira a valós problémák megoldásában. Figyelemre méltó hogy mindezt nyílt forráskódú alacsony gépigényű modellel érték el, továbbra is fenntartva a demokratikus mindenki számára elérhető mesterséges intelligencia elérhetőségének és elterjedésének lehetőségét.   

Osszd meg ezt a cikket
Mesterséges intelligencia a hálózat irányításban és karbantartásban
Az Ericsson nemrég bemutatta a 2025-re vonatkozó stratégiai terveit a Mobile World Congress 2025 (MWC25) keretében. Az itt ismertetett elképzelések azért különösen érdekesek, mert jól mutatják, miként épül be a mesterséges intelligencia olyan ipari folyamatokba, amelyek mindennapi életünket érintik, ám addig rejtve maradnak, amíg zökkenőmentesen működnek.
GTC 2025: Az NVIDIA Blackwell chipeken alapuló szerverei és a DGX Station
A 2009 óta megrendezett GTC (GPU Technológiai Konferencia) idén március 17 és 21 között kerül megrendezésre az NVIDIA által. A konferencia célja hogy bemutassa a legújabb fejlesztéseket és elősegítse a különböző iparágak közötti együttműködést és további fejlesztéseket, így többnyire fejlesztők, kutatók, technológiai vezetők vesznek részt rajta. Az NVIDIA CEO-ja Jensen Huang egy ideje emlegeti, hogy a vállalatok a jövőben token gyárrá változnak, ami alatt azt érti, hogy minden létező munkafolyamat mesterséges intelligencia által támogatott lesz. Ebben jelenleg nagy szerepet játszanak a nagy szerverek, de az AI integráció egyre inkább lecsorog majd a személyi számítógépek szintjére és a jövőben olyan számítógépek, laptopok lesznek amelyek megfelelő hardverrel rendelkeznek, ahhoz hogy akár nagy nyelvi modelleket futtassanak a háttérben. Erre azért van szükség mert a programozók, mérnökök és szinte mindenki mesterséges intelligencia által asszisztált munkát fog végezni.
Elérhető a Fedora 42 béta
A Fedora 42 béta verzió már elérhető és tesztelhető, míg a stabil kiadást április 15-re tervezik . Az új verzió számos jelentős fejlesztést tartalmaz, amelyek célja a felhasználói élmény javítása, a telepítési folyamat egyszerűsítése, valamint a modern asztali környezetek és technikai megoldások integrálása.
Videójátékok a mesterséges intelligencia tesztelésben
A videójátékok már évtizedek óta szolgálnak olyan laboratóriumként, ahol különböző AI-algoritmusok képességeit tesztelik. A játékok – legyen szó klasszikus platformjátékokról vagy összetettebb stratégiai környezetekről – lehetőséget nyújtanak arra, hogy a mesterséges intelligencia rendszerek megtanulják a cselekvést, alkalmazkodjanak a változó környezethez, és optimalizálják döntéseiket a jutalmak elérése érdekében.