A DeepSeek újabb modellt tett közzé amely az előző R1-el ellentétben egy multimodális modell, azaz képes szöveget és képi információkat egyszerre feldolgozni. Ennek megfelelően a Janus Pro alkalmas arra, hogy képet elemezzen vagy szövegből képet generáljon, az R1-hez hasonlóan rendkívül alacsony költségek mellett, versenyképes alternatívát kínálva az olyan vezető megoldásokkal szemben, mint az OpenAI DALL-E 3 és a Stability AI Stable Diffusion.
Előzmények és a modell főbb jellemzői
Tanulva a korábbi rendszerek, mint például az eredeti Janus modell, hibáiból a fejlesztők szakítottak azzal a módszerrel, hogy elkülönített kódolást alkalmazzanak a szöveges és vizuális adatok feldolgozására, mivel ez a megközelítés hamar skálázhatósági korlátokba és hatékonysági problémákba ütköztek. A DeepSeek legújabb fejlesztése, a Janus Pro, jelentős lépést jelent e korlátok leküzdésében, köszönhetően annak fejlettebb tanulási stratégiákat vezettek be. A tanítást egyrészt optimalizált képzési szakaszokra bontották, másrészt nagyobb és változatosabb adathalmazokat használtak. Jelenleg több mint 72 millió szintetikus esztétikai adat és 90 millió multimodális megértési adat biztosítja a megbízható kimeneteket.
Az architektúra fejlesztése során a kutatók elkülönített vizuális kódolási rendszert alkalmaztak, amely külön kezeli a megértést és a generálást. A megértési modul a SigLIP technológiát használja, amely képes a képek szemantikai jellemzőinek kiemelésére, míg a generálási rendszer VQ tokenizálást alkalmaz, amely diszkrét reprezentációkba alakítja a vizuális információt. A feldolgozást egy egységes autoregresszív transzformer segíti, amely multimodális jellemzősort hoz létre a feladatokhoz.

A Janus-Pro képzési stratégiája három fázisból áll:
- Hosszú előképzés, amely különböző adathalmazokra épül.
- Hatékony finomhangolás, amely módosított adatarányokat használ.
- Felügyelt finomítás, amely a modalitások teljesítésének optimalizálására összpontosít.
A Janus-Pro teljesítényét számos teszt igazolja. Az MMBench teszten a 7B modell 79,2-es pontszámot ért el, meghaladva a korábbi Janus (69,4), a TokenFlow-XL (68,9) és a MetaMorph (75,2) eredményeit. A GenEval teszten a Janus-Pro 80%-os pontosságot produkált, többet, mint a DALL-E 3 (67%) vagy a Stable Diffusion 3 Medium (74%). A DPG-Bench teszten 84,19-es eredményt ért el, igazolva képességét a komplex promptok kezelésében.
Mi nem a Janus Pro?
A Janus Pro egy multimodális rendszer, azonban ennek megfelelően nem kifejezetten csak arra lett optimalizálva, hogy szövegből képet állítson elő. Így vélhetően nem lesz mindenki elégedett, azokkal a képekkel amiket a modellel generálni fog. Amilyen ütemben öntik azonban az újabbnál újabb modelleket a piacra, nem csodálkoznék ha hamarosan egy ilyet is készítenek majd. Olyan környezetben azonban ahol az erőforrás igény kritikus, remek választás lehet.

Hol lehet kipróbálni?
Mivel a modell open source, azaz nyílt forráskódú, egyrészt elérhető Hugging Face-en ahonnan vagy letölthetjük vagy ide kattintva akár ki is próbálhatjuk telepítés nélkül. Egy másik megoldás telepítést igényel ez esetben le kell tölteni a GitHub-ról a DeepSeek Gradio alkalmazását amelyben futtathatjuk a modellt.
Összegzés
A Janus Pro jelentős előrelépést képvisel a multimodális AI területén, javítva az adatok feldolgozását és a generált tartalmak minőségét. Az innovatív architektúra és fejlett képzési módszerek segítik a pontosabb és megbízhatóbb AI rendszerek fejlesztését, lehetőséget teremtve a mesterséges intelligencia további alkalmazásaira a valós problémák megoldásában. Figyelemre méltó hogy mindezt nyílt forráskódú alacsony gépigényű modellel érték el, továbbra is fenntartva a demokratikus mindenki számára elérhető mesterséges intelligencia elérhetőségének és elterjedésének lehetőségét.