Janus Pro, multimodális modell a DeepSeek AI-tól

A DeepSeek újabb modellt tett közzé amely az előző R1-el ellentétben egy multimodális modell, azaz képes szöveget és képi információkat egyszerre feldolgozni. Ennek megfelelően a Janus Pro alkalmas arra, hogy képet elemezzen vagy szövegből képet generáljon, az R1-hez hasonlóan rendkívül alacsony költségek mellett, versenyképes alternatívát kínálva az olyan vezető megoldásokkal szemben, mint az OpenAI DALL-E 3 és a Stability AI Stable Diffusion.

Előzmények és a modell főbb jellemzői

Tanulva a korábbi rendszerek, mint például az eredeti Janus modell, hibáiból a fejlesztők szakítottak azzal a módszerrel, hogy elkülönített kódolást alkalmazzanak a szöveges és vizuális adatok feldolgozására, mivel ez a megközelítés hamar skálázhatósági korlátokba és hatékonysági problémákba ütköztek. A DeepSeek legújabb fejlesztése, a Janus Pro, jelentős lépést jelent e korlátok leküzdésében, köszönhetően annak fejlettebb tanulási stratégiákat vezettek be. A tanítást egyrészt optimalizált képzési szakaszokra bontották, másrészt nagyobb és változatosabb adathalmazokat használtak. Jelenleg több mint 72 millió szintetikus esztétikai adat és 90 millió multimodális megértési adat biztosítja a megbízható kimeneteket.

Az architektúra fejlesztése során a kutatók elkülönített vizuális kódolási rendszert alkalmaztak, amely külön kezeli a megértést és a generálást. A megértési modul a SigLIP technológiát használja, amely képes a képek szemantikai jellemzőinek kiemelésére, míg a generálási rendszer VQ tokenizálást alkalmaz, amely diszkrét reprezentációkba alakítja a vizuális információt. A feldolgozást egy egységes autoregresszív transzformer segíti, amely multimodális jellemzősort hoz létre a feladatokhoz.   

A Janus Pro és annak előzetes modellje a Janus közötti tudásbeli különbségek
A Janus Pro és annak előzetes modellje a Janus közötti tudásbeli különbségek

A Janus-Pro képzési stratégiája három fázisból áll:

  1. Hosszú előképzés, amely különböző adathalmazokra épül.
  2. Hatékony finomhangolás, amely módosított adatarányokat használ.
  3. Felügyelt finomítás, amely a modalitások teljesítésének optimalizálására összpontosít.

A Janus-Pro teljesítényét számos teszt igazolja. Az MMBench teszten a 7B modell 79,2-es pontszámot ért el, meghaladva a korábbi Janus (69,4), a TokenFlow-XL (68,9) és a MetaMorph (75,2) eredményeit. A GenEval teszten a Janus-Pro 80%-os pontosságot produkált, többet, mint a DALL-E 3 (67%) vagy a Stable Diffusion 3 Medium (74%). A DPG-Bench teszten 84,19-es eredményt ért el, igazolva képességét a komplex promptok kezelésében.

Mi nem a Janus Pro?

A Janus Pro egy multimodális rendszer, azonban ennek megfelelően nem kifejezetten csak arra lett optimalizálva, hogy szövegből képet állítson elő. Így vélhetően nem lesz mindenki elégedett, azokkal a képekkel amiket a modellel generálni fog. Amilyen ütemben öntik azonban az újabbnál újabb modelleket a piacra, nem csodálkoznék ha hamarosan egy ilyet is készítenek majd. Olyan környezetben azonban ahol az erőforrás igény kritikus, remek választás lehet.   

Mona Lisa bosszúja a Janus Pro-n és a kínaiakon
Mona Lisa bosszúja a Janus Pro-n és a kínaiakon

Hol lehet kipróbálni?

Mivel a modell open source, azaz nyílt forráskódú, egyrészt elérhető Hugging Face-en ahonnan vagy letölthetjük vagy ide kattintva akár ki is próbálhatjuk telepítés nélkül. Egy másik megoldás telepítést igényel ez esetben le kell tölteni a GitHub-ról a DeepSeek Gradio alkalmazását amelyben futtathatjuk a modellt.

Összegzés

A Janus Pro jelentős előrelépést képvisel a multimodális AI területén, javítva az adatok feldolgozását és a generált tartalmak minőségét. Az innovatív architektúra és fejlett képzési módszerek segítik a pontosabb és megbízhatóbb AI rendszerek fejlesztését, lehetőséget teremtve a mesterséges intelligencia további alkalmazásaira a valós problémák megoldásában. Figyelemre méltó hogy mindezt nyílt forráskódú alacsony gépigényű modellel érték el, továbbra is fenntartva a demokratikus mindenki számára elérhető mesterséges intelligencia elérhetőségének és elterjedésének lehetőségét.   

Osszd meg ezt a cikket
Az EU Open Web Index projektje újabb lépés a digitális függetlenség felé
Az Open Web Index (OWI) az Európai Unió Horizont programjának keretében megvalósuló, nyílt forráskódú kezdeményezés, amelynek célja a webes keresési technológiák demokratizálása és az Európa digitális szuverenitásának erősítése. A projekt 2025 júniusában lép nyilvánosság elé, amikor is egy közös, mindenki számára hozzáférhető webindexet bocsát rendelkezésre, elválasztva az indexelési infrastruktúrát az azt hasznosító keresőszolgáltatásoktól. Ezzel az OWI nem csupán technikai újításokat kínál, hanem paradigmaváltást is a globális keresőpiacon, ahol ma több mint kilencven százalékos részesedésével egyetlen szereplő – a Google – határozza meg az online információhoz való hozzáférést.
Fejlettebb védelemmel jelenik meg az Android 16
Az Android 16 új kiadása az eddigi legátfogóbb eszközszintű védelmet kínálja a platform hárommilliárd felhasználója számára, középpontba helyezve a magas kockázatú személyek védelmét, ugyanakkor minden biztonságtudatos felhasználó számára jelentős előrelépést jelent. A rendszer legfontosabb eleme a továbbfejlesztett Speciális védelmi program, amely korábbi, fiókszintű beállítások helyett immár teljes körű, eszközszintű védelmi mechanizmusokat aktivál. Így az újságírók, közéleti személyiségek és más, kifinomult kiberfenyegetéseknek kitett felhasználók is egyetlen kapcsoló érintésével juthatnak hozzá a platform legerősebb biztonsági funkcióihoz.
GitHub-integrációval erősít a Gemini Advanced
A mesterséges intelligencia alapú fejlesztői eszközök terén nincs hiány újabb és újabb fejlesztésekben. A Google ezzel kapcsolatban most bejelentette, hogy közvetlen GitHub-integrációval bővíti Gemini Advanced nevű prémium AI-asszisztensét. A lépés nem csupán válasz a rivális OpenAI hasonló fejlesztéseire, hanem egyben komoly előrelépés is a fejlesztői munkafolyamatok hatékonyságának növelésében.
Súlyos fenyegetést jelentenek a hamis AI videó generáló platformok
Kiberbiztonsági kutatók egy kifinomult új rosszindulatú támadási módszert fedeztek fel, amely a mesterséges intelligencia eszközök felhasználóit veszi célba. A Noodlophile Stealer névre keresztelt, korábban nem dokumentált rosszindulatú szoftvereket hamis AI-videógeneráló platformokon keresztül terjesztik, amelyeket Facebook-csoportokon és más közösségi média platformokon keresztül népszerűsítenek. A támadás kihasználja az AI-alapú tartalomkészítő eszközök iránti növekvő lelkesedést, és fejlett videoszerkesztési képességek ígéretével csalogatja az áldozatokat, hogy aztán rosszindulatú szoftvereket telepítsen. A támadás többlépcsős hiszen a social engineeringet összetett technikai megoldásokkal kombinálja, hogy végül egy trójai programon keresztül érzékeny információkat, köztük a böngésző hitelesítő adatokat és kriptopénz tárca adatokat lopjanak el.