Janus Pro, multimodális modell a DeepSeek AI-tól

A DeepSeek újabb modellt tett közzé amely az előző R1-el ellentétben egy multimodális modell, azaz képes szöveget és képi információkat egyszerre feldolgozni. Ennek megfelelően a Janus Pro alkalmas arra, hogy képet elemezzen vagy szövegből képet generáljon, az R1-hez hasonlóan rendkívül alacsony költségek mellett, versenyképes alternatívát kínálva az olyan vezető megoldásokkal szemben, mint az OpenAI DALL-E 3 és a Stability AI Stable Diffusion.

Előzmények és a modell főbb jellemzői

Tanulva a korábbi rendszerek, mint például az eredeti Janus modell, hibáiból a fejlesztők szakítottak azzal a módszerrel, hogy elkülönített kódolást alkalmazzanak a szöveges és vizuális adatok feldolgozására, mivel ez a megközelítés hamar skálázhatósági korlátokba és hatékonysági problémákba ütköztek. A DeepSeek legújabb fejlesztése, a Janus Pro, jelentős lépést jelent e korlátok leküzdésében, köszönhetően annak fejlettebb tanulási stratégiákat vezettek be. A tanítást egyrészt optimalizált képzési szakaszokra bontották, másrészt nagyobb és változatosabb adathalmazokat használtak. Jelenleg több mint 72 millió szintetikus esztétikai adat és 90 millió multimodális megértési adat biztosítja a megbízható kimeneteket.

Az architektúra fejlesztése során a kutatók elkülönített vizuális kódolási rendszert alkalmaztak, amely külön kezeli a megértést és a generálást. A megértési modul a SigLIP technológiát használja, amely képes a képek szemantikai jellemzőinek kiemelésére, míg a generálási rendszer VQ tokenizálást alkalmaz, amely diszkrét reprezentációkba alakítja a vizuális információt. A feldolgozást egy egységes autoregresszív transzformer segíti, amely multimodális jellemzősort hoz létre a feladatokhoz.   

A Janus Pro és annak előzetes modellje a Janus közötti tudásbeli különbségek
A Janus Pro és annak előzetes modellje a Janus közötti tudásbeli különbségek

A Janus-Pro képzési stratégiája három fázisból áll:

  1. Hosszú előképzés, amely különböző adathalmazokra épül.
  2. Hatékony finomhangolás, amely módosított adatarányokat használ.
  3. Felügyelt finomítás, amely a modalitások teljesítésének optimalizálására összpontosít.

A Janus-Pro teljesítényét számos teszt igazolja. Az MMBench teszten a 7B modell 79,2-es pontszámot ért el, meghaladva a korábbi Janus (69,4), a TokenFlow-XL (68,9) és a MetaMorph (75,2) eredményeit. A GenEval teszten a Janus-Pro 80%-os pontosságot produkált, többet, mint a DALL-E 3 (67%) vagy a Stable Diffusion 3 Medium (74%). A DPG-Bench teszten 84,19-es eredményt ért el, igazolva képességét a komplex promptok kezelésében.

Mi nem a Janus Pro?

A Janus Pro egy multimodális rendszer, azonban ennek megfelelően nem kifejezetten csak arra lett optimalizálva, hogy szövegből képet állítson elő. Így vélhetően nem lesz mindenki elégedett, azokkal a képekkel amiket a modellel generálni fog. Amilyen ütemben öntik azonban az újabbnál újabb modelleket a piacra, nem csodálkoznék ha hamarosan egy ilyet is készítenek majd. Olyan környezetben azonban ahol az erőforrás igény kritikus, remek választás lehet.   

Mona Lisa bosszúja a Janus Pro-n és a kínaiakon
Mona Lisa bosszúja a Janus Pro-n és a kínaiakon

Hol lehet kipróbálni?

Mivel a modell open source, azaz nyílt forráskódú, egyrészt elérhető Hugging Face-en ahonnan vagy letölthetjük vagy ide kattintva akár ki is próbálhatjuk telepítés nélkül. Egy másik megoldás telepítést igényel ez esetben le kell tölteni a GitHub-ról a DeepSeek Gradio alkalmazását amelyben futtathatjuk a modellt.

Összegzés

A Janus Pro jelentős előrelépést képvisel a multimodális AI területén, javítva az adatok feldolgozását és a generált tartalmak minőségét. Az innovatív architektúra és fejlett képzési módszerek segítik a pontosabb és megbízhatóbb AI rendszerek fejlesztését, lehetőséget teremtve a mesterséges intelligencia további alkalmazásaira a valós problémák megoldásában. Figyelemre méltó hogy mindezt nyílt forráskódú alacsony gépigényű modellel érték el, továbbra is fenntartva a demokratikus mindenki számára elérhető mesterséges intelligencia elérhetőségének és elterjedésének lehetőségét.   

Osszd meg ezt a cikket
Hol tart ma valójában a mesterséges intelligencia?
A mesterséges intelligencia fejlesztése az elmúlt években látványos és gyakran lenyűgöző eredményeket produkált. Az olyan rendszerek, mint a ChatGPT, képesek természetes nyelvű szövegeket generálni, problémákat megoldani és sokszor az emberi teljesítményt is meghaladni különféle feladatokban. Ugyanakkor egyre több neves kutató és technológiai vezető – köztük John Carmack és François Chollet – hívja fel a figyelmet arra, hogy ezek az eredmények nem feltétlenül jelentik az általános mesterséges intelligencia (AGI) közeledtét. A színfalak mögött most új típusú problémák és kérdések kerültek a figyelem középpontjába, amelyek messze túlmutatnak a puszta teljesítményen.
A Rhino Linux új kiadással jelentkezik: 2025.3
A Linux disztribúciók körében főként kétféle szemléletmód terjedt el, vannak a stabil, ritkán frissülő rendszerek biztonságos kiszámíthatósággal, és a naprakész, de időnként kényes egyensúlyon balanszírozó, gördülő kiadású disztribúciók. A Rhino Linux ezt a két ellenpontot próbálja áthidalni, azaz egyszerre próbál naprakész lenni gördülő disztribúcióként, de alapként az Ubuntura épül, hogy megfelelő stabilitást is biztosítson.
SEAL az önmagát tanító mesterséges intelligencia előhírnöke
Hosszú évek óta tartja magát az elképzelés, hogy a mesterséges intelligencia fejlesztésének kulcsa az emberi tanítás: adatok, címkék, finomhangolás, gondosan megtervezett beavatkozások. Most azonban egy új megközelítés látott napvilágot. Az MIT kutatóinak legújabb munkája, a SEAL (Self-Adapting Language Models) névre keresztelt rendszer olyan nyelvi modelleket mutat be, amelyek képessé válnak saját maguk tanítására. Az eredmények nemcsak technológiai újdonságot jelentenek, hanem felvetik a kérdést: vajon milyen szerepet szánunk a jövőben az embernek az intelligens rendszerek képzésében?
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
A térbeli intelligencia a következő leküzdendő akadály az AGI előtt
Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések