Janus Pro, multimodális modell a DeepSeek AI-tól

A DeepSeek újabb modellt tett közzé amely az előző R1-el ellentétben egy multimodális modell, azaz képes szöveget és képi információkat egyszerre feldolgozni. Ennek megfelelően a Janus Pro alkalmas arra, hogy képet elemezzen vagy szövegből képet generáljon, az R1-hez hasonlóan rendkívül alacsony költségek mellett, versenyképes alternatívát kínálva az olyan vezető megoldásokkal szemben, mint az OpenAI DALL-E 3 és a Stability AI Stable Diffusion.

Előzmények és a modell főbb jellemzői

Tanulva a korábbi rendszerek, mint például az eredeti Janus modell, hibáiból a fejlesztők szakítottak azzal a módszerrel, hogy elkülönített kódolást alkalmazzanak a szöveges és vizuális adatok feldolgozására, mivel ez a megközelítés hamar skálázhatósági korlátokba és hatékonysági problémákba ütköztek. A DeepSeek legújabb fejlesztése, a Janus Pro, jelentős lépést jelent e korlátok leküzdésében, köszönhetően annak fejlettebb tanulási stratégiákat vezettek be. A tanítást egyrészt optimalizált képzési szakaszokra bontották, másrészt nagyobb és változatosabb adathalmazokat használtak. Jelenleg több mint 72 millió szintetikus esztétikai adat és 90 millió multimodális megértési adat biztosítja a megbízható kimeneteket.

Az architektúra fejlesztése során a kutatók elkülönített vizuális kódolási rendszert alkalmaztak, amely külön kezeli a megértést és a generálást. A megértési modul a SigLIP technológiát használja, amely képes a képek szemantikai jellemzőinek kiemelésére, míg a generálási rendszer VQ tokenizálást alkalmaz, amely diszkrét reprezentációkba alakítja a vizuális információt. A feldolgozást egy egységes autoregresszív transzformer segíti, amely multimodális jellemzősort hoz létre a feladatokhoz.   

A Janus Pro és annak előzetes modellje a Janus közötti tudásbeli különbségek
A Janus Pro és annak előzetes modellje a Janus közötti tudásbeli különbségek

A Janus-Pro képzési stratégiája három fázisból áll:

  1. Hosszú előképzés, amely különböző adathalmazokra épül.
  2. Hatékony finomhangolás, amely módosított adatarányokat használ.
  3. Felügyelt finomítás, amely a modalitások teljesítésének optimalizálására összpontosít.

A Janus-Pro teljesítényét számos teszt igazolja. Az MMBench teszten a 7B modell 79,2-es pontszámot ért el, meghaladva a korábbi Janus (69,4), a TokenFlow-XL (68,9) és a MetaMorph (75,2) eredményeit. A GenEval teszten a Janus-Pro 80%-os pontosságot produkált, többet, mint a DALL-E 3 (67%) vagy a Stable Diffusion 3 Medium (74%). A DPG-Bench teszten 84,19-es eredményt ért el, igazolva képességét a komplex promptok kezelésében.

Mi nem a Janus Pro?

A Janus Pro egy multimodális rendszer, azonban ennek megfelelően nem kifejezetten csak arra lett optimalizálva, hogy szövegből képet állítson elő. Így vélhetően nem lesz mindenki elégedett, azokkal a képekkel amiket a modellel generálni fog. Amilyen ütemben öntik azonban az újabbnál újabb modelleket a piacra, nem csodálkoznék ha hamarosan egy ilyet is készítenek majd. Olyan környezetben azonban ahol az erőforrás igény kritikus, remek választás lehet.   

Mona Lisa bosszúja a Janus Pro-n és a kínaiakon
Mona Lisa bosszúja a Janus Pro-n és a kínaiakon

Hol lehet kipróbálni?

Mivel a modell open source, azaz nyílt forráskódú, egyrészt elérhető Hugging Face-en ahonnan vagy letölthetjük vagy ide kattintva akár ki is próbálhatjuk telepítés nélkül. Egy másik megoldás telepítést igényel ez esetben le kell tölteni a GitHub-ról a DeepSeek Gradio alkalmazását amelyben futtathatjuk a modellt.

Összegzés

A Janus Pro jelentős előrelépést képvisel a multimodális AI területén, javítva az adatok feldolgozását és a generált tartalmak minőségét. Az innovatív architektúra és fejlett képzési módszerek segítik a pontosabb és megbízhatóbb AI rendszerek fejlesztését, lehetőséget teremtve a mesterséges intelligencia további alkalmazásaira a valós problémák megoldásában. Figyelemre méltó hogy mindezt nyílt forráskódú alacsony gépigényű modellel érték el, továbbra is fenntartva a demokratikus mindenki számára elérhető mesterséges intelligencia elérhetőségének és elterjedésének lehetőségét.   

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.
 Megjelent a Linux Kernel 6.16
Megjelent a Linux kernel 6.16-os verziója. Bár a kiadási folyamat a fejlesztők szerint a lehető legjobb értelemben vett „eseménytelenséggel” zajlott le, a felszín alatt jelentős fejlesztések történtek, amelyek biztonsági, teljesítménybeli és rendszerkezelési szempontból is előrelépést jelentenek. Eközben a soron következő 6.17-es verzió fejlesztése a megszokottnál kissé zavarosabban indult – ennek hátterében olyan emberi tényezők állnak, amelyek ritkán kerülnek reflektorfénybe egy ilyen méretű nyílt forráskódú projekt esetében.