Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle

Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.

Az OmniAvatar működése mögött egy többcsatornás tanulási megközelítés áll: a modell egyszerre dolgozza fel a hang, a kép és a szöveges utasítások (ún. promptok) adatait. A beszédhangot apróbb egységekre bontja, majd ezek alapján következtet az adott pillanat érzelmi töltetére, hangsúlyaira és ritmusára. Ezt követően a modell a megadott képpel és a szöveges irányítással együttműködve generálja le a mozgó, beszélő, érzelmeket tükröző karaktervideót. A rendszer nem csupán a szájmozgás szinkronizálására képes, hanem arra is, hogy a testbeszéd és az arckifejezések harmonizáljanak a kimondottakkal – sőt, a karakter akár tárgyakkal is interakcióba léphet, például mutathat, felemelhet valamit vagy gesztikulálhat.

A fejlesztés egyik fontos újítása, hogy mindezt a felhasználó egyszerű utasításokkal, szövegesen vezérelheti. Például megadhatjuk, hogy a karakter mosolyogjon, legyen dühös vagy meglepett, illetve hogy a jelenet egy irodahelyiségben vagy akár egy citromfa alatt játszódjon. Mindez új lehetőségeket nyit meg a tartalomgyártásban: oktatóvideók, virtuális túravezetések, ügyfélszolgálati szerepjátékok, sőt akár éneklő avatárok létrehozása is egyszerűbbé válik – mozgásrögzítés és színészi jelenlét nélkül.

A modell különlegessége azonban nemcsak a technológiai rugalmasságában rejlik, hanem abban is, hogy nyílt forráskódúként vált elérhetővé. Ez ritka lépés a vállalati szinten fejlesztett csúcstechnológiák világában. Az Alibaba és a fejlesztésben közreműködő Zhejiang Egyetem ezzel a döntéssel lehetőséget ad arra, hogy kutatók, fejlesztők és kreatív szakemberek világszerte kísérletezzenek vele, testre szabják és akár saját alkalmazásokba is integrálják.

Fontos ugyanakkor megemlíteni, hogy a jelenlegi demonstrációs videókban látható karakterek megjelenése még nem teljesen mentes a mesterséges hatástól. Egyes megfigyelők „műanyagos” látványvilágról számolnak be, amely a realizmus érzetétől némi távolságot tart. Ez azonban nem feltétlenül hátrány: a karakterek így is alkalmasak lehetnek informatív, oktató vagy promóciós célokra, főként olyan helyzetekben, ahol nem az élethűség, hanem a hatékony tartalomszolgáltatás a cél. Ráadásul a technikai részletek fejlődésével ez a vizuális korlát is fokozatosan eltűnhet.

A mögöttes rendszer építéséről a kutatócsoport egyelőre csak részleges technikai dokumentációt tett közzé, ám a megjelent tudományos közlés alapján a modell úgynevezett cross-modális (több érzékszervi csatornát egyesítő) tanulással működik. Ez azt jelenti, hogy a hang és a vizuális jelek együttes értelmezése révén éri el azt a mozgás- és érzelemgazdag kimenetet, amelyet a bemutatóvideók is prezentálnak.

A technológia további sorsa számos tényezőtől függ, elsősorban attól, mennyire sikerül még természetesebbé tenni az avatarok megjelenését, és mennyire képes beépülni a különböző iparági gyakorlatokba. Ugyanakkor az irány, amit kijelöl, már most is jól látható: egyre inkább a testbeszéddel és érzelmekkel rendelkező, automatizált, mégis személyes hatású digitális kommunikáció felé haladunk.

Az eszköz elérhetősége és sokoldalúsága miatt mind a kutatás, mind a gyakorlati alkalmazások szempontjából izgalmas lehetőségeket rejt. A következő évek kulcskérdése az lesz, miként használjuk ki ezt a lehetőséget: képesek leszünk-e értékteremtő, átgondolt módon beépíteni a hétköznapi digitális kommunikációba, vagy csupán egy újabb látványos technológiai ígéret marad? A válasz egyelőre nyitott – de az eszköz már a kezünkben van, bárki letöltheti a hivatalos GitHub repóból.

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Brutális negyedév az Apple-nél, de mi lesz az iPhone után?
Az Apple a globális gazdasági és kereskedelmi kihívások közepette ismét bizonyította rendkívüli piaci erejét, felülmúlva az elemzői várakozásokat a 2025-ös pénzügyi év harmadik negyedévében. A cupertinói óriás nem csupán rekordbevételt könyvelt el a júniussal zárult időszakban, de egy történelmi mérföldkövet is elért: leszállította a hárommilliárdodik iPhone-t. Ez az eredmény egy olyan korszakban született, amikor a vállalatot egyszerre sújtják a büntetővámok költségei és a mesterséges intelligencia területén tapasztalható, egyre élesedő verseny és számos kudarc amit a vállalat kénytelen volt elszenvedni.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.