Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
Az OmniAvatar működése mögött egy többcsatornás tanulási megközelítés áll: a modell egyszerre dolgozza fel a hang, a kép és a szöveges utasítások (ún. promptok) adatait. A beszédhangot apróbb egységekre bontja, majd ezek alapján következtet az adott pillanat érzelmi töltetére, hangsúlyaira és ritmusára. Ezt követően a modell a megadott képpel és a szöveges irányítással együttműködve generálja le a mozgó, beszélő, érzelmeket tükröző karaktervideót. A rendszer nem csupán a szájmozgás szinkronizálására képes, hanem arra is, hogy a testbeszéd és az arckifejezések harmonizáljanak a kimondottakkal – sőt, a karakter akár tárgyakkal is interakcióba léphet, például mutathat, felemelhet valamit vagy gesztikulálhat.
A fejlesztés egyik fontos újítása, hogy mindezt a felhasználó egyszerű utasításokkal, szövegesen vezérelheti. Például megadhatjuk, hogy a karakter mosolyogjon, legyen dühös vagy meglepett, illetve hogy a jelenet egy irodahelyiségben vagy akár egy citromfa alatt játszódjon. Mindez új lehetőségeket nyit meg a tartalomgyártásban: oktatóvideók, virtuális túravezetések, ügyfélszolgálati szerepjátékok, sőt akár éneklő avatárok létrehozása is egyszerűbbé válik – mozgásrögzítés és színészi jelenlét nélkül.
A modell különlegessége azonban nemcsak a technológiai rugalmasságában rejlik, hanem abban is, hogy nyílt forráskódúként vált elérhetővé. Ez ritka lépés a vállalati szinten fejlesztett csúcstechnológiák világában. Az Alibaba és a fejlesztésben közreműködő Zhejiang Egyetem ezzel a döntéssel lehetőséget ad arra, hogy kutatók, fejlesztők és kreatív szakemberek világszerte kísérletezzenek vele, testre szabják és akár saját alkalmazásokba is integrálják.
Emotion Control
— Angry Tom (@AngryTomtweets) July 1, 2025
OmniAvatar can control the emotions through prompts, like happy, angry, surprise and sad. pic.twitter.com/fcJQ4ZmSVV
Fontos ugyanakkor megemlíteni, hogy a jelenlegi demonstrációs videókban látható karakterek megjelenése még nem teljesen mentes a mesterséges hatástól. Egyes megfigyelők „műanyagos” látványvilágról számolnak be, amely a realizmus érzetétől némi távolságot tart. Ez azonban nem feltétlenül hátrány: a karakterek így is alkalmasak lehetnek informatív, oktató vagy promóciós célokra, főként olyan helyzetekben, ahol nem az élethűség, hanem a hatékony tartalomszolgáltatás a cél. Ráadásul a technikai részletek fejlődésével ez a vizuális korlát is fokozatosan eltűnhet.
A mögöttes rendszer építéséről a kutatócsoport egyelőre csak részleges technikai dokumentációt tett közzé, ám a megjelent tudományos közlés alapján a modell úgynevezett cross-modális (több érzékszervi csatornát egyesítő) tanulással működik. Ez azt jelenti, hogy a hang és a vizuális jelek együttes értelmezése révén éri el azt a mozgás- és érzelemgazdag kimenetet, amelyet a bemutatóvideók is prezentálnak.
A technológia további sorsa számos tényezőtől függ, elsősorban attól, mennyire sikerül még természetesebbé tenni az avatarok megjelenését, és mennyire képes beépülni a különböző iparági gyakorlatokba. Ugyanakkor az irány, amit kijelöl, már most is jól látható: egyre inkább a testbeszéddel és érzelmekkel rendelkező, automatizált, mégis személyes hatású digitális kommunikáció felé haladunk.
Az eszköz elérhetősége és sokoldalúsága miatt mind a kutatás, mind a gyakorlati alkalmazások szempontjából izgalmas lehetőségeket rejt. A következő évek kulcskérdése az lesz, miként használjuk ki ezt a lehetőséget: képesek leszünk-e értékteremtő, átgondolt módon beépíteni a hétköznapi digitális kommunikációba, vagy csupán egy újabb látványos technológiai ígéret marad? A válasz egyelőre nyitott – de az eszköz már a kezünkben van, bárki letöltheti a hivatalos GitHub repóból.