Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle

Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.

Az OmniAvatar működése mögött egy többcsatornás tanulási megközelítés áll: a modell egyszerre dolgozza fel a hang, a kép és a szöveges utasítások (ún. promptok) adatait. A beszédhangot apróbb egységekre bontja, majd ezek alapján következtet az adott pillanat érzelmi töltetére, hangsúlyaira és ritmusára. Ezt követően a modell a megadott képpel és a szöveges irányítással együttműködve generálja le a mozgó, beszélő, érzelmeket tükröző karaktervideót. A rendszer nem csupán a szájmozgás szinkronizálására képes, hanem arra is, hogy a testbeszéd és az arckifejezések harmonizáljanak a kimondottakkal – sőt, a karakter akár tárgyakkal is interakcióba léphet, például mutathat, felemelhet valamit vagy gesztikulálhat.

A fejlesztés egyik fontos újítása, hogy mindezt a felhasználó egyszerű utasításokkal, szövegesen vezérelheti. Például megadhatjuk, hogy a karakter mosolyogjon, legyen dühös vagy meglepett, illetve hogy a jelenet egy irodahelyiségben vagy akár egy citromfa alatt játszódjon. Mindez új lehetőségeket nyit meg a tartalomgyártásban: oktatóvideók, virtuális túravezetések, ügyfélszolgálati szerepjátékok, sőt akár éneklő avatárok létrehozása is egyszerűbbé válik – mozgásrögzítés és színészi jelenlét nélkül.

A modell különlegessége azonban nemcsak a technológiai rugalmasságában rejlik, hanem abban is, hogy nyílt forráskódúként vált elérhetővé. Ez ritka lépés a vállalati szinten fejlesztett csúcstechnológiák világában. Az Alibaba és a fejlesztésben közreműködő Zhejiang Egyetem ezzel a döntéssel lehetőséget ad arra, hogy kutatók, fejlesztők és kreatív szakemberek világszerte kísérletezzenek vele, testre szabják és akár saját alkalmazásokba is integrálják.

Fontos ugyanakkor megemlíteni, hogy a jelenlegi demonstrációs videókban látható karakterek megjelenése még nem teljesen mentes a mesterséges hatástól. Egyes megfigyelők „műanyagos” látványvilágról számolnak be, amely a realizmus érzetétől némi távolságot tart. Ez azonban nem feltétlenül hátrány: a karakterek így is alkalmasak lehetnek informatív, oktató vagy promóciós célokra, főként olyan helyzetekben, ahol nem az élethűség, hanem a hatékony tartalomszolgáltatás a cél. Ráadásul a technikai részletek fejlődésével ez a vizuális korlát is fokozatosan eltűnhet.

A mögöttes rendszer építéséről a kutatócsoport egyelőre csak részleges technikai dokumentációt tett közzé, ám a megjelent tudományos közlés alapján a modell úgynevezett cross-modális (több érzékszervi csatornát egyesítő) tanulással működik. Ez azt jelenti, hogy a hang és a vizuális jelek együttes értelmezése révén éri el azt a mozgás- és érzelemgazdag kimenetet, amelyet a bemutatóvideók is prezentálnak.

A technológia további sorsa számos tényezőtől függ, elsősorban attól, mennyire sikerül még természetesebbé tenni az avatarok megjelenését, és mennyire képes beépülni a különböző iparági gyakorlatokba. Ugyanakkor az irány, amit kijelöl, már most is jól látható: egyre inkább a testbeszéddel és érzelmekkel rendelkező, automatizált, mégis személyes hatású digitális kommunikáció felé haladunk.

Az eszköz elérhetősége és sokoldalúsága miatt mind a kutatás, mind a gyakorlati alkalmazások szempontjából izgalmas lehetőségeket rejt. A következő évek kulcskérdése az lesz, miként használjuk ki ezt a lehetőséget: képesek leszünk-e értékteremtő, átgondolt módon beépíteni a hétköznapi digitális kommunikációba, vagy csupán egy újabb látványos technológiai ígéret marad? A válasz egyelőre nyitott – de az eszköz már a kezünkben van, bárki letöltheti a hivatalos GitHub repóból.

Osszd meg ezt a cikket
Hol tart ma valójában a mesterséges intelligencia?
A mesterséges intelligencia fejlesztése az elmúlt években látványos és gyakran lenyűgöző eredményeket produkált. Az olyan rendszerek, mint a ChatGPT, képesek természetes nyelvű szövegeket generálni, problémákat megoldani és sokszor az emberi teljesítményt is meghaladni különféle feladatokban. Ugyanakkor egyre több neves kutató és technológiai vezető – köztük John Carmack és François Chollet – hívja fel a figyelmet arra, hogy ezek az eredmények nem feltétlenül jelentik az általános mesterséges intelligencia (AGI) közeledtét. A színfalak mögött most új típusú problémák és kérdések kerültek a figyelem középpontjába, amelyek messze túlmutatnak a puszta teljesítményen.
A Rhino Linux új kiadással jelentkezik: 2025.3
A Linux disztribúciók körében főként kétféle szemléletmód terjedt el, vannak a stabil, ritkán frissülő rendszerek biztonságos kiszámíthatósággal, és a naprakész, de időnként kényes egyensúlyon balanszírozó, gördülő kiadású disztribúciók. A Rhino Linux ezt a két ellenpontot próbálja áthidalni, azaz egyszerre próbál naprakész lenni gördülő disztribúcióként, de alapként az Ubuntura épül, hogy megfelelő stabilitást is biztosítson.
SEAL az önmagát tanító mesterséges intelligencia előhírnöke
Hosszú évek óta tartja magát az elképzelés, hogy a mesterséges intelligencia fejlesztésének kulcsa az emberi tanítás: adatok, címkék, finomhangolás, gondosan megtervezett beavatkozások. Most azonban egy új megközelítés látott napvilágot. Az MIT kutatóinak legújabb munkája, a SEAL (Self-Adapting Language Models) névre keresztelt rendszer olyan nyelvi modelleket mutat be, amelyek képessé válnak saját maguk tanítására. Az eredmények nemcsak technológiai újdonságot jelentenek, hanem felvetik a kérdést: vajon milyen szerepet szánunk a jövőben az embernek az intelligens rendszerek képzésében?
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
A térbeli intelligencia a következő leküzdendő akadály az AGI előtt
Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.
Mi rejlik a Meta mesterséges intelligencia-újjászervezése mögött?
Mark Zuckerberg, a Meta vezérigazgatója nem először lép merészet, ám ezúttal minden eddiginél átfogóbb átszervezést hajt végre a cég mesterséges intelligenciával foglalkozó részlegeiben. A frissen létrehozott Meta Superintelligence Labs (MSL) névre keresztelt új divízió alá kerül az összes eddigi AI-csapat, beleértve a kutatás-fejlesztést, a termékfejlesztést és az alapmodellek építését. A cél nem csupán az emberi gondolkodással versenyképes mesterséges intelligencia (AGI), hanem egy olyan rendszerszintű szuperintelligencia megalkotása, amely meghaladja az emberi képességeket.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések