Valós idejű zene komponálás a Google Magenta RT modelljével

A mesterséges intelligencia alkalmazása a zene komponálásban nem új keletű törekvés, ám a valós idejű működés sokáig jelentős akadályokba ütközött. A Google Magenta csapata most olyan fejlesztést mutatott be, amely a műfaj technikai és kreatív lehetőségeit egyaránt kiszélesítheti. A Magenta RealTime (röviden: Magenta RT) névre keresztelt új modell valós időben generál zenét, miközben nyitott forráskódjának köszönhetően bárki számára hozzáférhető.

A projekt célja, hogy közelebb hozza egymáshoz a gépi generálás és az élő, emberi zenealkotást. A fejlesztés hátterében egy olyan 800 millió paraméteres transzformer alapú nyelvi modell áll, amely 48 kHz-es sztereó hangminőséggel dolgozik. A rendszer az úgynevezett neural audio codec segítségével apró, jól kezelhető hangdarabokra bontja a zenét, és ezekből építi újra a folyamat során keletkező kompozíciókat. Fontos újdonság, hogy a Magenta RT képes akár gyorsabban is zenét alkotni, mint ahogyan azt valós időben lejátszanánk, ezáltal minimálisra csökkenti a várakozási időt az interakciók során.

A zenei irányítás szempontjából különösen figyelemre méltó, hogy a modell nemcsak szöveges utasításokra reagál, hanem hangminták alapján is képes stílus- és hangulatváltásokra. Ez a kettős megközelítés – szöveg és hang egyidejű használata – lehetővé teszi, hogy a felhasználók egyszerre adják meg a kívánt műfajt, tempót vagy hangszerelést, illetve azt is, hogy a korábban lejátszott részek hangzásvilágát folytassa vagy változtassa meg.

A modell működése 2 másodperces hangszegmenseken alapul, amelyek 10 másodperces történeti kontextus alapján épülnek fel. Ez az időbeli keretezés nemcsak technikai hatékonyságot biztosít, hanem a zenei folytonosság érzékét is megerősíti. A Magenta RT képességeit tovább erősíti a MusicCoCa nevű beágyazási modul, amely szöveges és hangalapú információkat is képes egységes zenei jelentéssé alakítani.

A technológia egyik legérdekesebb aspektusa a nyílt licencelés. Az Apache 2.0 engedély révén a Magenta RT szabadon elérhető a GitHubon és a Hugging Face platformján, ami nemcsak a fejlesztők, hanem a művészek és oktatók számára is komoly lehetőségeket nyit. A modell például alkalmazható élő előadások során, interaktív művészeti installációkban, zenepedagógiai eszközként vagy akár kreatív prototípusok gyors létrehozására.

Érdemes ugyanakkor megjegyezni, hogy a Magenta RT egy kísérleti technológia, amely elsősorban instrumentális zenére van kiképezve, és teljes kompozíciós önállóságot jelenleg még nem nyújt. A gépi zenealkotás továbbra is a kreatív emberi jelenlét kiegészítője marad, nem pedig helyettesítője. A fejlesztés azonban abba az irányba mutat, hogy az algoritmus és az ember közötti együttműködés egyre közvetlenebb, gyorsabb és árnyaltabb lehet.

Más modellekhez viszonyítva a Magenta RT különösen abban emelkedik ki, hogy nem csak előre generált zeneszámokat kínál, hanem valós időben képes reagálni a felhasználói utasításokra. Ez jelentős különbség például a Google másik modellje, a MusicLM, vagy a Meta MusicGen rendszeréhez képest, amelyeknél a teljes zenei anyag egyszerre, egy darabban készül el. A Magenta RT streaming alapú működése tehát újfajta zenei kísérletezést és interaktív előadást tesz lehetővé.

A Google jövőbeli tervei között szerepel a modell személyre szabható változatának kiadása, valamint a mobil eszközökön való futtatás lehetőségének vizsgálata. Ezek a fejlesztések újabb lépéseket jelenthetnek afelé, hogy a mesterséges intelligencia valóban aktív részévé váljon az élő zenealkotásnak.

A Magenta RealTime tehát nem csupán technológiai előrelépés, hanem egy gondolkodásmódot is képvisel: azt, hogy a mesterséges intelligencia nemcsak eszköz, hanem partner lehet az alkotásban. 

Osszd meg ezt a cikket
Hol tart ma valójában a mesterséges intelligencia?
A mesterséges intelligencia fejlesztése az elmúlt években látványos és gyakran lenyűgöző eredményeket produkált. Az olyan rendszerek, mint a ChatGPT, képesek természetes nyelvű szövegeket generálni, problémákat megoldani és sokszor az emberi teljesítményt is meghaladni különféle feladatokban. Ugyanakkor egyre több neves kutató és technológiai vezető – köztük John Carmack és François Chollet – hívja fel a figyelmet arra, hogy ezek az eredmények nem feltétlenül jelentik az általános mesterséges intelligencia (AGI) közeledtét. A színfalak mögött most új típusú problémák és kérdések kerültek a figyelem középpontjába, amelyek messze túlmutatnak a puszta teljesítményen.
A Rhino Linux új kiadással jelentkezik: 2025.3
A Linux disztribúciók körében főként kétféle szemléletmód terjedt el, vannak a stabil, ritkán frissülő rendszerek biztonságos kiszámíthatósággal, és a naprakész, de időnként kényes egyensúlyon balanszírozó, gördülő kiadású disztribúciók. A Rhino Linux ezt a két ellenpontot próbálja áthidalni, azaz egyszerre próbál naprakész lenni gördülő disztribúcióként, de alapként az Ubuntura épül, hogy megfelelő stabilitást is biztosítson.
SEAL az önmagát tanító mesterséges intelligencia előhírnöke
Hosszú évek óta tartja magát az elképzelés, hogy a mesterséges intelligencia fejlesztésének kulcsa az emberi tanítás: adatok, címkék, finomhangolás, gondosan megtervezett beavatkozások. Most azonban egy új megközelítés látott napvilágot. Az MIT kutatóinak legújabb munkája, a SEAL (Self-Adapting Language Models) névre keresztelt rendszer olyan nyelvi modelleket mutat be, amelyek képessé válnak saját maguk tanítására. Az eredmények nemcsak technológiai újdonságot jelentenek, hanem felvetik a kérdést: vajon milyen szerepet szánunk a jövőben az embernek az intelligens rendszerek képzésében?
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
A térbeli intelligencia a következő leküzdendő akadály az AGI előtt
Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések