A mesterséges intelligencia alkalmazása a zene komponálásban nem új keletű törekvés, ám a valós idejű működés sokáig jelentős akadályokba ütközött. A Google Magenta csapata most olyan fejlesztést mutatott be, amely a műfaj technikai és kreatív lehetőségeit egyaránt kiszélesítheti. A Magenta RealTime (röviden: Magenta RT) névre keresztelt új modell valós időben generál zenét, miközben nyitott forráskódjának köszönhetően bárki számára hozzáférhető.
A projekt célja, hogy közelebb hozza egymáshoz a gépi generálás és az élő, emberi zenealkotást. A fejlesztés hátterében egy olyan 800 millió paraméteres transzformer alapú nyelvi modell áll, amely 48 kHz-es sztereó hangminőséggel dolgozik. A rendszer az úgynevezett neural audio codec segítségével apró, jól kezelhető hangdarabokra bontja a zenét, és ezekből építi újra a folyamat során keletkező kompozíciókat. Fontos újdonság, hogy a Magenta RT képes akár gyorsabban is zenét alkotni, mint ahogyan azt valós időben lejátszanánk, ezáltal minimálisra csökkenti a várakozási időt az interakciók során.
A zenei irányítás szempontjából különösen figyelemre méltó, hogy a modell nemcsak szöveges utasításokra reagál, hanem hangminták alapján is képes stílus- és hangulatváltásokra. Ez a kettős megközelítés – szöveg és hang egyidejű használata – lehetővé teszi, hogy a felhasználók egyszerre adják meg a kívánt műfajt, tempót vagy hangszerelést, illetve azt is, hogy a korábban lejátszott részek hangzásvilágát folytassa vagy változtassa meg.
A modell működése 2 másodperces hangszegmenseken alapul, amelyek 10 másodperces történeti kontextus alapján épülnek fel. Ez az időbeli keretezés nemcsak technikai hatékonyságot biztosít, hanem a zenei folytonosság érzékét is megerősíti. A Magenta RT képességeit tovább erősíti a MusicCoCa nevű beágyazási modul, amely szöveges és hangalapú információkat is képes egységes zenei jelentéssé alakítani.
A technológia egyik legérdekesebb aspektusa a nyílt licencelés. Az Apache 2.0 engedély révén a Magenta RT szabadon elérhető a GitHubon és a Hugging Face platformján, ami nemcsak a fejlesztők, hanem a művészek és oktatók számára is komoly lehetőségeket nyit. A modell például alkalmazható élő előadások során, interaktív művészeti installációkban, zenepedagógiai eszközként vagy akár kreatív prototípusok gyors létrehozására.
Érdemes ugyanakkor megjegyezni, hogy a Magenta RT egy kísérleti technológia, amely elsősorban instrumentális zenére van kiképezve, és teljes kompozíciós önállóságot jelenleg még nem nyújt. A gépi zenealkotás továbbra is a kreatív emberi jelenlét kiegészítője marad, nem pedig helyettesítője. A fejlesztés azonban abba az irányba mutat, hogy az algoritmus és az ember közötti együttműködés egyre közvetlenebb, gyorsabb és árnyaltabb lehet.
Más modellekhez viszonyítva a Magenta RT különösen abban emelkedik ki, hogy nem csak előre generált zeneszámokat kínál, hanem valós időben képes reagálni a felhasználói utasításokra. Ez jelentős különbség például a Google másik modellje, a MusicLM, vagy a Meta MusicGen rendszeréhez képest, amelyeknél a teljes zenei anyag egyszerre, egy darabban készül el. A Magenta RT streaming alapú működése tehát újfajta zenei kísérletezést és interaktív előadást tesz lehetővé.
A Google jövőbeli tervei között szerepel a modell személyre szabható változatának kiadása, valamint a mobil eszközökön való futtatás lehetőségének vizsgálata. Ezek a fejlesztések újabb lépéseket jelenthetnek afelé, hogy a mesterséges intelligencia valóban aktív részévé váljon az élő zenealkotásnak.
A Magenta RealTime tehát nem csupán technológiai előrelépés, hanem egy gondolkodásmódot is képvisel: azt, hogy a mesterséges intelligencia nemcsak eszköz, hanem partner lehet az alkotásban.