Valós idejű zene komponálás a Google Magenta RT modelljével

A mesterséges intelligencia alkalmazása a zene komponálásban nem új keletű törekvés, ám a valós idejű működés sokáig jelentős akadályokba ütközött. A Google Magenta csapata most olyan fejlesztést mutatott be, amely a műfaj technikai és kreatív lehetőségeit egyaránt kiszélesítheti. A Magenta RealTime (röviden: Magenta RT) névre keresztelt új modell valós időben generál zenét, miközben nyitott forráskódjának köszönhetően bárki számára hozzáférhető.

A projekt célja, hogy közelebb hozza egymáshoz a gépi generálás és az élő, emberi zenealkotást. A fejlesztés hátterében egy olyan 800 millió paraméteres transzformer alapú nyelvi modell áll, amely 48 kHz-es sztereó hangminőséggel dolgozik. A rendszer az úgynevezett neural audio codec segítségével apró, jól kezelhető hangdarabokra bontja a zenét, és ezekből építi újra a folyamat során keletkező kompozíciókat. Fontos újdonság, hogy a Magenta RT képes akár gyorsabban is zenét alkotni, mint ahogyan azt valós időben lejátszanánk, ezáltal minimálisra csökkenti a várakozási időt az interakciók során.

A zenei irányítás szempontjából különösen figyelemre méltó, hogy a modell nemcsak szöveges utasításokra reagál, hanem hangminták alapján is képes stílus- és hangulatváltásokra. Ez a kettős megközelítés – szöveg és hang egyidejű használata – lehetővé teszi, hogy a felhasználók egyszerre adják meg a kívánt műfajt, tempót vagy hangszerelést, illetve azt is, hogy a korábban lejátszott részek hangzásvilágát folytassa vagy változtassa meg.

A modell működése 2 másodperces hangszegmenseken alapul, amelyek 10 másodperces történeti kontextus alapján épülnek fel. Ez az időbeli keretezés nemcsak technikai hatékonyságot biztosít, hanem a zenei folytonosság érzékét is megerősíti. A Magenta RT képességeit tovább erősíti a MusicCoCa nevű beágyazási modul, amely szöveges és hangalapú információkat is képes egységes zenei jelentéssé alakítani.

A technológia egyik legérdekesebb aspektusa a nyílt licencelés. Az Apache 2.0 engedély révén a Magenta RT szabadon elérhető a GitHubon és a Hugging Face platformján, ami nemcsak a fejlesztők, hanem a művészek és oktatók számára is komoly lehetőségeket nyit. A modell például alkalmazható élő előadások során, interaktív művészeti installációkban, zenepedagógiai eszközként vagy akár kreatív prototípusok gyors létrehozására.

Érdemes ugyanakkor megjegyezni, hogy a Magenta RT egy kísérleti technológia, amely elsősorban instrumentális zenére van kiképezve, és teljes kompozíciós önállóságot jelenleg még nem nyújt. A gépi zenealkotás továbbra is a kreatív emberi jelenlét kiegészítője marad, nem pedig helyettesítője. A fejlesztés azonban abba az irányba mutat, hogy az algoritmus és az ember közötti együttműködés egyre közvetlenebb, gyorsabb és árnyaltabb lehet.

Más modellekhez viszonyítva a Magenta RT különösen abban emelkedik ki, hogy nem csak előre generált zeneszámokat kínál, hanem valós időben képes reagálni a felhasználói utasításokra. Ez jelentős különbség például a Google másik modellje, a MusicLM, vagy a Meta MusicGen rendszeréhez képest, amelyeknél a teljes zenei anyag egyszerre, egy darabban készül el. A Magenta RT streaming alapú működése tehát újfajta zenei kísérletezést és interaktív előadást tesz lehetővé.

A Google jövőbeli tervei között szerepel a modell személyre szabható változatának kiadása, valamint a mobil eszközökön való futtatás lehetőségének vizsgálata. Ezek a fejlesztések újabb lépéseket jelenthetnek afelé, hogy a mesterséges intelligencia valóban aktív részévé váljon az élő zenealkotásnak.

A Magenta RealTime tehát nem csupán technológiai előrelépés, hanem egy gondolkodásmódot is képvisel: azt, hogy a mesterséges intelligencia nemcsak eszköz, hanem partner lehet az alkotásban. 

Osszd meg ezt a cikket
Ufficio Zero egy olasz Linux disztribúció a fenntartható digitális munkavégzésért
Az Ufficio Zero Linux OS egy kevéssé ismert, de egyre komolyabb figyelmet érdemlő olasz fejlesztésű operációs rendszer. Elsősorban irodai és hivatali munkakörnyezetek számára készült, és különösen azoknak lehet érdekes, akik stabil, megbízható és hosszú távon is használható alternatívát keresnek a kereskedelmi rendszerekkel szemben. Az Ufficio Zero sajátos helyet foglal el a nyílt forráskódú rendszerek világában: egyszerre kíván választ adni a digitális infrastruktúra elavulására, valamint a munkavégzéshez nélkülözhetetlen szoftvereszközök elérhetőségének problémáira.
Mit jelentene az Apple számára a Perplexity AI felvásárlása?
Az Apple régóta igyekszik megtalálni a helyét a generatív mesterséges intelligencia gyorsan alakuló piacán. A vállalat évtizedeken át stratégikusan kivárt, mielőtt jelentősebb erőforrásokat irányított volna mesterséges intelligencia-alapú fejlesztésekbe. Most azonban, a legfrissebb hírek szerint, a cupertinói cég egy minden eddiginél nagyobb szabású lépésre készülhet: belső körökben megindultak az egyeztetések a Perplexity AI nevű startup esetleges felvásárlásáról.
 Nanomásodpercek alatt dönt az új AI-chip ami épp most forradalmasítja az orvoslást és a távközlést
Ahogy egyre több eszköz kapcsolódik az internetre, és nő az igény az azonnali, nagy sávszélességet igénylő alkalmazások iránt – ilyenek például a felhőalapú játékok, a videóhívások vagy az okosotthonok –, egyre komolyabb kihívást jelent a vezeték nélküli hálózatok hatékony működtetése. A problémát tovább súlyosbítja, hogy a vezeték nélküli spektrum – vagyis a rendelkezésre álló frekvenciasáv – korlátozott. A megoldás keresése során a mérnökök egyre inkább a mesterséges intelligenciához fordulnak, ám a jelenlegi rendszerek sokszor lassúak és energiaigényesek. Ezen a helyzeten változtathat egy új fejlesztés, amely az adattovábbítást és -feldolgozást a fénysebességre emeli.
Így torzít az LLM
A mesterséges intelligencia (MI) fejlődésével párhuzamosan egyre több figyelem irányul az úgynevezett nagy nyelvi modellekre (LLM-ekre), amelyek már nemcsak a tudományos kutatásban, hanem a mindennapi élet számos területén is jelen vannak – például ügyvédi munkában, egészségügyi adatok elemzésében vagy számítógépes programok kódolásában. E modellek működésének megértése ugyanakkor továbbra is komoly kihívást jelent, különösen akkor, amikor azok látszólag megmagyarázhatatlan módon követnek el hibákat vagy adnak félrevezető válaszokat.
MiniMax-M1 AI modell, célkeresztben a nagy méretű szövegek kezelése
A mesterséges intelligencia rendszerek fejlődésével egyre nagyobb az igény olyan modellekre, amelyek nemcsak a nyelv értelmezésére képesek, hanem összetett, többlépcsős gondolkodási folyamatokat is képesek végigvinni. Az ilyen modellek kulcsfontosságúak lehetnek nemcsak elméleti feladatokban, hanem például szoftverfejlesztés vagy valós idejű döntéshozatal során is. Ezek az alkalmazások azonban különösen érzékenyek a számítási költségekre, amelyeket a hagyományos megközelítések gyakran nehezen tudnak kordában tartani.
Hogyan alakítja át a mesterséges intelligencia ökoszisztémát az OpenAI és a Microsoft viszonya?
A mesterséges intelligencia iparában zajló gyors technológiai és üzleti átalakulások egyik legszembetűnőbb példáját a Microsoft és az OpenAI kapcsolatának újradefiniálása jelenti. A két vállalat éveken át szoros szövetségben dolgozott együtt, ám a közelmúlt fejleményei világosan mutatják: az iparági logika immár nem a kizárólagos partnerségeket, hanem a rugalmasabb, többszereplős együttműködési modelleket részesíti előnyben.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések