Videójátékok a mesterséges intelligencia tesztelésben

 A videójátékok már évtizedek óta szolgálnak olyan laboratóriumként, ahol különböző AI-algoritmusok képességeit tesztelik. A játékok – legyen szó klasszikus platformjátékokról vagy összetettebb stratégiai környezetekről – lehetőséget nyújtanak arra, hogy a mesterséges intelligencia rendszerek megtanulják a cselekvést, alkalmazkodjanak a változó környezethez, és optimalizálják döntéseiket a jutalmak elérése érdekében.

A Hao AI Lab például nemrég a Super Mario Bros segítségével végzett kísérleteket. Az egyes AI modelleknek Python kódokat kellett generálniuk, amely kódok segítségével lehetett vezérelni a játékot. A kísérletek azt mutatták, hogy a modellek egyre jobban megtanultak összetett manővereket tervezni és különböző játékstratégiákat dolgoztak ki. A tesztelés során a Claude 3.7 bizonyult a legjobbnak amit a Claude 3.5 követett, míg az érvelő modellek mint például az OpenAI o1 kifejezetten rosszul teljesítettek.

A játékok alkalmazása számos előnyt kínál az AI fejlesztésében:

  • Nagy mennyiségű adat és gyors szimuláció: Az absztrakt és viszonylag egyszerű játékmechanikák lehetővé teszik, hogy az AI modellek rengeteg játékmenetet “megszerezzenek” rövid idő alatt. Ez a megerősítéses tanuláshoz nélkülözhetetlen, hiszen a rendszer folyamatos visszajelzéseket kap arról, mely cselekvések vezetnek sikerre.

  • Egyértelmű célok és szabályok: A játékokban egyértelműen definiált célok (pl. egy szint sikeres teljesítése vagy egy ellenség leküzdése) segítik az AI algoritmusokat abban, hogy gyorsan konvergáljanak, és egyszerűsítik a teljesítmény mérését.

  • Laboratóriumi környezet: A játékok absztrakciója révén a kutatók szabályozott környezetben vizsgálhatják a tanulási folyamatokat, ami hozzájárul a gyors kísérletezéshez és a módszerek finomhangolásához.

Annak ellenére, hogy a játékok kiváló tesztterületként szolgálnak, több szakértő is rámutatott arra, hogy a játékok által nyújtott mércék nem feltétlenül tükrözik a valós világ komplexitását:

  • Általánosíthatóság hiánya: Az AI modellek gyakran csak a konkrét játék mechanikáira optimalizálódnak, így egy apró módosítás is jelentős teljesítményromláshoz vezethet. Például a Super Mario Bros. kísérletekben az időzítés kulcsfontosságú, és a "lépésről lépésre érvelő" modellek (OpenAI o1) gyakran nem tudják időben végrehajtani a szükséges cselekvéseket.

  • Elvont és leegyszerűsített környezet: Míg a játékok hatékonyan modellezik az AI döntéshozatalának egy részét, a valós élet számos összetett társas és gazdasági interakciója sokkal több dimenziót és változót tartalmaz, melyeket a játékok nem képesek megfelelően leképezni.

  • A mérőszámok kérdése: A játékokon elért sikereket gyakran túlértékelik. Ahogy egyes szakértők, például Richard Socher és Mike Cook is hangsúlyozták, a játékokra épülő benchmarkok nem feltétlenül adnak átfogó képet arról, hogy egy AI rendszer képes-e valódi, emberi szintű problémamegoldásra.

Az AI benchmark válság

A közelmúltban egyre több kutató kérdőre vonta a meglévő AI benchmarkok relevanciáját úgy általában, nem csak a játékok által felállítottakat. Andrej Karpathy, az OpenAI korábbi kutatója és alapító tagja, az egyik legismertebb kritikus hang, aki a jelenlegi benchmark rendszerekkel kapcsolatban egyenesen értékelési válságot emleget. Egy rövid, X-en közzétett bejegyzésében arról írt, hogy ő sem tudja milyen mérőszámoknak érdemese hinni jelenleg. Más szakértők inkább a játékokkal való tesztelést látják problémásnak, mint például Richard Socher a You.com alapítója és Noam Brown aki kifejezetten olyan mesterséges intelligencia rendszereket fejlesztett amik főként játékokban (például pókerben) teljesítenek jól. Mindketten úgy látják, hogy a játékok túlzottan leegyszerűsített környezetet kínálnak és nem veszik figyelembe a komplex, hosszú távú döntéshozatali folyamatokat, amelyek a valós életben jelentkeznek.

Következtetések

A mesterséges intelligencia gyors fejlődését nehezen tudják követni a különböző benchmarkok, így egyre több kutató bizonytalanodik el, hogy valóban hiteles adatokat kapnak e az egyes tesztektől. A bizalmi válság egyik oka, hogy sok olyan teszt van ami korábbi mesterséges intelligencia mérési gyakorlatokat például játékkal való tesztelést alkalmaz. Ugyanakkor a jó benchmarkokra egyre nagyobb szükség van, hiszen enélkül nehéz meghatározni, hogy jó irányba haladnak e fejlesztések, vagy hogy melyik modell melyik megközelítés a jobb. Nem csoda, hogy a korábban adatcimkézéssel foglalkozó Scale AI, fénysebességgel emelkedett fel, amint egyre inkább a mesterséges intelligencia rendszerek pontosságának ellenőrzésével, döntéseik helyességének validálásával kezdtek el foglalkozni. Az ő történetük és a jelenlegi bizalmi válság is azt mutatja, hogy kialakult a piacon egy rés, amelynek betömése jól fizető üzleti lehetőséget kínál, nem a jövőben hanem már most azonnal. 

Osszd meg ezt a cikket
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
A térbeli intelligencia a következő leküzdendő akadály az AGI előtt
Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.
Mi rejlik a Meta mesterséges intelligencia-újjászervezése mögött?
Mark Zuckerberg, a Meta vezérigazgatója nem először lép merészet, ám ezúttal minden eddiginél átfogóbb átszervezést hajt végre a cég mesterséges intelligenciával foglalkozó részlegeiben. A frissen létrehozott Meta Superintelligence Labs (MSL) névre keresztelt új divízió alá kerül az összes eddigi AI-csapat, beleértve a kutatás-fejlesztést, a termékfejlesztést és az alapmodellek építését. A cél nem csupán az emberi gondolkodással versenyképes mesterséges intelligencia (AGI), hanem egy olyan rendszerszintű szuperintelligencia megalkotása, amely meghaladja az emberi képességeket.
Nem támogatja tovább az X11-et GNOME 49
Bár a GNOME talán a legáltalánosabban használt asztali környezet az egyes Linux disztribúciók esetében, a fejlesztők a GNOME 49-ben mégis mélyebb szerkezeti változások mellett döntöttek, amely kihatással lesz a disztribúciók támogatására.
A Facebook új AI-funkciója csendben nyit kaput a személyes fotók tömeges elemzéséhez
Egy új figyelmeztetés fogadja azokat a felhasználókat, akik valamilyen bejegyzést szeretnének megosztani a Facebookon: egy felugró ablak, amely „felhőalapú feldolgozásra” kér engedélyt. A rendszer, ha jóváhagyjuk, hozzáférhet a telefonunk teljes fényképtárához – beleértve azokat a képeket is, amelyeket még soha nem töltöttünk fel a közösségi hálóra. A cél: mesterséges intelligencia által generált kreatív ötletek, például kollázsok, tematikus válogatások vagy stílusátalakított változatok készítése.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések