Videójátékok a mesterséges intelligencia tesztelésben

 A videójátékok már évtizedek óta szolgálnak olyan laboratóriumként, ahol különböző AI-algoritmusok képességeit tesztelik. A játékok – legyen szó klasszikus platformjátékokról vagy összetettebb stratégiai környezetekről – lehetőséget nyújtanak arra, hogy a mesterséges intelligencia rendszerek megtanulják a cselekvést, alkalmazkodjanak a változó környezethez, és optimalizálják döntéseiket a jutalmak elérése érdekében.

A Hao AI Lab például nemrég a Super Mario Bros segítségével végzett kísérleteket. Az egyes AI modelleknek Python kódokat kellett generálniuk, amely kódok segítségével lehetett vezérelni a játékot. A kísérletek azt mutatták, hogy a modellek egyre jobban megtanultak összetett manővereket tervezni és különböző játékstratégiákat dolgoztak ki. A tesztelés során a Claude 3.7 bizonyult a legjobbnak amit a Claude 3.5 követett, míg az érvelő modellek mint például az OpenAI o1 kifejezetten rosszul teljesítettek.

A játékok alkalmazása számos előnyt kínál az AI fejlesztésében:

  • Nagy mennyiségű adat és gyors szimuláció: Az absztrakt és viszonylag egyszerű játékmechanikák lehetővé teszik, hogy az AI modellek rengeteg játékmenetet “megszerezzenek” rövid idő alatt. Ez a megerősítéses tanuláshoz nélkülözhetetlen, hiszen a rendszer folyamatos visszajelzéseket kap arról, mely cselekvések vezetnek sikerre.

  • Egyértelmű célok és szabályok: A játékokban egyértelműen definiált célok (pl. egy szint sikeres teljesítése vagy egy ellenség leküzdése) segítik az AI algoritmusokat abban, hogy gyorsan konvergáljanak, és egyszerűsítik a teljesítmény mérését.

  • Laboratóriumi környezet: A játékok absztrakciója révén a kutatók szabályozott környezetben vizsgálhatják a tanulási folyamatokat, ami hozzájárul a gyors kísérletezéshez és a módszerek finomhangolásához.

Annak ellenére, hogy a játékok kiváló tesztterületként szolgálnak, több szakértő is rámutatott arra, hogy a játékok által nyújtott mércék nem feltétlenül tükrözik a valós világ komplexitását:

  • Általánosíthatóság hiánya: Az AI modellek gyakran csak a konkrét játék mechanikáira optimalizálódnak, így egy apró módosítás is jelentős teljesítményromláshoz vezethet. Például a Super Mario Bros. kísérletekben az időzítés kulcsfontosságú, és a "lépésről lépésre érvelő" modellek (OpenAI o1) gyakran nem tudják időben végrehajtani a szükséges cselekvéseket.

  • Elvont és leegyszerűsített környezet: Míg a játékok hatékonyan modellezik az AI döntéshozatalának egy részét, a valós élet számos összetett társas és gazdasági interakciója sokkal több dimenziót és változót tartalmaz, melyeket a játékok nem képesek megfelelően leképezni.

  • A mérőszámok kérdése: A játékokon elért sikereket gyakran túlértékelik. Ahogy egyes szakértők, például Richard Socher és Mike Cook is hangsúlyozták, a játékokra épülő benchmarkok nem feltétlenül adnak átfogó képet arról, hogy egy AI rendszer képes-e valódi, emberi szintű problémamegoldásra.

Az AI benchmark válság

A közelmúltban egyre több kutató kérdőre vonta a meglévő AI benchmarkok relevanciáját úgy általában, nem csak a játékok által felállítottakat. Andrej Karpathy, az OpenAI korábbi kutatója és alapító tagja, az egyik legismertebb kritikus hang, aki a jelenlegi benchmark rendszerekkel kapcsolatban egyenesen értékelési válságot emleget. Egy rövid, X-en közzétett bejegyzésében arról írt, hogy ő sem tudja milyen mérőszámoknak érdemese hinni jelenleg. Más szakértők inkább a játékokkal való tesztelést látják problémásnak, mint például Richard Socher a You.com alapítója és Noam Brown aki kifejezetten olyan mesterséges intelligencia rendszereket fejlesztett amik főként játékokban (például pókerben) teljesítenek jól. Mindketten úgy látják, hogy a játékok túlzottan leegyszerűsített környezetet kínálnak és nem veszik figyelembe a komplex, hosszú távú döntéshozatali folyamatokat, amelyek a valós életben jelentkeznek.

Következtetések

A mesterséges intelligencia gyors fejlődését nehezen tudják követni a különböző benchmarkok, így egyre több kutató bizonytalanodik el, hogy valóban hiteles adatokat kapnak e az egyes tesztektől. A bizalmi válság egyik oka, hogy sok olyan teszt van ami korábbi mesterséges intelligencia mérési gyakorlatokat például játékkal való tesztelést alkalmaz. Ugyanakkor a jó benchmarkokra egyre nagyobb szükség van, hiszen enélkül nehéz meghatározni, hogy jó irányba haladnak e fejlesztések, vagy hogy melyik modell melyik megközelítés a jobb. Nem csoda, hogy a korábban adatcimkézéssel foglalkozó Scale AI, fénysebességgel emelkedett fel, amint egyre inkább a mesterséges intelligencia rendszerek pontosságának ellenőrzésével, döntéseik helyességének validálásával kezdtek el foglalkozni. Az ő történetük és a jelenlegi bizalmi válság is azt mutatja, hogy kialakult a piacon egy rés, amelynek betömése jól fizető üzleti lehetőséget kínál, nem a jövőben hanem már most azonnal. 

Osszd meg ezt a cikket
Szuverén AI, titkos részvényeladások – mi zajlik az NVIDIA kulisszái mögött?
A mesterséges intelligencia iparága az elmúlt években ritkán tapasztalt lendületet vett, és ennek a hullámnak az egyik legnagyobb nyertese kétségtelenül az NVIDIA. A grafikus processzorairól ismert vállalat mára nem csupán a játékosok és mérnökök kedvence, hanem a nemzetközi technológiai stratégiák központi szereplője is lett. Az amerikai tőzsdén a részvényeinek az értéke történelmi csúcsokat dönt, miközben egyre több kormányzati együttműködés és geopolitikai szál kezd köréje fonódni. De vajon mit árul el mindez a jövőről, és mennyire megalapozott a mostani optimizmus?
Nem támogatja tovább az X11-et GNOME 49
Bár a GNOME talán a legáltalánosabban használt asztali környezet az egyes Linux disztribúciók esetében, a fejlesztők a GNOME 49-ben mégis mélyebb szerkezeti változások mellett döntöttek, amely kihatással lesz a disztribúciók támogatására.
A Facebook új AI-funkciója csendben nyit kaput a személyes fotók tömeges elemzéséhez
Egy új figyelmeztetés fogadja azokat a felhasználókat, akik valamilyen bejegyzést szeretnének megosztani a Facebookon: egy felugró ablak, amely „felhőalapú feldolgozásra” kér engedélyt. A rendszer, ha jóváhagyjuk, hozzáférhet a telefonunk teljes fényképtárához – beleértve azokat a képeket is, amelyeket még soha nem töltöttünk fel a közösségi hálóra. A cél: mesterséges intelligencia által generált kreatív ötletek, például kollázsok, tematikus válogatások vagy stílusátalakított változatok készítése.
openEuler 24.03-LTS-SP2 a kínai nagyvállalatok meghatározó platformja
A digitális infrastruktúra jövője egyre inkább olyan operációs rendszerekre épül, amelyek képesek egyszerre kielégíteni a különböző iparágak stabilitási, innovációs és kompatibilitási elvárásait. Az openEuler, Kína első közösségi nyílt forráskódú operációs rendszere, nem csupán egy technológiai termék, hanem egy hosszú távú stratégiai törekvés eredménye, amely arra irányul, hogy független és sokrétű technológiai ökoszisztémát hozzon létre. Ennek a fejlesztési vonalnak legújabb fontos állomása az openEuler 24.03 LTS SP2.
 Google Gemini CLI, erős ajánlat a terminálból elérhető AI-k mezőnyében
A Google által nemrég bejelentett Gemini CLI egy nyílt forráskódú, parancssoros AI-eszköz, amely a Gemini 2.5 Pro nagy nyelvi modellt integrálja közvetlenül a terminálba. A kezdeményezés célja nem kevesebb, mint hogy a természetes nyelvi utasításokat valódi technikai munkafolyamatokká alakítsa, méghozzá egy olyan környezetben, amely sokak számára már eddig is a hatékonyság szinonimája volt.
Satya Nadella gondolatai a mesterséges intelligencia szerepéről jövőjéről és felelősségéről
A technológia világában nem ritkák a gyors váltások, de ezek ritkán érintenek ennyire sok szektort egyszerre, mint napjaink mesterséges intelligencia (AI) forradalma. Satya Nadella, a Microsoft vezérigazgatója a Y Combinatornak adott interjúban nemcsak a technológiai fejleményeket értékelte, hanem tágabb társadalmi és gazdasági összefüggésekbe is helyezte az AI fejlődését. Megközelítése visszafogott, higgadt és céltudatos: az AI nem misztikus entitás, hanem eszköz, amelyet megfelelően kell alkalmazni és értelmezni.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések