Videójátékok a mesterséges intelligencia tesztelésben

 A videójátékok már évtizedek óta szolgálnak olyan laboratóriumként, ahol különböző AI-algoritmusok képességeit tesztelik. A játékok – legyen szó klasszikus platformjátékokról vagy összetettebb stratégiai környezetekről – lehetőséget nyújtanak arra, hogy a mesterséges intelligencia rendszerek megtanulják a cselekvést, alkalmazkodjanak a változó környezethez, és optimalizálják döntéseiket a jutalmak elérése érdekében.

A Hao AI Lab például nemrég a Super Mario Bros segítségével végzett kísérleteket. Az egyes AI modelleknek Python kódokat kellett generálniuk, amely kódok segítségével lehetett vezérelni a játékot. A kísérletek azt mutatták, hogy a modellek egyre jobban megtanultak összetett manővereket tervezni és különböző játékstratégiákat dolgoztak ki. A tesztelés során a Claude 3.7 bizonyult a legjobbnak amit a Claude 3.5 követett, míg az érvelő modellek mint például az OpenAI o1 kifejezetten rosszul teljesítettek.

A játékok alkalmazása számos előnyt kínál az AI fejlesztésében:

  • Nagy mennyiségű adat és gyors szimuláció: Az absztrakt és viszonylag egyszerű játékmechanikák lehetővé teszik, hogy az AI modellek rengeteg játékmenetet “megszerezzenek” rövid idő alatt. Ez a megerősítéses tanuláshoz nélkülözhetetlen, hiszen a rendszer folyamatos visszajelzéseket kap arról, mely cselekvések vezetnek sikerre.

  • Egyértelmű célok és szabályok: A játékokban egyértelműen definiált célok (pl. egy szint sikeres teljesítése vagy egy ellenség leküzdése) segítik az AI algoritmusokat abban, hogy gyorsan konvergáljanak, és egyszerűsítik a teljesítmény mérését.

  • Laboratóriumi környezet: A játékok absztrakciója révén a kutatók szabályozott környezetben vizsgálhatják a tanulási folyamatokat, ami hozzájárul a gyors kísérletezéshez és a módszerek finomhangolásához.

Annak ellenére, hogy a játékok kiváló tesztterületként szolgálnak, több szakértő is rámutatott arra, hogy a játékok által nyújtott mércék nem feltétlenül tükrözik a valós világ komplexitását:

  • Általánosíthatóság hiánya: Az AI modellek gyakran csak a konkrét játék mechanikáira optimalizálódnak, így egy apró módosítás is jelentős teljesítményromláshoz vezethet. Például a Super Mario Bros. kísérletekben az időzítés kulcsfontosságú, és a "lépésről lépésre érvelő" modellek (OpenAI o1) gyakran nem tudják időben végrehajtani a szükséges cselekvéseket.

  • Elvont és leegyszerűsített környezet: Míg a játékok hatékonyan modellezik az AI döntéshozatalának egy részét, a valós élet számos összetett társas és gazdasági interakciója sokkal több dimenziót és változót tartalmaz, melyeket a játékok nem képesek megfelelően leképezni.

  • A mérőszámok kérdése: A játékokon elért sikereket gyakran túlértékelik. Ahogy egyes szakértők, például Richard Socher és Mike Cook is hangsúlyozták, a játékokra épülő benchmarkok nem feltétlenül adnak átfogó képet arról, hogy egy AI rendszer képes-e valódi, emberi szintű problémamegoldásra.

Az AI benchmark válság

A közelmúltban egyre több kutató kérdőre vonta a meglévő AI benchmarkok relevanciáját úgy általában, nem csak a játékok által felállítottakat. Andrej Karpathy, az OpenAI korábbi kutatója és alapító tagja, az egyik legismertebb kritikus hang, aki a jelenlegi benchmark rendszerekkel kapcsolatban egyenesen értékelési válságot emleget. Egy rövid, X-en közzétett bejegyzésében arról írt, hogy ő sem tudja milyen mérőszámoknak érdemese hinni jelenleg. Más szakértők inkább a játékokkal való tesztelést látják problémásnak, mint például Richard Socher a You.com alapítója és Noam Brown aki kifejezetten olyan mesterséges intelligencia rendszereket fejlesztett amik főként játékokban (például pókerben) teljesítenek jól. Mindketten úgy látják, hogy a játékok túlzottan leegyszerűsített környezetet kínálnak és nem veszik figyelembe a komplex, hosszú távú döntéshozatali folyamatokat, amelyek a valós életben jelentkeznek.

Következtetések

A mesterséges intelligencia gyors fejlődését nehezen tudják követni a különböző benchmarkok, így egyre több kutató bizonytalanodik el, hogy valóban hiteles adatokat kapnak e az egyes tesztektől. A bizalmi válság egyik oka, hogy sok olyan teszt van ami korábbi mesterséges intelligencia mérési gyakorlatokat például játékkal való tesztelést alkalmaz. Ugyanakkor a jó benchmarkokra egyre nagyobb szükség van, hiszen enélkül nehéz meghatározni, hogy jó irányba haladnak e fejlesztések, vagy hogy melyik modell melyik megközelítés a jobb. Nem csoda, hogy a korábban adatcimkézéssel foglalkozó Scale AI, fénysebességgel emelkedett fel, amint egyre inkább a mesterséges intelligencia rendszerek pontosságának ellenőrzésével, döntéseik helyességének validálásával kezdtek el foglalkozni. Az ő történetük és a jelenlegi bizalmi válság is azt mutatja, hogy kialakult a piacon egy rés, amelynek betömése jól fizető üzleti lehetőséget kínál, nem a jövőben hanem már most azonnal. 

Osszd meg ezt a cikket
Mesterséges intelligencia a hálózat irányításban és karbantartásban
Az Ericsson nemrég bemutatta a 2025-re vonatkozó stratégiai terveit a Mobile World Congress 2025 (MWC25) keretében. Az itt ismertetett elképzelések azért különösen érdekesek, mert jól mutatják, miként épül be a mesterséges intelligencia olyan ipari folyamatokba, amelyek mindennapi életünket érintik, ám addig rejtve maradnak, amíg zökkenőmentesen működnek.
GTC 2025: Az NVIDIA Blackwell chipeken alapuló szerverei és a DGX Station
A 2009 óta megrendezett GTC (GPU Technológiai Konferencia) idén március 17 és 21 között kerül megrendezésre az NVIDIA által. A konferencia célja hogy bemutassa a legújabb fejlesztéseket és elősegítse a különböző iparágak közötti együttműködést és további fejlesztéseket, így többnyire fejlesztők, kutatók, technológiai vezetők vesznek részt rajta. Az NVIDIA CEO-ja Jensen Huang egy ideje emlegeti, hogy a vállalatok a jövőben token gyárrá változnak, ami alatt azt érti, hogy minden létező munkafolyamat mesterséges intelligencia által támogatott lesz. Ebben jelenleg nagy szerepet játszanak a nagy szerverek, de az AI integráció egyre inkább lecsorog majd a személyi számítógépek szintjére és a jövőben olyan számítógépek, laptopok lesznek amelyek megfelelő hardverrel rendelkeznek, ahhoz hogy akár nagy nyelvi modelleket futtassanak a háttérben. Erre azért van szükség mert a programozók, mérnökök és szinte mindenki mesterséges intelligencia által asszisztált munkát fog végezni.
Elérhető a Fedora 42 béta
A Fedora 42 béta verzió már elérhető és tesztelhető, míg a stabil kiadást április 15-re tervezik . Az új verzió számos jelentős fejlesztést tartalmaz, amelyek célja a felhasználói élmény javítása, a telepítési folyamat egyszerűsítése, valamint a modern asztali környezetek és technikai megoldások integrálása.
 Természetvédelem és Technológia: A Google program felhívásai a környezetvédelmi megoldások támogatására
Az elmúlt évtizedekben a biológiai sokféleség drámai csökkenése új kihívásokat jelent a globális környezeti egyensúly és az emberi jólét számára. A Google legújabb bejelentése ebben a kontextusban három új kezdeményezést ismertet, amelyek célja a természet és az ökoszisztémák védelmének, valamint helyreállításának támogatása a legkritikusabb területeken.