Videójátékok a mesterséges intelligencia tesztelésben

 A videójátékok már évtizedek óta szolgálnak olyan laboratóriumként, ahol különböző AI-algoritmusok képességeit tesztelik. A játékok – legyen szó klasszikus platformjátékokról vagy összetettebb stratégiai környezetekről – lehetőséget nyújtanak arra, hogy a mesterséges intelligencia rendszerek megtanulják a cselekvést, alkalmazkodjanak a változó környezethez, és optimalizálják döntéseiket a jutalmak elérése érdekében.

A Hao AI Lab például nemrég a Super Mario Bros segítségével végzett kísérleteket. Az egyes AI modelleknek Python kódokat kellett generálniuk, amely kódok segítségével lehetett vezérelni a játékot. A kísérletek azt mutatták, hogy a modellek egyre jobban megtanultak összetett manővereket tervezni és különböző játékstratégiákat dolgoztak ki. A tesztelés során a Claude 3.7 bizonyult a legjobbnak amit a Claude 3.5 követett, míg az érvelő modellek mint például az OpenAI o1 kifejezetten rosszul teljesítettek.

A játékok alkalmazása számos előnyt kínál az AI fejlesztésében:

  • Nagy mennyiségű adat és gyors szimuláció: Az absztrakt és viszonylag egyszerű játékmechanikák lehetővé teszik, hogy az AI modellek rengeteg játékmenetet “megszerezzenek” rövid idő alatt. Ez a megerősítéses tanuláshoz nélkülözhetetlen, hiszen a rendszer folyamatos visszajelzéseket kap arról, mely cselekvések vezetnek sikerre.

  • Egyértelmű célok és szabályok: A játékokban egyértelműen definiált célok (pl. egy szint sikeres teljesítése vagy egy ellenség leküzdése) segítik az AI algoritmusokat abban, hogy gyorsan konvergáljanak, és egyszerűsítik a teljesítmény mérését.

  • Laboratóriumi környezet: A játékok absztrakciója révén a kutatók szabályozott környezetben vizsgálhatják a tanulási folyamatokat, ami hozzájárul a gyors kísérletezéshez és a módszerek finomhangolásához.

Annak ellenére, hogy a játékok kiváló tesztterületként szolgálnak, több szakértő is rámutatott arra, hogy a játékok által nyújtott mércék nem feltétlenül tükrözik a valós világ komplexitását:

  • Általánosíthatóság hiánya: Az AI modellek gyakran csak a konkrét játék mechanikáira optimalizálódnak, így egy apró módosítás is jelentős teljesítményromláshoz vezethet. Például a Super Mario Bros. kísérletekben az időzítés kulcsfontosságú, és a "lépésről lépésre érvelő" modellek (OpenAI o1) gyakran nem tudják időben végrehajtani a szükséges cselekvéseket.

  • Elvont és leegyszerűsített környezet: Míg a játékok hatékonyan modellezik az AI döntéshozatalának egy részét, a valós élet számos összetett társas és gazdasági interakciója sokkal több dimenziót és változót tartalmaz, melyeket a játékok nem képesek megfelelően leképezni.

  • A mérőszámok kérdése: A játékokon elért sikereket gyakran túlértékelik. Ahogy egyes szakértők, például Richard Socher és Mike Cook is hangsúlyozták, a játékokra épülő benchmarkok nem feltétlenül adnak átfogó képet arról, hogy egy AI rendszer képes-e valódi, emberi szintű problémamegoldásra.

Az AI benchmark válság

A közelmúltban egyre több kutató kérdőre vonta a meglévő AI benchmarkok relevanciáját úgy általában, nem csak a játékok által felállítottakat. Andrej Karpathy, az OpenAI korábbi kutatója és alapító tagja, az egyik legismertebb kritikus hang, aki a jelenlegi benchmark rendszerekkel kapcsolatban egyenesen értékelési válságot emleget. Egy rövid, X-en közzétett bejegyzésében arról írt, hogy ő sem tudja milyen mérőszámoknak érdemese hinni jelenleg. Más szakértők inkább a játékokkal való tesztelést látják problémásnak, mint például Richard Socher a You.com alapítója és Noam Brown aki kifejezetten olyan mesterséges intelligencia rendszereket fejlesztett amik főként játékokban (például pókerben) teljesítenek jól. Mindketten úgy látják, hogy a játékok túlzottan leegyszerűsített környezetet kínálnak és nem veszik figyelembe a komplex, hosszú távú döntéshozatali folyamatokat, amelyek a valós életben jelentkeznek.

Következtetések

A mesterséges intelligencia gyors fejlődését nehezen tudják követni a különböző benchmarkok, így egyre több kutató bizonytalanodik el, hogy valóban hiteles adatokat kapnak e az egyes tesztektől. A bizalmi válság egyik oka, hogy sok olyan teszt van ami korábbi mesterséges intelligencia mérési gyakorlatokat például játékkal való tesztelést alkalmaz. Ugyanakkor a jó benchmarkokra egyre nagyobb szükség van, hiszen enélkül nehéz meghatározni, hogy jó irányba haladnak e fejlesztések, vagy hogy melyik modell melyik megközelítés a jobb. Nem csoda, hogy a korábban adatcimkézéssel foglalkozó Scale AI, fénysebességgel emelkedett fel, amint egyre inkább a mesterséges intelligencia rendszerek pontosságának ellenőrzésével, döntéseik helyességének validálásával kezdtek el foglalkozni. Az ő történetük és a jelenlegi bizalmi válság is azt mutatja, hogy kialakult a piacon egy rés, amelynek betömése jól fizető üzleti lehetőséget kínál, nem a jövőben hanem már most azonnal. 

Osszd meg ezt a cikket
A JetBrains Mellum nyílt forráskódúvá vált
2025. április 30-tól a JetBrains jelentős lépést tett az AI-fejlesztés területén azzal, hogy nyílt forráskódúvá tette a Mellumot, a kifejezetten kódkiegészítésre tervezett, célzottan erre a célra kifejlesztett nyelvi modelljét. Ez a speciális 4B paraméteres modell, amely korábban csak a JetBrains kereskedelmi kínálatának részeként volt elérhető, mostantól szabadon hozzáférhető a Hugging Face-en, új lehetőségeket nyitva meg a kutatók, oktatók és fejlesztőcsapatok előtt.
Trendek az LLM fejlesztésben való felhasználásában az Anthropic felmérése alapján
Az Anthropic a mesterséges intelligencia kutatásában és fejlesztésében az élvonalhoz tartozó vállalat, amelyet leginkább Claude nevű nagy nyelvi modelljéről ismerünk. A Claude.ai és a Claude Code termékcsalád az utóbbi években különösen népszerűvé vált a szoftverfejlesztők körében, köszönhetően kiemelkedő kódgenerálási képességeinek és az automatizálásban elért magas szintű teljesítményének
Megkezdődött a stablecoin forradalom
A Stripe megkezdte a fejlett világon kívüli országokban a stablecoin alapú fizetések tesztelését. A kezdeményezést a Bridge stablecoin platform felvásárlása előzte meg, amelyet a Coinbase korábbi vezetői Zach Abrams és Sean Yu alapítottak. A Stripe által alkalmazott stablecoin a dollár értékéhez van rögzítve, és elsősorban olyan vállalkozások számára kívánják megkönnyíteni a kifizetéseket vele, amelyek olyan országokban működnek, ahol a nemzeti valuta árfolyamának erős ingadozása, vagy egyéb infrastrukturális okok miatt a hagyományos valutákban való pénz mozgás rendkívül költséges.
Mesterséges intelligencia szakember hiány Indiában, amely hamarosan más országokat is megrázhat
India hosszú ideje világviszonylatban is jelentős szereplő az informatikai szolgáltatásokban, így természetesnek vehetjük, hogy az utóbbi években a mesterséges intelligencia kutatások élvonalába is igyekszik bekerülni. A szakértők szerint a cégek többsége (a Deloitte felmérése szerint mintegy 80%-a) már az autonóm, „ügynök‑alapú” MI-rendszerek fejlesztésén dolgozik​. Ezek az alkalmazások most olyan új kihívások elé állították az országot, amely az egész világon végigsöpörhet. A kereslet a speciális tudással rendelkező szakemberek iránt meredeken nő, miközben a jelenlegi kínálat nem elegendő a tervezett igények kielégítésére​.