A mesterséges intelligencia fejlődése az utóbbi években jelentős előrelépéseket mutatott, különösen a nyelvi modellek terén. Azonban a meglévő teljesítménymérő tesztek, vagyis benchmarkok, egyre kevésbé képesek megkülönböztetni a modellek valós tudását és érvelési képességeit, mivel sok MI-rendszer már közel tökéletes pontszámokat ér el ezeken a teszteken. E kihívás kezelésére a Scale AI és a Center for AI Safety (CAIS) közösen fejlesztette ki az "Emberiség Utolsó Vizsgája" nevű új benchmarkot, amely az MI-rendszerek szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken, beleértve a matematikát, a humán tudományokat és a természettudományokat.
A teszt fejlesztésének folyamata
A teszt kidolgozása során a CAIS és a Scale AI több mint 70 000 próbakérdést gyűjtött össze, amelyeket egy szakértői értékelési folyamat során 13 000-re szűkítettek, majd végül 3 000 kérdést választottak ki a végső vizsgához. A kérdéseket közel 1 000 közreműködő alkotta meg több mint 500 intézményből és 50 országból, biztosítva ezzel a különböző tudományok és szakterületek képviseletét a teszt létrehozásában. A feladatok változatos formátumúak voltak, a tisztán szöveges kérdésektől a multimodális kihívásokig, amelyek képeket és diagramokat is integráltak. Például egy ökológiai kérdés a kolibrik egyedi csontszerkezetére vonatkozott, amely mélyreható ismereteket igényelt az adott területen.

Az eredmények és azok értelmezése
A tesztet több fejlett MI-modellen végezték el, köztük az OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, a Google Gemini 1.5 Pro és az OpenAI o1 modelleken. Az eredmények azt mutatták, hogy a jelenlegi modellek csak a szakértői kérdések kevesebb mint 10%-át tudták helyesen megválaszolni. Ez jelentős javulást jelent a korábbi modellekhez képest, de rámutat arra is, hogy még mindig nagy tere van a fejlődésnek. Dan Hendrycks, a CAIS ügyvezető igazgatója szerint: "Jelenleg az Emberiség Utolsó Vizsgája azt mutatja, hogy még mindig vannak olyan zárt végű szakértői kérdések, amelyeket a modellek nem tudnak megválaszolni. Meglátjuk, meddig marad ez így."
Modell | Eredmény (%) |
---|---|
GPT-4o | 3.3 |
Grok 2 | 3.8 |
Claude 3.5 Sonnet | 4.3 |
Gemini 1.5 Pro | 5.0 |
Gemini 2.0 Flash Thinking | 6.2 |
OpenAI o1 | 9.1 |
DeepSeek R1 | 9.4 |

A benchmark jelentősége és jövőbeli irányok
Az "Emberiség Utolsó Vizsgája" nemcsak az MI-rendszerek jelenlegi képességeinek felmérésére szolgál, hanem iránymutatást is nyújt a jövőbeli kutatások és fejlesztések számára. A teszt azonban nem csak közös viszonyítási pont kíván lenni, hanem komoly ösztönöző is az olyan modellek fejlesztéséhez, amelyek képesek megbirkózni a komplex, szakértői szintű feladatokkal. A CAIS és a Scale AI pénzjutalmat ajánlott fel a legjobb kérdések beküldőinek, és a teljes adatkészletet elérhetővé teszik a kutatói közösség számára, elősegítve ezzel az MI-rendszerek képességeinek pontosabb mérését és a jövőbeli fejlesztési irányok meghatározását.
Következtetés
Az "Emberiség Utolsó Vizsgája" fontos lépés az MI-rendszerek képességeinek pontos mérésében és a jövőbeli fejlesztési irányok meghatározásában. Az eredmények rámutatnak, hogy bár az MI-modellek gyorsan fejlődnek, még mindig jelentős kihívásokkal néznek szembe a komplex, szakértői szintű feladatok megoldásában. Ez a teszt hozzájárulhat ahhoz, hogy az MI-kutatás és fejlesztés olyan irányba haladjon, amely biztosítja a modellek mélyebb megértését és a valós világban való alkalmazhatóságukat.