Az emberiség utolsó vizsgája

A mesterséges intelligencia fejlődése az utóbbi években jelentős előrelépéseket mutatott, különösen a nyelvi modellek terén. Azonban a meglévő teljesítménymérő tesztek, vagyis benchmarkok, egyre kevésbé képesek megkülönböztetni a modellek valós tudását és érvelési képességeit, mivel sok MI-rendszer már közel tökéletes pontszámokat ér el ezeken a teszteken. E kihívás kezelésére a Scale AI és a Center for AI Safety (CAIS) közösen fejlesztette ki az "Emberiség Utolsó Vizsgája" nevű új benchmarkot, amely az MI-rendszerek szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken, beleértve a matematikát, a humán tudományokat és a természettudományokat.

A teszt fejlesztésének folyamata

A teszt kidolgozása során a CAIS és a Scale AI több mint 70 000 próbakérdést gyűjtött össze, amelyeket egy szakértői értékelési folyamat során 13 000-re szűkítettek, majd végül 3 000 kérdést választottak ki a végső vizsgához. A kérdéseket közel 1 000 közreműködő alkotta meg több mint 500 intézményből és 50 országból, biztosítva ezzel a különböző tudományok és szakterületek képviseletét a teszt létrehozásában. A feladatok változatos formátumúak voltak, a tisztán szöveges kérdésektől a multimodális kihívásokig, amelyek képeket és diagramokat is integráltak. Például egy ökológiai kérdés a kolibrik egyedi csontszerkezetére vonatkozott, amely mélyreható ismereteket igényelt az adott területen.   

A küönböző szakterületek és azok százalékos eloszlása a kérdésekben
A küönböző szakterületek és azok százalékos eloszlása a kérdésekben

Az eredmények és azok értelmezése

A tesztet több fejlett MI-modellen végezték el, köztük az OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, a Google Gemini 1.5 Pro és az OpenAI o1 modelleken. Az eredmények azt mutatták, hogy a jelenlegi modellek csak a szakértői kérdések kevesebb mint 10%-át tudták helyesen megválaszolni. Ez jelentős javulást jelent a korábbi modellekhez képest, de rámutat arra is, hogy még mindig nagy tere van a fejlődésnek. Dan Hendrycks, a CAIS ügyvezető igazgatója szerint: "Jelenleg az Emberiség Utolsó Vizsgája azt mutatja, hogy még mindig vannak olyan zárt végű szakértői kérdések, amelyeket a modellek nem tudnak megválaszolni. Meglátjuk, meddig marad ez így."

Modell Eredmény (%)
GPT-4o 3.3
Grok 2 3.8
Claude 3.5 Sonnet 4.3
Gemini 1.5 Pro 5.0
Gemini 2.0 Flash Thinking 6.2
OpenAI o1 9.1
DeepSeek R1 9.4

A benchmark jelentősége és jövőbeli irányok

Az "Emberiség Utolsó Vizsgája" nemcsak az MI-rendszerek jelenlegi képességeinek felmérésére szolgál, hanem iránymutatást is nyújt a jövőbeli kutatások és fejlesztések számára. A teszt azonban nem csak közös viszonyítási pont kíván lenni, hanem komoly ösztönöző is az olyan modellek fejlesztéséhez, amelyek képesek megbirkózni a komplex, szakértői szintű feladatokkal. A CAIS és a Scale AI pénzjutalmat ajánlott fel a legjobb kérdések beküldőinek, és a teljes adatkészletet elérhetővé teszik a kutatói közösség számára, elősegítve ezzel az MI-rendszerek képességeinek pontosabb mérését és a jövőbeli fejlesztési irányok meghatározását.

Következtetés

Az "Emberiség Utolsó Vizsgája" fontos lépés az MI-rendszerek képességeinek pontos mérésében és a jövőbeli fejlesztési irányok meghatározásában. Az eredmények rámutatnak, hogy bár az MI-modellek gyorsan fejlődnek, még mindig jelentős kihívásokkal néznek szembe a komplex, szakértői szintű feladatok megoldásában. Ez a teszt hozzájárulhat ahhoz, hogy az MI-kutatás és fejlesztés olyan irányba haladjon, amely biztosítja a modellek mélyebb megértését és a valós világban való alkalmazhatóságukat.   

Osszd meg ezt a cikket
Mesterséges intelligencia a hálózat irányításban és karbantartásban
Az Ericsson nemrég bemutatta a 2025-re vonatkozó stratégiai terveit a Mobile World Congress 2025 (MWC25) keretében. Az itt ismertetett elképzelések azért különösen érdekesek, mert jól mutatják, miként épül be a mesterséges intelligencia olyan ipari folyamatokba, amelyek mindennapi életünket érintik, ám addig rejtve maradnak, amíg zökkenőmentesen működnek.
GTC 2025: Az NVIDIA Blackwell chipeken alapuló szerverei és a DGX Station
A 2009 óta megrendezett GTC (GPU Technológiai Konferencia) idén március 17 és 21 között kerül megrendezésre az NVIDIA által. A konferencia célja hogy bemutassa a legújabb fejlesztéseket és elősegítse a különböző iparágak közötti együttműködést és további fejlesztéseket, így többnyire fejlesztők, kutatók, technológiai vezetők vesznek részt rajta. Az NVIDIA CEO-ja Jensen Huang egy ideje emlegeti, hogy a vállalatok a jövőben token gyárrá változnak, ami alatt azt érti, hogy minden létező munkafolyamat mesterséges intelligencia által támogatott lesz. Ebben jelenleg nagy szerepet játszanak a nagy szerverek, de az AI integráció egyre inkább lecsorog majd a személyi számítógépek szintjére és a jövőben olyan számítógépek, laptopok lesznek amelyek megfelelő hardverrel rendelkeznek, ahhoz hogy akár nagy nyelvi modelleket futtassanak a háttérben. Erre azért van szükség mert a programozók, mérnökök és szinte mindenki mesterséges intelligencia által asszisztált munkát fog végezni.
Elérhető a Fedora 42 béta
A Fedora 42 béta verzió már elérhető és tesztelhető, míg a stabil kiadást április 15-re tervezik . Az új verzió számos jelentős fejlesztést tartalmaz, amelyek célja a felhasználói élmény javítása, a telepítési folyamat egyszerűsítése, valamint a modern asztali környezetek és technikai megoldások integrálása.
Videójátékok a mesterséges intelligencia tesztelésben
A videójátékok már évtizedek óta szolgálnak olyan laboratóriumként, ahol különböző AI-algoritmusok képességeit tesztelik. A játékok – legyen szó klasszikus platformjátékokról vagy összetettebb stratégiai környezetekről – lehetőséget nyújtanak arra, hogy a mesterséges intelligencia rendszerek megtanulják a cselekvést, alkalmazkodjanak a változó környezethez, és optimalizálják döntéseiket a jutalmak elérése érdekében.