Az emberiség utolsó vizsgája

A mesterséges intelligencia fejlődése az utóbbi években jelentős előrelépéseket mutatott, különösen a nyelvi modellek terén. Azonban a meglévő teljesítménymérő tesztek, vagyis benchmarkok, egyre kevésbé képesek megkülönböztetni a modellek valós tudását és érvelési képességeit, mivel sok MI-rendszer már közel tökéletes pontszámokat ér el ezeken a teszteken. E kihívás kezelésére a Scale AI és a Center for AI Safety (CAIS) közösen fejlesztette ki az "Emberiség Utolsó Vizsgája" nevű új benchmarkot, amely az MI-rendszerek szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken, beleértve a matematikát, a humán tudományokat és a természettudományokat.

A teszt fejlesztésének folyamata

A teszt kidolgozása során a CAIS és a Scale AI több mint 70 000 próbakérdést gyűjtött össze, amelyeket egy szakértői értékelési folyamat során 13 000-re szűkítettek, majd végül 3 000 kérdést választottak ki a végső vizsgához. A kérdéseket közel 1 000 közreműködő alkotta meg több mint 500 intézményből és 50 országból, biztosítva ezzel a különböző tudományok és szakterületek képviseletét a teszt létrehozásában. A feladatok változatos formátumúak voltak, a tisztán szöveges kérdésektől a multimodális kihívásokig, amelyek képeket és diagramokat is integráltak. Például egy ökológiai kérdés a kolibrik egyedi csontszerkezetére vonatkozott, amely mélyreható ismereteket igényelt az adott területen.   

A küönböző szakterületek és azok százalékos eloszlása a kérdésekben
A küönböző szakterületek és azok százalékos eloszlása a kérdésekben

Az eredmények és azok értelmezése

A tesztet több fejlett MI-modellen végezték el, köztük az OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, a Google Gemini 1.5 Pro és az OpenAI o1 modelleken. Az eredmények azt mutatták, hogy a jelenlegi modellek csak a szakértői kérdések kevesebb mint 10%-át tudták helyesen megválaszolni. Ez jelentős javulást jelent a korábbi modellekhez képest, de rámutat arra is, hogy még mindig nagy tere van a fejlődésnek. Dan Hendrycks, a CAIS ügyvezető igazgatója szerint: "Jelenleg az Emberiség Utolsó Vizsgája azt mutatja, hogy még mindig vannak olyan zárt végű szakértői kérdések, amelyeket a modellek nem tudnak megválaszolni. Meglátjuk, meddig marad ez így."

Modell Eredmény (%)
GPT-4o 3.3
Grok 2 3.8
Claude 3.5 Sonnet 4.3
Gemini 1.5 Pro 5.0
Gemini 2.0 Flash Thinking 6.2
OpenAI o1 9.1
DeepSeek R1 9.4

A benchmark jelentősége és jövőbeli irányok

Az "Emberiség Utolsó Vizsgája" nemcsak az MI-rendszerek jelenlegi képességeinek felmérésére szolgál, hanem iránymutatást is nyújt a jövőbeli kutatások és fejlesztések számára. A teszt azonban nem csak közös viszonyítási pont kíván lenni, hanem komoly ösztönöző is az olyan modellek fejlesztéséhez, amelyek képesek megbirkózni a komplex, szakértői szintű feladatokkal. A CAIS és a Scale AI pénzjutalmat ajánlott fel a legjobb kérdések beküldőinek, és a teljes adatkészletet elérhetővé teszik a kutatói közösség számára, elősegítve ezzel az MI-rendszerek képességeinek pontosabb mérését és a jövőbeli fejlesztési irányok meghatározását.

Következtetés

Az "Emberiség Utolsó Vizsgája" fontos lépés az MI-rendszerek képességeinek pontos mérésében és a jövőbeli fejlesztési irányok meghatározásában. Az eredmények rámutatnak, hogy bár az MI-modellek gyorsan fejlődnek, még mindig jelentős kihívásokkal néznek szembe a komplex, szakértői szintű feladatok megoldásában. Ez a teszt hozzájárulhat ahhoz, hogy az MI-kutatás és fejlesztés olyan irányba haladjon, amely biztosítja a modellek mélyebb megértését és a valós világban való alkalmazhatóságukat.   

Osszd meg ezt a cikket
Lehet hogy hamarosan véget is ér az okostelefonok kora?
A napokban zajlik a Google trösztellenes pere, amelyen meghalgatták Eddy Cue-t az Apple szolgáltatásokért felelős vezető alelnökét. A tanúvallomás során Cue váratlan és izgalmas kijelentést tett, amelyben azt sugallta, hogy hamarosan az iPhone az iPod sorsára juthat.
Az Apple Anthropic-ra támaszkodva kíván saját „Vibe-Coding” platformot létrehozni
Az Apple számos nehézséggel nézett szembe az utóbbi időben saját mesterséges intelligencia megoldásainak kifejlesztése során, ezért talán nem meglepő, hogy a továbbiakban inkább külső AI-szakértelemre támaszkodna a további fejlesztések érdekében. Most úgy döntöttek, hogy az Anthropic-al egyesítik erőiket egy forradalmi „vibe-coding” szoftverplatform létrehozására, amely a generatív mesterséges intelligenciát használja fel a programozók kódjának írására, szerkesztésére és tesztelésére - derül ki a legfrissebb jelentésekből.
Megkezdődött a stablecoin forradalom
A Stripe megkezdte a fejlett világon kívüli országokban a stablecoin alapú fizetések tesztelését. A kezdeményezést a Bridge stablecoin platform felvásárlása előzte meg, amelyet a Coinbase korábbi vezetői Zach Abrams és Sean Yu alapítottak. A Stripe által alkalmazott stablecoin a dollár értékéhez van rögzítve, és elsősorban olyan vállalkozások számára kívánják megkönnyíteni a kifizetéseket vele, amelyek olyan országokban működnek, ahol a nemzeti valuta árfolyamának erős ingadozása, vagy egyéb infrastrukturális okok miatt a hagyományos valutákban való pénz mozgás rendkívül költséges.
QnodeOS az első kvantum operációs rendszer
A kvantumhálózatok eddig elérhetetlenül bonyolultnak tűntek a fejlesztők számára, hiszen minden hardvertípushoz külön szoftverréteg készült. Március közepén azonban a Quantum Internet Alliance (QIA) kutatócsoportja bejelentette a QNodeOS névre keresztelt kvantumoperációs rendszert, amely – a klasszikus világ operációs rendszereihez hasonlóan – elrejti a hardver alacsony szintű részleteit, és lehetővé teszi a magasabb szintű alkalmazások fejlesztését különböző kvantumprocesszorokon. Az első bemutatót a Nature online kiadványa közölte 2025. március 12-én, és azóta a QNodeOS gyorsan a kvantumhálózati kutatások középpontjába került.