Az emberiség utolsó vizsgája

A mesterséges intelligencia fejlődése az utóbbi években jelentős előrelépéseket mutatott, különösen a nyelvi modellek terén. Azonban a meglévő teljesítménymérő tesztek, vagyis benchmarkok, egyre kevésbé képesek megkülönböztetni a modellek valós tudását és érvelési képességeit, mivel sok MI-rendszer már közel tökéletes pontszámokat ér el ezeken a teszteken. E kihívás kezelésére a Scale AI és a Center for AI Safety (CAIS) közösen fejlesztette ki az "Emberiség Utolsó Vizsgája" nevű új benchmarkot, amely az MI-rendszerek szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken, beleértve a matematikát, a humán tudományokat és a természettudományokat.

A teszt fejlesztésének folyamata

A teszt kidolgozása során a CAIS és a Scale AI több mint 70 000 próbakérdést gyűjtött össze, amelyeket egy szakértői értékelési folyamat során 13 000-re szűkítettek, majd végül 3 000 kérdést választottak ki a végső vizsgához. A kérdéseket közel 1 000 közreműködő alkotta meg több mint 500 intézményből és 50 országból, biztosítva ezzel a különböző tudományok és szakterületek képviseletét a teszt létrehozásában. A feladatok változatos formátumúak voltak, a tisztán szöveges kérdésektől a multimodális kihívásokig, amelyek képeket és diagramokat is integráltak. Például egy ökológiai kérdés a kolibrik egyedi csontszerkezetére vonatkozott, amely mélyreható ismereteket igényelt az adott területen.   

A küönböző szakterületek és azok százalékos eloszlása a kérdésekben
A küönböző szakterületek és azok százalékos eloszlása a kérdésekben

Az eredmények és azok értelmezése

A tesztet több fejlett MI-modellen végezték el, köztük az OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, a Google Gemini 1.5 Pro és az OpenAI o1 modelleken. Az eredmények azt mutatták, hogy a jelenlegi modellek csak a szakértői kérdések kevesebb mint 10%-át tudták helyesen megválaszolni. Ez jelentős javulást jelent a korábbi modellekhez képest, de rámutat arra is, hogy még mindig nagy tere van a fejlődésnek. Dan Hendrycks, a CAIS ügyvezető igazgatója szerint: "Jelenleg az Emberiség Utolsó Vizsgája azt mutatja, hogy még mindig vannak olyan zárt végű szakértői kérdések, amelyeket a modellek nem tudnak megválaszolni. Meglátjuk, meddig marad ez így."

Modell Eredmény (%)
GPT-4o 3.3
Grok 2 3.8
Claude 3.5 Sonnet 4.3
Gemini 1.5 Pro 5.0
Gemini 2.0 Flash Thinking 6.2
OpenAI o1 9.1
DeepSeek R1 9.4

A benchmark jelentősége és jövőbeli irányok

Az "Emberiség Utolsó Vizsgája" nemcsak az MI-rendszerek jelenlegi képességeinek felmérésére szolgál, hanem iránymutatást is nyújt a jövőbeli kutatások és fejlesztések számára. A teszt azonban nem csak közös viszonyítási pont kíván lenni, hanem komoly ösztönöző is az olyan modellek fejlesztéséhez, amelyek képesek megbirkózni a komplex, szakértői szintű feladatokkal. A CAIS és a Scale AI pénzjutalmat ajánlott fel a legjobb kérdések beküldőinek, és a teljes adatkészletet elérhetővé teszik a kutatói közösség számára, elősegítve ezzel az MI-rendszerek képességeinek pontosabb mérését és a jövőbeli fejlesztési irányok meghatározását.

Következtetés

Az "Emberiség Utolsó Vizsgája" fontos lépés az MI-rendszerek képességeinek pontos mérésében és a jövőbeli fejlesztési irányok meghatározásában. Az eredmények rámutatnak, hogy bár az MI-modellek gyorsan fejlődnek, még mindig jelentős kihívásokkal néznek szembe a komplex, szakértői szintű feladatok megoldásában. Ez a teszt hozzájárulhat ahhoz, hogy az MI-kutatás és fejlesztés olyan irányba haladjon, amely biztosítja a modellek mélyebb megértését és a valós világban való alkalmazhatóságukat.   

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.
 Megjelent a Linux Kernel 6.16
Megjelent a Linux kernel 6.16-os verziója. Bár a kiadási folyamat a fejlesztők szerint a lehető legjobb értelemben vett „eseménytelenséggel” zajlott le, a felszín alatt jelentős fejlesztések történtek, amelyek biztonsági, teljesítménybeli és rendszerkezelési szempontból is előrelépést jelentenek. Eközben a soron következő 6.17-es verzió fejlesztése a megszokottnál kissé zavarosabban indult – ennek hátterében olyan emberi tényezők állnak, amelyek ritkán kerülnek reflektorfénybe egy ilyen méretű nyílt forráskódú projekt esetében.