Az emberiség utolsó vizsgája

2025-01-28T05:00:00.000+00:00 2025 január 28. 05:00 Fodor Attila

A mesterséges intelligencia fejlődése az utóbbi években jelentős előrelépéseket mutatott, különösen a nyelvi modellek terén. Azonban a meglévő teljesítménymérő tesztek, vagyis benchmarkok, egyre kevésbé képesek megkülönböztetni a modellek valós tudását és érvelési képességeit, mivel sok MI-rendszer már közel tökéletes pontszámokat ér el ezeken a teszteken. E kihívás kezelésére a Scale AI és a Center for AI Safety (CAIS) közösen fejlesztette ki az "Emberiség Utolsó Vizsgája" nevű új benchmarkot, amely az MI-rendszerek szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken, beleértve a matematikát, a humán tudományokat és a természettudományokat.

A teszt fejlesztésének folyamata

A teszt kidolgozása során a CAIS és a Scale AI több mint 70 000 próbakérdést gyűjtött össze, amelyeket egy szakértői értékelési folyamat során 13 000-re szűkítettek, majd végül 3 000 kérdést választottak ki a végső vizsgához. A kérdéseket közel 1 000 közreműködő alkotta meg több mint 500 intézményből és 50 országból, biztosítva ezzel a különböző tudományok és szakterületek képviseletét a teszt létrehozásában. A feladatok változatos formátumúak voltak, a tisztán szöveges kérdésektől a multimodális kihívásokig, amelyek képeket és diagramokat is integráltak. Például egy ökológiai kérdés a kolibrik egyedi csontszerkezetére vonatkozott, amely mélyreható ismereteket igényelt az adott területen.

A küönböző szakterületek és azok százalékos eloszlása a kérdésekben

Az eredmények és azok értelmezése

A tesztet több fejlett MI-modellen végezték el, köztük az OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, a Google Gemini 1.5 Pro és az OpenAI o1 modelleken. Az eredmények azt mutatták, hogy a jelenlegi modellek csak a szakértői kérdések kevesebb mint 10%-át tudták helyesen megválaszolni. Ez jelentős javulást jelent a korábbi modellekhez képest, de rámutat arra is, hogy még mindig nagy tere van a fejlődésnek. Dan Hendrycks, a CAIS ügyvezető igazgatója szerint: "Jelenleg az Emberiség Utolsó Vizsgája azt mutatja, hogy még mindig vannak olyan zárt végű szakértői kérdések, amelyeket a modellek nem tudnak megválaszolni. Meglátjuk, meddig marad ez így."

Modell	Eredmény (%)
GPT-4o	3.3
Grok 2	3.8
Claude 3.5 Sonnet	4.3
Gemini 1.5 Pro	5.0
Gemini 2.0 Flash Thinking	6.2
OpenAI o1	9.1
DeepSeek R1	9.4

A benchmark jelentősége és jövőbeli irányok

Az "Emberiség Utolsó Vizsgája" nemcsak az MI-rendszerek jelenlegi képességeinek felmérésére szolgál, hanem iránymutatást is nyújt a jövőbeli kutatások és fejlesztések számára. A teszt azonban nem csak közös viszonyítási pont kíván lenni, hanem komoly ösztönöző is az olyan modellek fejlesztéséhez, amelyek képesek megbirkózni a komplex, szakértői szintű feladatokkal. A CAIS és a Scale AI pénzjutalmat ajánlott fel a legjobb kérdések beküldőinek, és a teljes adatkészletet elérhetővé teszik a kutatói közösség számára, elősegítve ezzel az MI-rendszerek képességeinek pontosabb mérését és a jövőbeli fejlesztési irányok meghatározását.

Következtetés

Az "Emberiség Utolsó Vizsgája" fontos lépés az MI-rendszerek képességeinek pontos mérésében és a jövőbeli fejlesztési irányok meghatározásában. Az eredmények rámutatnak, hogy bár az MI-modellek gyorsan fejlődnek, még mindig jelentős kihívásokkal néznek szembe a komplex, szakértői szintű feladatok megoldásában. Ez a teszt hozzájárulhat ahhoz, hogy az MI-kutatás és fejlesztés olyan irányba haladjon, amely biztosítja a modellek mélyebb megértését és a valós világban való alkalmazhatóságukat.

Osszd meg ezt a cikket

2025. július 04.

Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle

Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.

2025. július 04.

ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma

Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.

2025. július 03.

A térbeli intelligencia a következő leküzdendő akadály az AGI előtt

Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.

2025. július 02.

Mi rejlik a Meta mesterséges intelligencia-újjászervezése mögött?

Mark Zuckerberg, a Meta vezérigazgatója nem először lép merészet, ám ezúttal minden eddiginél átfogóbb átszervezést hajt végre a cég mesterséges intelligenciával foglalkozó részlegeiben. A frissen létrehozott Meta Superintelligence Labs (MSL) névre keresztelt új divízió alá kerül az összes eddigi AI-csapat, beleértve a kutatás-fejlesztést, a termékfejlesztést és az alapmodellek építését. A cél nem csupán az emberi gondolkodással versenyképes mesterséges intelligencia (AGI), hanem egy olyan rendszerszintű szuperintelligencia megalkotása, amely meghaladja az emberi képességeket.

2025. június 30.

Nem támogatja tovább az X11-et GNOME 49

Bár a GNOME talán a legáltalánosabban használt asztali környezet az egyes Linux disztribúciók esetében, a fejlesztők a GNOME 49-ben mégis mélyebb szerkezeti változások mellett döntöttek, amely kihatással lesz a disztribúciók támogatására.

2025. június 29.

A Facebook új AI-funkciója csendben nyit kaput a személyes fotók tömeges elemzéséhez

Egy új figyelmeztetés fogadja azokat a felhasználókat, akik valamilyen bejegyzést szeretnének megosztani a Facebookon: egy felugró ablak, amely „felhőalapú feldolgozásra” kér engedélyt. A rendszer, ha jóváhagyjuk, hozzáférhet a telefonunk teljes fényképtárához – beleértve azokat a képeket is, amelyeket még soha nem töltöttünk fel a közösségi hálóra. A cél: mesterséges intelligencia által generált kreatív ötletek, például kollázsok, tematikus válogatások vagy stílusátalakított változatok készítése.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések