Körülbelül egy hónapja, hogy a Scale AI közzétette az „Emberiség utolsó vizsgája” nevű tesztjének első eredményeit, amely a mesterséges intelligencia szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken. Ezeken túlmenően a teszt a modellek kalibráltságát is méri. A teszt egyaránt érinti a reál és humán tudományokat, bár érthető okoknál fogva a reál tudományok azon belül is a matematika túlsúlyban van a többihez képest, hiszen leginkább ezzel kapcsolatban tudunk objektív igazságokat megfogalmazni.
Az első tesztelésekkor több fejlett modellt is végigfuttattak a teszten, olyanokat mint a OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, vagy a DeepSeek R1. A modellek egyikének sem sikerült elérnie a 10%-so értéket, de az OpenAI o1 és a DeepSeek R1 nagyon közel voltak hozzá. Ami a kalibráltságot illeti, itt is jelentős ledolgozni való van még, hiszen magas kalibrációs hibák jelentkeztek, ami azt jelenti, hogy a modellek meglehetősen magabiztosan állítottak butaságokat.
Az első eredmények, vagy egyenesen kudarcok után sorra, jelentek meg a Deep Research funkciók a különböző modellekben. Ezek jellemzően optimalizált érvelési, adatelemzési és strukturált információfeldolgozási képességeket hoztak magukkal. Ahogy az várható volt eleinte fizetős modellekben bukkantak fel, de később sorra jelentek meg ingyenes verziók és a napokban a Perplexity AI is elérhetővé tette ingyenes chat felületén a Deep Research funkciót.

A Deep Research-el felvértezett modellek ismét megpróbálkoztak az emberiség utolsó vizsgájával. Ennek eredményeképpen az OpenAI immár 26.6%-os eredménnyel került fel a dobogóra, de szorosan követi a Perplexity Deep Research 21.1%-os eredménnyel. Ez a fejlődés rövid időn belül hatalmas előrelépést jelent, de fontos megjegyezni, hogy nem minden modell tudott ekkora fejlődést felmutatni, ezért messze menő következtetéseket még nem érdemes levonni. A Center for AI Safety előrejelzése szerint egyes modellek az év végére haladhatják meg az 50%-os értéket.
Bár az „Emberiség utolsó vizsgája” fontos mérföldkő és kétségtelenül izgalmas betekintést nyújt a mesterséges intelligencia fejlődésébe, de nem az egyetlen szempont, amit figyelembe kell venni a modellek fejlesztésének értékelésekor. A valódi áttörés feltehetően a kreatív problémamegoldásban és a komplex, nyitott végű feladatok kezelésében rejlik majd.