Megduplázták a teljesítményüket a nagy nyelvi modellek az elmúlt hónapban

 Körülbelül egy hónapja, hogy a Scale AI közzétette az „Emberiség utolsó vizsgája” nevű tesztjének első eredményeit, amely a mesterséges intelligencia szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken. Ezeken túlmenően a teszt a modellek kalibráltságát is méri. A teszt egyaránt érinti a reál és humán tudományokat, bár érthető okoknál fogva a reál tudományok azon belül is a matematika túlsúlyban van a többihez képest, hiszen leginkább ezzel kapcsolatban tudunk objektív igazságokat megfogalmazni.

Az első tesztelésekkor több fejlett modellt is végigfuttattak a teszten, olyanokat mint a OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, vagy a DeepSeek R1. A modellek egyikének sem sikerült elérnie a 10%-so értéket, de az OpenAI o1 és a DeepSeek R1 nagyon közel voltak hozzá. Ami a kalibráltságot illeti, itt is jelentős ledolgozni való van még, hiszen magas kalibrációs hibák jelentkeztek, ami azt jelenti, hogy a modellek meglehetősen magabiztosan állítottak butaságokat.

Az első eredmények, vagy egyenesen kudarcok után sorra, jelentek meg a Deep Research funkciók a különböző modellekben. Ezek jellemzően optimalizált érvelési, adatelemzési és strukturált információfeldolgozási képességeket hoztak magukkal. Ahogy az várható volt eleinte fizetős modellekben bukkantak fel, de később sorra jelentek meg ingyenes verziók és a napokban a Perplexity AI is elérhetővé tette ingyenes chat felületén a Deep Research funkciót.  

Az
Az "Emberiség utolsó vizsgája" teszt eredményei

 A Deep Research-el felvértezett modellek ismét megpróbálkoztak az emberiség utolsó vizsgájával. Ennek eredményeképpen az OpenAI immár 26.6%-os eredménnyel került fel a dobogóra, de szorosan követi a Perplexity Deep Research 21.1%-os eredménnyel. Ez a fejlődés rövid időn belül hatalmas előrelépést jelent, de fontos megjegyezni, hogy nem minden modell tudott ekkora fejlődést felmutatni, ezért messze menő következtetéseket még nem érdemes levonni. A Center for AI Safety előrejelzése szerint egyes modellek az év végére haladhatják meg az 50%-os értéket.

Bár az „Emberiség utolsó vizsgája” fontos mérföldkő és kétségtelenül izgalmas betekintést nyújt a mesterséges intelligencia fejlődésébe, de nem az egyetlen szempont, amit figyelembe kell venni a modellek fejlesztésének értékelésekor. A valódi áttörés feltehetően a kreatív problémamegoldásban és a komplex, nyitott végű feladatok kezelésében rejlik majd. 

Osszd meg ezt a cikket
Mesterséges intelligencia a hálózat irányításban és karbantartásban
Az Ericsson nemrég bemutatta a 2025-re vonatkozó stratégiai terveit a Mobile World Congress 2025 (MWC25) keretében. Az itt ismertetett elképzelések azért különösen érdekesek, mert jól mutatják, miként épül be a mesterséges intelligencia olyan ipari folyamatokba, amelyek mindennapi életünket érintik, ám addig rejtve maradnak, amíg zökkenőmentesen működnek.
GTC 2025: Az NVIDIA Blackwell chipeken alapuló szerverei és a DGX Station
A 2009 óta megrendezett GTC (GPU Technológiai Konferencia) idén március 17 és 21 között kerül megrendezésre az NVIDIA által. A konferencia célja hogy bemutassa a legújabb fejlesztéseket és elősegítse a különböző iparágak közötti együttműködést és további fejlesztéseket, így többnyire fejlesztők, kutatók, technológiai vezetők vesznek részt rajta. Az NVIDIA CEO-ja Jensen Huang egy ideje emlegeti, hogy a vállalatok a jövőben token gyárrá változnak, ami alatt azt érti, hogy minden létező munkafolyamat mesterséges intelligencia által támogatott lesz. Ebben jelenleg nagy szerepet játszanak a nagy szerverek, de az AI integráció egyre inkább lecsorog majd a személyi számítógépek szintjére és a jövőben olyan számítógépek, laptopok lesznek amelyek megfelelő hardverrel rendelkeznek, ahhoz hogy akár nagy nyelvi modelleket futtassanak a háttérben. Erre azért van szükség mert a programozók, mérnökök és szinte mindenki mesterséges intelligencia által asszisztált munkát fog végezni.
Elérhető a Fedora 42 béta
A Fedora 42 béta verzió már elérhető és tesztelhető, míg a stabil kiadást április 15-re tervezik . Az új verzió számos jelentős fejlesztést tartalmaz, amelyek célja a felhasználói élmény javítása, a telepítési folyamat egyszerűsítése, valamint a modern asztali környezetek és technikai megoldások integrálása.
Videójátékok a mesterséges intelligencia tesztelésben
A videójátékok már évtizedek óta szolgálnak olyan laboratóriumként, ahol különböző AI-algoritmusok képességeit tesztelik. A játékok – legyen szó klasszikus platformjátékokról vagy összetettebb stratégiai környezetekről – lehetőséget nyújtanak arra, hogy a mesterséges intelligencia rendszerek megtanulják a cselekvést, alkalmazkodjanak a változó környezethez, és optimalizálják döntéseiket a jutalmak elérése érdekében.