Megduplázták a teljesítményüket a nagy nyelvi modellek az elmúlt hónapban

 Körülbelül egy hónapja, hogy a Scale AI közzétette az „Emberiség utolsó vizsgája” nevű tesztjének első eredményeit, amely a mesterséges intelligencia szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken. Ezeken túlmenően a teszt a modellek kalibráltságát is méri. A teszt egyaránt érinti a reál és humán tudományokat, bár érthető okoknál fogva a reál tudományok azon belül is a matematika túlsúlyban van a többihez képest, hiszen leginkább ezzel kapcsolatban tudunk objektív igazságokat megfogalmazni.

Az első tesztelésekkor több fejlett modellt is végigfuttattak a teszten, olyanokat mint a OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, vagy a DeepSeek R1. A modellek egyikének sem sikerült elérnie a 10%-so értéket, de az OpenAI o1 és a DeepSeek R1 nagyon közel voltak hozzá. Ami a kalibráltságot illeti, itt is jelentős ledolgozni való van még, hiszen magas kalibrációs hibák jelentkeztek, ami azt jelenti, hogy a modellek meglehetősen magabiztosan állítottak butaságokat.

Az első eredmények, vagy egyenesen kudarcok után sorra, jelentek meg a Deep Research funkciók a különböző modellekben. Ezek jellemzően optimalizált érvelési, adatelemzési és strukturált információfeldolgozási képességeket hoztak magukkal. Ahogy az várható volt eleinte fizetős modellekben bukkantak fel, de később sorra jelentek meg ingyenes verziók és a napokban a Perplexity AI is elérhetővé tette ingyenes chat felületén a Deep Research funkciót.  

Az
Az "Emberiség utolsó vizsgája" teszt eredményei

 A Deep Research-el felvértezett modellek ismét megpróbálkoztak az emberiség utolsó vizsgájával. Ennek eredményeképpen az OpenAI immár 26.6%-os eredménnyel került fel a dobogóra, de szorosan követi a Perplexity Deep Research 21.1%-os eredménnyel. Ez a fejlődés rövid időn belül hatalmas előrelépést jelent, de fontos megjegyezni, hogy nem minden modell tudott ekkora fejlődést felmutatni, ezért messze menő következtetéseket még nem érdemes levonni. A Center for AI Safety előrejelzése szerint egyes modellek az év végére haladhatják meg az 50%-os értéket.

Bár az „Emberiség utolsó vizsgája” fontos mérföldkő és kétségtelenül izgalmas betekintést nyújt a mesterséges intelligencia fejlődésébe, de nem az egyetlen szempont, amit figyelembe kell venni a modellek fejlesztésének értékelésekor. A valódi áttörés feltehetően a kreatív problémamegoldásban és a komplex, nyitott végű feladatok kezelésében rejlik majd. 

Osszd meg ezt a cikket
Szuverén AI, titkos részvényeladások – mi zajlik az NVIDIA kulisszái mögött?
A mesterséges intelligencia iparága az elmúlt években ritkán tapasztalt lendületet vett, és ennek a hullámnak az egyik legnagyobb nyertese kétségtelenül az NVIDIA. A grafikus processzorairól ismert vállalat mára nem csupán a játékosok és mérnökök kedvence, hanem a nemzetközi technológiai stratégiák központi szereplője is lett. Az amerikai tőzsdén a részvényeinek az értéke történelmi csúcsokat dönt, miközben egyre több kormányzati együttműködés és geopolitikai szál kezd köréje fonódni. De vajon mit árul el mindez a jövőről, és mennyire megalapozott a mostani optimizmus?
Nem támogatja tovább az X11-et GNOME 49
Bár a GNOME talán a legáltalánosabban használt asztali környezet az egyes Linux disztribúciók esetében, a fejlesztők a GNOME 49-ben mégis mélyebb szerkezeti változások mellett döntöttek, amely kihatással lesz a disztribúciók támogatására.
A Facebook új AI-funkciója csendben nyit kaput a személyes fotók tömeges elemzéséhez
Egy új figyelmeztetés fogadja azokat a felhasználókat, akik valamilyen bejegyzést szeretnének megosztani a Facebookon: egy felugró ablak, amely „felhőalapú feldolgozásra” kér engedélyt. A rendszer, ha jóváhagyjuk, hozzáférhet a telefonunk teljes fényképtárához – beleértve azokat a képeket is, amelyeket még soha nem töltöttünk fel a közösségi hálóra. A cél: mesterséges intelligencia által generált kreatív ötletek, például kollázsok, tematikus válogatások vagy stílusátalakított változatok készítése.
openEuler 24.03-LTS-SP2 a kínai nagyvállalatok meghatározó platformja
A digitális infrastruktúra jövője egyre inkább olyan operációs rendszerekre épül, amelyek képesek egyszerre kielégíteni a különböző iparágak stabilitási, innovációs és kompatibilitási elvárásait. Az openEuler, Kína első közösségi nyílt forráskódú operációs rendszere, nem csupán egy technológiai termék, hanem egy hosszú távú stratégiai törekvés eredménye, amely arra irányul, hogy független és sokrétű technológiai ökoszisztémát hozzon létre. Ennek a fejlesztési vonalnak legújabb fontos állomása az openEuler 24.03 LTS SP2.
 Google Gemini CLI, erős ajánlat a terminálból elérhető AI-k mezőnyében
A Google által nemrég bejelentett Gemini CLI egy nyílt forráskódú, parancssoros AI-eszköz, amely a Gemini 2.5 Pro nagy nyelvi modellt integrálja közvetlenül a terminálba. A kezdeményezés célja nem kevesebb, mint hogy a természetes nyelvi utasításokat valódi technikai munkafolyamatokká alakítsa, méghozzá egy olyan környezetben, amely sokak számára már eddig is a hatékonyság szinonimája volt.
Satya Nadella gondolatai a mesterséges intelligencia szerepéről jövőjéről és felelősségéről
A technológia világában nem ritkák a gyors váltások, de ezek ritkán érintenek ennyire sok szektort egyszerre, mint napjaink mesterséges intelligencia (AI) forradalma. Satya Nadella, a Microsoft vezérigazgatója a Y Combinatornak adott interjúban nemcsak a technológiai fejleményeket értékelte, hanem tágabb társadalmi és gazdasági összefüggésekbe is helyezte az AI fejlődését. Megközelítése visszafogott, higgadt és céltudatos: az AI nem misztikus entitás, hanem eszköz, amelyet megfelelően kell alkalmazni és értelmezni.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések