Megduplázták a teljesítményüket a nagy nyelvi modellek az elmúlt hónapban

 Körülbelül egy hónapja, hogy a Scale AI közzétette az „Emberiség utolsó vizsgája” nevű tesztjének első eredményeit, amely a mesterséges intelligencia szakértői szintű tudását és érvelési képességeit hivatott mérni különböző területeken. Ezeken túlmenően a teszt a modellek kalibráltságát is méri. A teszt egyaránt érinti a reál és humán tudományokat, bár érthető okoknál fogva a reál tudományok azon belül is a matematika túlsúlyban van a többihez képest, hiszen leginkább ezzel kapcsolatban tudunk objektív igazságokat megfogalmazni.

Az első tesztelésekkor több fejlett modellt is végigfuttattak a teszten, olyanokat mint a OpenAI GPT-4o, az Anthropic Claude 3.5 Sonnet, vagy a DeepSeek R1. A modellek egyikének sem sikerült elérnie a 10%-so értéket, de az OpenAI o1 és a DeepSeek R1 nagyon közel voltak hozzá. Ami a kalibráltságot illeti, itt is jelentős ledolgozni való van még, hiszen magas kalibrációs hibák jelentkeztek, ami azt jelenti, hogy a modellek meglehetősen magabiztosan állítottak butaságokat.

Az első eredmények, vagy egyenesen kudarcok után sorra, jelentek meg a Deep Research funkciók a különböző modellekben. Ezek jellemzően optimalizált érvelési, adatelemzési és strukturált információfeldolgozási képességeket hoztak magukkal. Ahogy az várható volt eleinte fizetős modellekben bukkantak fel, de később sorra jelentek meg ingyenes verziók és a napokban a Perplexity AI is elérhetővé tette ingyenes chat felületén a Deep Research funkciót.  

Az
Az "Emberiség utolsó vizsgája" teszt eredményei

 A Deep Research-el felvértezett modellek ismét megpróbálkoztak az emberiség utolsó vizsgájával. Ennek eredményeképpen az OpenAI immár 26.6%-os eredménnyel került fel a dobogóra, de szorosan követi a Perplexity Deep Research 21.1%-os eredménnyel. Ez a fejlődés rövid időn belül hatalmas előrelépést jelent, de fontos megjegyezni, hogy nem minden modell tudott ekkora fejlődést felmutatni, ezért messze menő következtetéseket még nem érdemes levonni. A Center for AI Safety előrejelzése szerint egyes modellek az év végére haladhatják meg az 50%-os értéket.

Bár az „Emberiség utolsó vizsgája” fontos mérföldkő és kétségtelenül izgalmas betekintést nyújt a mesterséges intelligencia fejlődésébe, de nem az egyetlen szempont, amit figyelembe kell venni a modellek fejlesztésének értékelésekor. A valódi áttörés feltehetően a kreatív problémamegoldásban és a komplex, nyitott végű feladatok kezelésében rejlik majd. 

Osszd meg ezt a cikket
Hol tart ma valójában a mesterséges intelligencia?
A mesterséges intelligencia fejlesztése az elmúlt években látványos és gyakran lenyűgöző eredményeket produkált. Az olyan rendszerek, mint a ChatGPT, képesek természetes nyelvű szövegeket generálni, problémákat megoldani és sokszor az emberi teljesítményt is meghaladni különféle feladatokban. Ugyanakkor egyre több neves kutató és technológiai vezető – köztük John Carmack és François Chollet – hívja fel a figyelmet arra, hogy ezek az eredmények nem feltétlenül jelentik az általános mesterséges intelligencia (AGI) közeledtét. A színfalak mögött most új típusú problémák és kérdések kerültek a figyelem középpontjába, amelyek messze túlmutatnak a puszta teljesítményen.
A Rhino Linux új kiadással jelentkezik: 2025.3
A Linux disztribúciók körében főként kétféle szemléletmód terjedt el, vannak a stabil, ritkán frissülő rendszerek biztonságos kiszámíthatósággal, és a naprakész, de időnként kényes egyensúlyon balanszírozó, gördülő kiadású disztribúciók. A Rhino Linux ezt a két ellenpontot próbálja áthidalni, azaz egyszerre próbál naprakész lenni gördülő disztribúcióként, de alapként az Ubuntura épül, hogy megfelelő stabilitást is biztosítson.
SEAL az önmagát tanító mesterséges intelligencia előhírnöke
Hosszú évek óta tartja magát az elképzelés, hogy a mesterséges intelligencia fejlesztésének kulcsa az emberi tanítás: adatok, címkék, finomhangolás, gondosan megtervezett beavatkozások. Most azonban egy új megközelítés látott napvilágot. Az MIT kutatóinak legújabb munkája, a SEAL (Self-Adapting Language Models) névre keresztelt rendszer olyan nyelvi modelleket mutat be, amelyek képessé válnak saját maguk tanítására. Az eredmények nemcsak technológiai újdonságot jelentenek, hanem felvetik a kérdést: vajon milyen szerepet szánunk a jövőben az embernek az intelligens rendszerek képzésében?
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
A térbeli intelligencia a következő leküzdendő akadály az AGI előtt
Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések