Az OpenAI bemutatta az O3-Pro modellt

Az OpenAI elindította az O3-Pro modelljét, mely az O1-Pro helyébe lép, és jelentős teljesítménybeli előrelépést ígér a tudomány, oktatás, programozás, adatelemzés és szövegírás területén.

Az O3-Pro modellt úgy tervezték, hogy a ChatGPT hosszabb gondolkodási idővel megbízhatóbb válaszokat adjon. A teljesítménytesztek alapján az O3-Pro kiemelkedően teljesít a matematikában, tudományban és kódolásban, felülmúlva mind az O3, mind az O1-Pro modelleket. Bár az O3-Pro válaszideje némileg hosszabb lehet az O1-Pro-nál, az OpenAI szerint a többlet várakozás indokolt, különösen összetett és kihívást jelentő feladatok esetén.

Az OpenAI hangsúlyozza, hogy az O3-Pro sokoldalúbb eszközzé teszi a ChatGPT-t. Képes lesz weboldalak keresésére, dokumentumok elemzésére, vizuális tartalom értelmezésére, Python használatára, és a memória funkció révén személyre szabott válaszok nyújtására. Fontos megjegyezni, hogy technikai okok miatt az O3-Pro jelenleg nem támogatja a Canvas funkciót és a képgenerálást. Ehhez a felhasználóknak más modelleket, például a GPT-4o, O3 vagy O4-Mini modelleket kell használniuk. Az O3-Pro API árazása a következő: 20 dollár millió bemeneti tokenenként és 80 dollár millió kimeneti tokenenként.

Az O3-Pro modell a ChatGPT Pro/Team előfizetők számára már június 11-től elérhető, és az API-n keresztül a fejlesztők is hozzáférhetnek. Az Enterprise és Edu verziók előfizetői a jövő héten kapnak hozzáférést.

Ezenfelül az OpenAI frissítette a ChatGPT továbbfejlesztett hangalapú módját, mely természetesebb és gördülékenyebb beszélgetéseket tesz lehetővé az előfizetők számára. A ChatGPT hangfunkciója mostantól intuitív és hatékony nyelvi fordítást is kínál: egyszerűen utasítani kell a ChatGPT-t a fordításra, és az a beszélgetés során folyamatosan fordít, amíg meg nem kérik a leállítására vagy a nyelvváltásra. 

Osszd meg ezt a cikket
Mi az a WhoFi?
A vezeték nélküli internet, vagyis a WiFi, ma már életünk szinte mindenütt jelenlévő, nélkülözhetetlen része. Arra használjuk, hogy eszközeinket a világhálóra csatlakoztassuk, kommunikáljunk és információt cseréljünk. Képzeljük el azonban, ha ugyanez a technológia, amely láthatatlanul szövi be otthonainkat és városainkat, képes lenne arra is, hogy kamerák nélkül, akár falakon keresztül is azonosítson és kövessen bennünket. Ez a gondolat nem a távoli jövő sci-fi forgatókönyve, hanem egy újonnan kifejlesztett technológia, a WhoFi valósága, amely a WiFi jelek egy eddig kiaknázatlan tulajdonságát használja fel. A helyzetet bonyolítja, hogy a „WhoFi” név egy teljesen más, közösségi célokat szolgáló szolgáltatást is takar, így a kifejezés hallatán fontos tisztázni, melyik jelentéséről van szó.
Lassan éledezik Kína saját GPU ipara
A „7G” egy rövidítés, amely kínaiul szinte ugyanúgy hangzik, mint a „csoda” szó. Hogy ez pusztán egy ügyes marketingfogás vagy valóban technológiai jóslat, azt csak az idő dönti el. A Lisuan Technology által bemutatott 7G106 – belső nevén G100 – azonban kétségtelenül az első komoly próbálkozás arra, hogy Kína kilépjen az Nvidia és az AMD árnyékából. Nincs licencmegállapodás, nincs nyugati szellemi tulajdonra épülő támasz – egy teljesen saját fejlesztésű GPU, amelyet 6 nm-es DUV technológiával gyártanak egy olyan országban, amely most kezdi lerázni a nyugati technológiai export korlátait.
Felfokozott a várakozás GPT-5 megjelenése kapcsán, de mégis mire kell számítanunk?
Az OpenAI következő nyelvi modellje, a GPT-5, az elmúlt hónapok egyik legjobban várt technológiai fejlesztése lett. A GPT-4o és a speciális o1 modellek megjelenése után a figyelem most a következő generációs nyelvi modellre irányul, amely a pletykák és a vállalat vezetőinek elejtett megjegyzései szerint jelentős előrelépést hozhat a mesterséges intelligencia képességeiben. De mit tudunk eddig, és mi az, ami csupán spekuláció?
Mit hoz a DiffuCoder és a diffúziós nyelvi modellek térnyerése?
Egy új megközelítés azonban most alapjaiban kérdőjelezi meg ezt a lineáris gondolkodást: a diffúziós nyelvi modellek (dLLM-ek) nem sorban, hanem globálisan, iteratív finomítással generálnak tartalmat. De vajon valóban alkalmasabbak-e a programkód előállítására, mint a jól bevált AR modellek? És mit mutat az első komoly nyílt forráskódú kísérlet ezen a területen, a DiffuCoder?
Az Apple új mesterséges intelligencia modelljei megérti mi látható a képernyőn
A telefonunk kijelzőjét nézve magától értetődőnek tűnik, mit látunk: ikonokat, szövegeket, gombokat, amelyekhez hozzászoktunk. De vajon egy mesterséges intelligencia hogyan értelmezi ugyanezt a felületet? Ez a kérdés áll az Apple és a finn Aalto Egyetem közös kutatásának középpontjában, amelynek eredményeként megszületett az ILuvUI nevű modell. A fejlesztés célja nem csupán technológiai bravúr: sokatmondó lépés abba az irányba, ahol a digitális rendszerek képesek lesznek valóban megérteni, hogyan használjuk az alkalmazásokat – és hogyan segíthetnének bennünket még hatékonyabban.
Mesterséges intelligencia a vallás és az okkultizmus szolgálatában
Képzeljük el, hogy egy istentiszteleten ülünk. A pap vagy rabbi hangja ismerős, a mondanivaló megrendítően aktuális, a szónoklat pedig mintha épp a jelenlévők életére szabott gondolatokat fogalmazna meg. Aztán kiderül: a beszédet nem egy ember írta, és a hang sem valódi – mesterséges intelligencia generálta, korábbi tanítások alapján. A meglepetés nemcsak a technológia ereje, hanem a felismerés: a spiritualitás, amelyet hajlamosak vagyunk időtlennek és emberinek gondolni, mostantól osztozik a színpadon egy algoritmussal. Vajon mit jelent ez a változás a hit, a vallási közösségek és az emberi megértés számára?