Életre kelt az OpenAI Operator

 Az AI-alapú automatizálás és a digitális asszisztensek egy újabb lépést tettek a fizikai világ felé, nem csoda tehát, hogy Sam Altman, az OpenAI vezérigazgatója egy korábbi blogbejegyzésében arra utalt, hogy 2025 az AI asszisztensek éve lesz. Az OpenAI a mai napon (2025. január 23.) hivatalosan is bejelentette legújabb AI asszisztensét, az Operator kutatási előzetesét. Ez az eszköz a webböngésző fölött veszi át az irányítást, és bizonyos feladatokat teljesen önállóan végez el.

Egy AI, amely már nemcsak válaszol, hanem cselekszik is

Az Operator kezdetben az amerikai felhasználók számára lesz elérhető a ChatGPT Pro 200 dolláros előfizetési csomagján keresztül, de az OpenAI tervei szerint hamarosan további előfizetési szinteken is megjelenik. Sam Altman megerősítette, hogy a szolgáltatás más országokba is megérkezik, azonban Euróban a bevezetés tovább fog tartani.

Az Operator célja, hogy olyan feladatokat automatizáljon, mint a szállásfoglalás, az éttermi foglalás vagy az online vásárlás. A felhasználók több kategóriából választhatnak, mint például étkezés, utazás vagy kiszállítás, lehetőséget adva a személyre szabott AI-műveletekre. Az Operator egy különálló webböngészőt használ, amelyben a felhasználó továbbra is fenntarthatja az irányítást.

A CUA-modell

Az Operator működése az OpenAI Computer-Using Agent (CUA) modelljére épül, amely a GPT-4o nyelvi modelljét kombinálja az OpenAI fejlett érvelési mechanizmusával. A CUA nem kíván API-kon keresztül hozzáférni a weboldalakhoz, hanem képes interakcióba lépni a hagyományos felhasználói felületekkel, akárcsak egy ember.

Biztonság és kihívások

Az OpenAI szerint az Operator nem tökéletes, és egyes összetettebb feladatokat nem tud megbízhatóan kezelni. Az AI-ügynök közvetlen felhasználói megerősítést igényel bizonyos végleges lépések előtt, mint egy rendelés elküldése vagy egy e-mail elküldése. Az OpenAI egyelőre korlátozza az olyan érzékeny feladatokat, mint a banki tranzakciók vagy jelszók megadása, biztosítva, hogy a felhasználók teljes kontroll alatt tarthassák pénzügyi adataikat.   

Asztal foglalás egy étteremben az Operator segítségével
Asztal foglalás egy étteremben az Operator segítségével

Hogyan működik?

A működést illetően a kezelőfelület nagyon hasonló ahhoz amit már megszokhattunk. Gyakorlatilag egy chat ablakunk van ahol a bal alsó sarokban egy gémkapocs szimbólumra kattintva kiválaszthatjuk opcionálisan, hogy a parancsokat az Operator melyik weboldalon hajtsa végre. Ha nem választjuk ki akkor egy keresést indít majd az interneten, hogy olyan weboldalt találjon ahol ez utasításokat végrehajthatja. A chat ablakban olyan üzeneteket adhatunk meg az Operatornak hogy például vásároljon be egy bevásárló lista alapján, vagy rendeljen nekünk pizzát esetleg foglaljon asztalt egy étterembe, stb. Az üzenet megadása után elindít egy böngészőt, ahol minden lépést kiír és végrehajtja a kérést úgy, hogy gyakorlatilag ebben a virtuális böngészőben kattintgat. A felhasználó minden egyes lépésnél átveheti az irányítást ha úgy kívánja, de az Operator maga is visszadobja az irányítást ha olyan problémába ütközik, amelyet nem tud leküzdeni, vagy valami gyanúsat szimatol.    

Az Operator az asztalfoglalást egy böngésző irányítsásával teszi meg ahogy egy ember is tenné
Az Operator az asztalfoglalást egy böngésző irányítsásával teszi meg ahogy egy ember is tenné

Az AI-ügynökök jövője

Az OpenAI versenytársai, köztük a Google és az Anthropic, szintén fejlesztenek hasonló AI-ügynököket, de az Operator az egyik legambiciózusabb kísérlet ezen a téren. Ugyanakkor az AI-ügynökök komoly biztonsági kihívásokat vetnek fel, hiszen alkalmasak lehetnek visszaélésekre is. Az OpenAI több biztonsági mechanizmust épített be az Operatorba, hogy minimalizálja az olyan kockázatokat, mint az adathalász kísérletek vagy az automatizált visszaélések.

A közelmúltban bevezetett OpenAI Tasks szolgáltatás már megmutatta a ChatGPT egyre növekvő funkcionalitását, de az Operator a virtuális asszisztensek egy teljesen új generációját hozhatja el. Ahogy az AI-alapú automatizálás egyre inkább a mindennapjaink részévé válik, kíváncsian várjuk, milyen mélyreható változásokat hoz majd az OpenAI Operator a digitális asszisztensek piacán. Én személy szerint a nagy bevásárlást még nem bíznám rá de az adóbevallásom kitöltését már holnap átengedem neki.   

Osszd meg ezt a cikket
Mi rejlik a Meta mesterséges intelligencia-újjászervezése mögött?
Mark Zuckerberg, a Meta vezérigazgatója nem először lép merészet, ám ezúttal minden eddiginél átfogóbb átszervezést hajt végre a cég mesterséges intelligenciával foglalkozó részlegeiben. A frissen létrehozott Meta Superintelligence Labs (MSL) névre keresztelt új divízió alá kerül az összes eddigi AI-csapat, beleértve a kutatás-fejlesztést, a termékfejlesztést és az alapmodellek építését. A cél nem csupán az emberi gondolkodással versenyképes mesterséges intelligencia (AGI), hanem egy olyan rendszerszintű szuperintelligencia megalkotása, amely meghaladja az emberi képességeket.
Szuverén AI, titkos részvényeladások – mi zajlik az NVIDIA kulisszái mögött?
A mesterséges intelligencia iparága az elmúlt években ritkán tapasztalt lendületet vett, és ennek a hullámnak az egyik legnagyobb nyertese kétségtelenül az NVIDIA. A grafikus processzorairól ismert vállalat mára nem csupán a játékosok és mérnökök kedvence, hanem a nemzetközi technológiai stratégiák központi szereplője is lett. Az amerikai tőzsdén a részvényeinek az értéke történelmi csúcsokat dönt, miközben egyre több kormányzati együttműködés és geopolitikai szál kezd köréje fonódni. De vajon mit árul el mindez a jövőről, és mennyire megalapozott a mostani optimizmus?
Nem támogatja tovább az X11-et GNOME 49
Bár a GNOME talán a legáltalánosabban használt asztali környezet az egyes Linux disztribúciók esetében, a fejlesztők a GNOME 49-ben mégis mélyebb szerkezeti változások mellett döntöttek, amely kihatással lesz a disztribúciók támogatására.
A Facebook új AI-funkciója csendben nyit kaput a személyes fotók tömeges elemzéséhez
Egy új figyelmeztetés fogadja azokat a felhasználókat, akik valamilyen bejegyzést szeretnének megosztani a Facebookon: egy felugró ablak, amely „felhőalapú feldolgozásra” kér engedélyt. A rendszer, ha jóváhagyjuk, hozzáférhet a telefonunk teljes fényképtárához – beleértve azokat a képeket is, amelyeket még soha nem töltöttünk fel a közösségi hálóra. A cél: mesterséges intelligencia által generált kreatív ötletek, például kollázsok, tematikus válogatások vagy stílusátalakított változatok készítése.
openEuler 24.03-LTS-SP2 a kínai nagyvállalatok meghatározó platformja
A digitális infrastruktúra jövője egyre inkább olyan operációs rendszerekre épül, amelyek képesek egyszerre kielégíteni a különböző iparágak stabilitási, innovációs és kompatibilitási elvárásait. Az openEuler, Kína első közösségi nyílt forráskódú operációs rendszere, nem csupán egy technológiai termék, hanem egy hosszú távú stratégiai törekvés eredménye, amely arra irányul, hogy független és sokrétű technológiai ökoszisztémát hozzon létre. Ennek a fejlesztési vonalnak legújabb fontos állomása az openEuler 24.03 LTS SP2.
 Google Gemini CLI, erős ajánlat a terminálból elérhető AI-k mezőnyében
A Google által nemrég bejelentett Gemini CLI egy nyílt forráskódú, parancssoros AI-eszköz, amely a Gemini 2.5 Pro nagy nyelvi modellt integrálja közvetlenül a terminálba. A kezdeményezés célja nem kevesebb, mint hogy a természetes nyelvi utasításokat valódi technikai munkafolyamatokká alakítsa, méghozzá egy olyan környezetben, amely sokak számára már eddig is a hatékonyság szinonimája volt.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések