Az Apple új mesterséges intelligencia modelljei megérti mi látható a képernyőn

A telefonunk kijelzőjét nézve magától értetődőnek tűnik, mit látunk: ikonokat, szövegeket, gombokat, amelyekhez hozzászoktunk. De vajon egy mesterséges intelligencia hogyan értelmezi ugyanezt a felületet? Ez a kérdés áll az Apple és a finn Aalto Egyetem közös kutatásának középpontjában, amelynek eredményeként megszületett az ILuvUI nevű modell. A fejlesztés célja nem csupán technológiai bravúr: sokatmondó lépés abba az irányba, ahol a digitális rendszerek képesek lesznek valóban megérteni, hogyan használjuk az alkalmazásokat – és hogyan segíthetnének bennünket még hatékonyabban.

Az ILuvUI (Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations) egy úgynevezett vizuális-nyelvi modell, amely képeket és szöveges utasításokat egyaránt képes értelmezni. Viszont nem áll meg ott, hogy felismeri a képernyő elemeit: célja, hogy megértse a felhasználói szándékot, kontextusban értelmezze a vizuális információkat, és ezek alapján segítse az interakciót a digitális környezetben.

A legtöbb ma elérhető mesterséges intelligencia-modell elsősorban természetes képeken tanul – például állatokon vagy tájképeken. Ezek a modellek akkor is jól teljesítenek, ha szöveges kérdésekre kell válaszolniuk, de nehezebben boldogulnak a mobilalkalmazások összetett felületeivel. Az ILuvUI ezzel szemben kifejezetten ilyen strukturált környezetek értelmezésére lett kifejlesztve, és ebben felül is múlta az eredeti LLaVA nevű nyílt forrású alapmodelljét. Nem csupán gépi értékelésben, hanem emberi preferenciatesztekben is jobban szerepelt.

A modell betanításához nem valós felhasználói interakciókat használtak, hanem szintetikusan generált adatokat, például részletes képernyőleírásokat, kérdés-válasz dialógusokat és lehetséges felhasználói műveletek következményeit. A képességek közül talán az a legfigyelemreméltóbb, hogy ILuvUI nem igényel kijelölt képernyőrészletet. Egy egyszerű szöveges utasítás alapján képes értelmezni a teljes képernyő tartalmát, és ennek megfelelően válaszol.

A technológia lehetséges hasznosítási területei közül a hozzáférhetőség kiemelt figyelmet érdemel. Az olyan felhasználók, akik valamilyen okból nem tudják vizuálisan követni, mi történik egy alkalmazás felületén, most olyan eszközt kaphatnak, amely segít eligazodni számukra egyébként nehezen értelmezhető digitális környezetekben. Emellett az automatizált tesztelés is profitálhat a fejlesztésből, hiszen a felhasználói felületek működésének pontosabb, intelligensebb értelmezése gyorsabbá és hatékonyabbá teheti a hibakeresést vagy a működés ellenőrzését.

Fontos hangsúlyozni, hogy az ILuvUI még nem egy végleges megoldás. A kutatók a jövőben nagyobb képkódolókat, jobb felbontáskezelést, valamint olyan kimeneti formátumokat terveznek, amelyek zökkenőmentesen illeszkednek az alkalmazások fejlesztési környezetéhez. Ugyanakkor az alap már most is ígéretes, és szervesen kapcsolódik egy másik jelentős Apple-fejlesztéshez: az Apple Intelligencia néven bejelentett újgenerációs MI-rendszerhez.

Ez az új rendszer a generatív nyelvi modellek legfrissebb eredményeit építi be az Apple eszközeibe. A modellcsalád több elemből áll: egy kisebb, eszközön futó változatból, amely gyors és energiahatékony működést biztosít, valamint egy nagyobb, szerveroldali modellből, amely bonyolultabb feladatokat képes kezelni. Az architektúrák különféle újításokat tartalmaznak a memóriahasználat és a feldolgozási idő csökkentése érdekében. A képi információk feldolgozását is komolyan vették: fejlesztettek egy saját látáskódolót, amelyet kifejezetten képi adatokon képeztek.

Az Apple hangsúlyozza, hogy a modellek tanítása során nem használ fel személyes felhasználói adatokat. Ehelyett licencelt, nyílt forráskódú és nyilvános adatkészletekből, valamint saját webes keresőrobotja, az Applebot segítségével feltérképezett tartalmakból építkeznek. Ezen túl külön szűrőket alkalmaznak annak érdekében, hogy a modellek ne tartalmazzanak személyazonosításra alkalmas vagy nem biztonságos információkat. A rendszer működésének egyik alappillére az adatvédelem: a fejlesztések az eszközön történő feldolgozásra és a Private Cloud Compute nevű, újonnan bevezetett infrastruktúrára épülnek.

Az Apple új keretrendszere, a Foundation Models, lehetővé teszi a fejlesztők számára, hogy közvetlenül használják ezeket az alapmodelleket az alkalmazásaikban. Az irányított szöveggenerálás, a Swift típusú adatstruktúrák integrálása, valamint az eszközhívási lehetőségek révén célzott, megbízható MI-funkciók építhetők be, akár specifikus információforrásokra vagy szolgáltatásokra szabva.

Bár a nyilvános bemutatók gyakran hangsúlyozzák az új MI-rendszerek gyorsaságát, hatékonyságát és „intelligenciáját”, fontos tudatosítani, hogy ezek a modellek továbbra is emberek által készített rendszerek, és nem rendelkeznek saját szándékokkal vagy megértéssel. Mégis, egyre közelebb kerülnek ahhoz, hogy képesek legyenek értelmezni a felhasználók céljait, és ezekre releváns, kontextusérzékeny módon reagálni.

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Brutális negyedév az Apple-nél, de mi lesz az iPhone után?
Az Apple a globális gazdasági és kereskedelmi kihívások közepette ismét bizonyította rendkívüli piaci erejét, felülmúlva az elemzői várakozásokat a 2025-ös pénzügyi év harmadik negyedévében. A cupertinói óriás nem csupán rekordbevételt könyvelt el a júniussal zárult időszakban, de egy történelmi mérföldkövet is elért: leszállította a hárommilliárdodik iPhone-t. Ez az eredmény egy olyan korszakban született, amikor a vállalatot egyszerre sújtják a büntetővámok költségei és a mesterséges intelligencia területén tapasztalható, egyre élesedő verseny és számos kudarc amit a vállalat kénytelen volt elszenvedni.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.