Az Apple új mesterséges intelligencia modelljei megérti mi látható a képernyőn

A telefonunk kijelzőjét nézve magától értetődőnek tűnik, mit látunk: ikonokat, szövegeket, gombokat, amelyekhez hozzászoktunk. De vajon egy mesterséges intelligencia hogyan értelmezi ugyanezt a felületet? Ez a kérdés áll az Apple és a finn Aalto Egyetem közös kutatásának középpontjában, amelynek eredményeként megszületett az ILuvUI nevű modell. A fejlesztés célja nem csupán technológiai bravúr: sokatmondó lépés abba az irányba, ahol a digitális rendszerek képesek lesznek valóban megérteni, hogyan használjuk az alkalmazásokat – és hogyan segíthetnének bennünket még hatékonyabban.

Az ILuvUI (Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations) egy úgynevezett vizuális-nyelvi modell, amely képeket és szöveges utasításokat egyaránt képes értelmezni. Viszont nem áll meg ott, hogy felismeri a képernyő elemeit: célja, hogy megértse a felhasználói szándékot, kontextusban értelmezze a vizuális információkat, és ezek alapján segítse az interakciót a digitális környezetben.

A legtöbb ma elérhető mesterséges intelligencia-modell elsősorban természetes képeken tanul – például állatokon vagy tájképeken. Ezek a modellek akkor is jól teljesítenek, ha szöveges kérdésekre kell válaszolniuk, de nehezebben boldogulnak a mobilalkalmazások összetett felületeivel. Az ILuvUI ezzel szemben kifejezetten ilyen strukturált környezetek értelmezésére lett kifejlesztve, és ebben felül is múlta az eredeti LLaVA nevű nyílt forrású alapmodelljét. Nem csupán gépi értékelésben, hanem emberi preferenciatesztekben is jobban szerepelt.

A modell betanításához nem valós felhasználói interakciókat használtak, hanem szintetikusan generált adatokat, például részletes képernyőleírásokat, kérdés-válasz dialógusokat és lehetséges felhasználói műveletek következményeit. A képességek közül talán az a legfigyelemreméltóbb, hogy ILuvUI nem igényel kijelölt képernyőrészletet. Egy egyszerű szöveges utasítás alapján képes értelmezni a teljes képernyő tartalmát, és ennek megfelelően válaszol.

A technológia lehetséges hasznosítási területei közül a hozzáférhetőség kiemelt figyelmet érdemel. Az olyan felhasználók, akik valamilyen okból nem tudják vizuálisan követni, mi történik egy alkalmazás felületén, most olyan eszközt kaphatnak, amely segít eligazodni számukra egyébként nehezen értelmezhető digitális környezetekben. Emellett az automatizált tesztelés is profitálhat a fejlesztésből, hiszen a felhasználói felületek működésének pontosabb, intelligensebb értelmezése gyorsabbá és hatékonyabbá teheti a hibakeresést vagy a működés ellenőrzését.

Fontos hangsúlyozni, hogy az ILuvUI még nem egy végleges megoldás. A kutatók a jövőben nagyobb képkódolókat, jobb felbontáskezelést, valamint olyan kimeneti formátumokat terveznek, amelyek zökkenőmentesen illeszkednek az alkalmazások fejlesztési környezetéhez. Ugyanakkor az alap már most is ígéretes, és szervesen kapcsolódik egy másik jelentős Apple-fejlesztéshez: az Apple Intelligencia néven bejelentett újgenerációs MI-rendszerhez.

Ez az új rendszer a generatív nyelvi modellek legfrissebb eredményeit építi be az Apple eszközeibe. A modellcsalád több elemből áll: egy kisebb, eszközön futó változatból, amely gyors és energiahatékony működést biztosít, valamint egy nagyobb, szerveroldali modellből, amely bonyolultabb feladatokat képes kezelni. Az architektúrák különféle újításokat tartalmaznak a memóriahasználat és a feldolgozási idő csökkentése érdekében. A képi információk feldolgozását is komolyan vették: fejlesztettek egy saját látáskódolót, amelyet kifejezetten képi adatokon képeztek.

Az Apple hangsúlyozza, hogy a modellek tanítása során nem használ fel személyes felhasználói adatokat. Ehelyett licencelt, nyílt forráskódú és nyilvános adatkészletekből, valamint saját webes keresőrobotja, az Applebot segítségével feltérképezett tartalmakból építkeznek. Ezen túl külön szűrőket alkalmaznak annak érdekében, hogy a modellek ne tartalmazzanak személyazonosításra alkalmas vagy nem biztonságos információkat. A rendszer működésének egyik alappillére az adatvédelem: a fejlesztések az eszközön történő feldolgozásra és a Private Cloud Compute nevű, újonnan bevezetett infrastruktúrára épülnek.

Az Apple új keretrendszere, a Foundation Models, lehetővé teszi a fejlesztők számára, hogy közvetlenül használják ezeket az alapmodelleket az alkalmazásaikban. Az irányított szöveggenerálás, a Swift típusú adatstruktúrák integrálása, valamint az eszközhívási lehetőségek révén célzott, megbízható MI-funkciók építhetők be, akár specifikus információforrásokra vagy szolgáltatásokra szabva.

Bár a nyilvános bemutatók gyakran hangsúlyozzák az új MI-rendszerek gyorsaságát, hatékonyságát és „intelligenciáját”, fontos tudatosítani, hogy ezek a modellek továbbra is emberek által készített rendszerek, és nem rendelkeznek saját szándékokkal vagy megértéssel. Mégis, egyre közelebb kerülnek ahhoz, hogy képesek legyenek értelmezni a felhasználók céljait, és ezekre releváns, kontextusérzékeny módon reagálni.

Osszd meg ezt a cikket
A Replit vezérigazgatója szerint emberibb jövő vár a programozókra az MI-nek köszönhetően
A mesterséges intelligencia térnyerése számos iparágat átalakít, és a szoftverfejlesztés sem kivétel. Sokan aggódnak, hogy az MI elveszi majd a munkahelyeket, és disztópikus jövőképeket festenek. Azonban Amjad Masad, a Replit vezérigazgatója szerint a valóság sokkal inkább az, hogy az MI emberibbé, interaktívabbá és sokoldalúbbá teszi a munkát. Ezt a gondolatot fejtette ki a Y Combinator YouTube csatornáján adott interjújában, amelyből a cikk főbb információi is származnak.
Mit hoz a DiffuCoder és a diffúziós nyelvi modellek térnyerése?
Egy új megközelítés azonban most alapjaiban kérdőjelezi meg ezt a lineáris gondolkodást: a diffúziós nyelvi modellek (dLLM-ek) nem sorban, hanem globálisan, iteratív finomítással generálnak tartalmat. De vajon valóban alkalmasabbak-e a programkód előállítására, mint a jól bevált AR modellek? És mit mutat az első komoly nyílt forráskódú kísérlet ezen a területen, a DiffuCoder?
Mesterséges intelligencia a vallás és az okkultizmus szolgálatában
Képzeljük el, hogy egy istentiszteleten ülünk. A pap vagy rabbi hangja ismerős, a mondanivaló megrendítően aktuális, a szónoklat pedig mintha épp a jelenlévők életére szabott gondolatokat fogalmazna meg. Aztán kiderül: a beszédet nem egy ember írta, és a hang sem valódi – mesterséges intelligencia generálta, korábbi tanítások alapján. A meglepetés nemcsak a technológia ereje, hanem a felismerés: a spiritualitás, amelyet hajlamosak vagyunk időtlennek és emberinek gondolni, mostantól osztozik a színpadon egy algoritmussal. Vajon mit jelent ez a változás a hit, a vallási közösségek és az emberi megértés számára?
Az Amazon Bedrock és Knowledge Base használatának megkezdése – Egyszerű módszer a dokumentumok csevegésre való felkészítéséhez
Az AI világában gyakran hatalmas szakadék tátong az elmélet és a gyakorlat között. Ugyan rendelkezésre állnak olyan hatékony modellek, mint a Claude 4, az Amazon Titan vagy akár a GPT-4, de hogyan lehet őket ténylegesen felhasználni egy valós probléma megoldására? Itt jön képbe az Amazon Bedrock és Knowledge Base.
CachyOS a gamerek Linux disztribuciója
Sokan úgy gondolják, hogy a Linux egy bonyolult, technikai tudást igénylő operációs rendszer, amelyen nem lehet játszani, azt csak kizárólag Windows-on lehet. Az utóbbi években számos játékosok számára készült Linux rendszer készült, elég csak a SteamOS-re gondolni. Ezek közé tartozik a CachyOS is – egy Arch Linux alapokra épülő disztribúció, amely kifejezetten a teljesítmény, a biztonság és a felhasználói élmény hármasára fókuszál. A rendszer legfrissebb, 2025 júliusi kiadása pedig jól példázza, hogyan válhat egy korábban rétegszámba menő operációs rendszer a mindennapi használatban is megbízható és vonzó alternatívává, olyannyira hogy az utóbbi időben minden más disztribúciót maga mögé utasított a DistroWatch listáján.
A mesterséges intelligencia végleg kinyírja a vírusirtókat?
A szakmai diskurzus egyre gyakrabban tér ki arra a kérdésre, vajon az MI alkalmas lehet-e arra, hogy a kiberbűnözés eszközévé váljon. Bár a médiában időnként túlfűtött állítások is megjelennek, a valóság ennél összetettebb, és megértése árnyalt megközelítést igényel.