A térbeli intelligencia a következő leküzdendő akadály az AGI előtt

Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.

Mit is jelent a térbeli intelligencia?

A térbeli intelligencia lényegében azt jelenti, hogy egy mesterséges rendszer képes érzékelni, megérteni és manipulálni a háromdimenziós adatokat, valamint navigálni a 3D környezetben. Ez sokkal több, mint puszta tárgyfelismerés, melyre a mai MI-k már kiválóan képesek. Arról van szó, hogy a gépek felismerik a mélységet, a térfogatot, az objektumok közötti kapcsolatokat, és a térbeli kontextust – hasonlóan ahhoz, ahogyan mi emberek értelmezzük a körülöttünk lévő teret. Dr. Fei-Fei Li, az MI területének egyik úttörője és a "mesterséges intelligencia keresztanyjaként" emlegetett szakértő, hangsúlyozza, hogy ez a képesség ugyanolyan alapvető az MI jövője szempontjából, mint a nyelvi feldolgozás. Ahogy a nyelv alapozta meg a kommunikációt, úgy a 3D tér megértése teszi majd lehetővé az MI számára, hogy valóban értelmesen lépjen interakcióba fizikai környezetünkkel.

Ennek elérése azonban komoly kihívás és nem egyértelműen következik, a már meglévő LLM technológiából. A probléma egyik eleme, hogy a nyelv alapvetően egydimenziós (1D), mivel a nyelvi információk szekvenciálisan, sorrendben érkeznek – például a beszéd vagy írás során egymás után jönnek a szavak és szótagok. Emiatt a nyelv feldolgozására alkalmas modellek, mint az LLM-ek, jól működnek a szekvencia-alapú tanulással (pl. sequence-to-sequence modellek). A másik probléma, hogy a nyelv tisztán generatív jelenség: nem kézzelfogható, nem látjuk vagy tapintjuk, hanem az emberi elméből származik – teljes mértékben belső konstrukció, amit csak utólag rögzítünk (pl. írásban).

Ezzel szemben a vizuális világ háromdimenziós (3D), és ha az időt is beleszámítjuk, akkor négydimenziós (4D). A vizuális érzékelés során a 3D világ kétdimenziós vetületté (például a retinánkon vagy kameraképen) redukálódik – ez matematikailag ill-posed probléma (nincs egyértelmű megoldás). Ráadásul a vizuális világ nem csupán generatív, hanem rekonstruktív is – valós fizikai törvényekhez kötött –, és a felhasználása is változatosabb, a metaverzum generálásától a robotikáig. Ezért Fei-Fei Li szerint a térbeli intelligencia modellezése (pl. 3D világmodellek) sokkal összetettebb és keményebb kihívás, mint az LLM-ek fejlesztése.

Google Geospatial Reasoning Framework ez már a térbeli intelligencia?

A térbeli intelligencia fejlesztéséhez számos megközelítést alkalmaznak ma is. A számítógépes látás és a 3D feldolgozás kulcsszerepet játszik. Lidar, sztereó kamerák és strukturált fényérzékelők segítségével gyűjtik a mélységi információkat, melyeket neurális algoritmusok dolgoznak fel. Ezeket a technológiákat már használják önvezető rendszerekben, robotikában és térinformatikai alkalmazásokban.

A Google által fejlesztett Geospatial Reasoning Framework egy jelentős technológiai lépés a térbeli intelligencia alkalmazása felé, amely a vállalat globális geoadat-infrastruktúrájára és fejlett generatív AI képességeire épít (Bővebben a korábbi Google Geospatial Reasoning új AI eszköz a térinformatikai problémák megoldására cikkemben). A rendszer célja, hogy komplex térbeli összefüggéseket tárjon fel és értelmezzen különböző adatok — például műholdképek, térképek, mobilitási minták — alapján. Ennek középpontjában olyan alapmodellek állnak, mint a Population Dynamics Foundation Model, amely népesedési változásokat modellez, vagy a trajektóriaalapú mobilitási modellek, amelyek az emberek mozgását elemzik nagy területeken. Ezek a modellek szoros integrációban működnek a Google már meglévő rendszereivel (Google Maps, Earth Engine, Street View), így több százmillió helyszínhez és kiterjedt földrajzi adathoz férnek hozzá.

Ez a keretrendszer lehetővé teszi például várostervezési forgatókönyvek modellezését, katasztrófahelyzetek térbeli elemzését, éghajlati sérülékenységek feltérképezését vagy közegészségügyi trendek követését. Az AI-t — különösen a Gemini képességeket — a rendszer arra használja, hogy természetes nyelvi lekérdezésekből automatikusan GIS-műveleteket hajtson végre, új térbeli adattartalmakat generáljon, vagy bonyolult geográfiai összefüggéseket mutasson be.

Ugyanakkor fontos látni, hogy ez a megközelítés nem fedi le a térbeli intelligencia teljes spektrumát, különösen nem azt a fajta 3D világértést, amire Fei-Fei Li utal. A Google rendszere alapvetően 2D térképekre és földrajzi síkmodellekre épít; ezek kiválóak nagy léptékű, aggregált térbeli elemzésekhez, de nem alkalmasak arra, hogy finom, objektumszintű 3D kapcsolatokkal, fizikai törvényekkel, vagy testesült (embodied) AI feladatokkal birkózzanak meg. A valódi térbeli intelligencia — például amikor egy robotnak kell egy szobában navigálnia, tárgyakat azonosítania vagy manipulálnia — jóval több mint helyszíni adatfeldolgozás: dinamikus világmodellezést, érzékelési bizonytalanság kezelését, és időben változó fizikai interakciók értését igényli.

Dr. Fei-Fei Li szerint a látás képességének kifejlődése az evolúció során 540 millió évig tartott, míg a nyelv mindössze félmillió év alatt fejlődött ki – ez is jelzi, mennyire alapvető és komplex feladatról van szó.

A Jövő Útjai

Bár a szakosodott alkalmazásokban már láthatók figyelemre méltó eredmények, az emberi szintű térbeli intelligencia elérése továbbra is ambiciózus cél. A World Labs-hoz hasonló kezdeményezések, melyek hatalmas befektetéseket vonzanak, azt mutatják, hogy az iparág nagy lehetőséget lát ebben a területben. A jövőben kulcsfontosságú lesz a különböző típusú térbeli intelligenciák – a finom, 3D-s tárgymozgatástól a nagyméretű földrajzi érvelésig – hatékony integrációja. Emellett szükség van standardizált mérési és értékelési keretrendszerek kidolgozására is, hogy pontosan nyomon lehessen követni a fejlődést. A számítógépes látás, a robotika, a kognitív tudományok és a földrajz szakértőinek együttműködése alapvető a sikerhez. Már csak azért is mert a térbeli intelligenciával rendelkező modellek betanítása rendkívül nehéz. Amíg az LLM modellek betanítására a weben rengeteg szöveg és kép található, a 3D világról alkotott adatok ilyen tömegű beszerzése nemcsak nagy kihívás, de teljesen új megközelítéseket igényel.

De vajon mennyi idő kell majd mindehhez? A választ nyilván senki nem tudja, hiszen a feladat komplex így maguk a kutatók sem bocsátkoznak jóslatokba. Egy figyelemre méltó történetet azonban érdemes megemlíteni ezzel kapcsolatban. Egy interjú során Dr. Fei-Fei Li elmondta, hogy amikor végzett az egyetemen, az volt az álma, hogy egy élet munkájával talán eljut majd oda, hogy képes létrehozni egy olyan szoftvert, amely le tudja írni szavakkal, hogy mi van egy képen. Munkatársaival és tanítványaival (Andrej Karpathy, Justin Johnson, etc.) 2015-ben egyszer csak ott álltak a kész megoldással. Dr. Li egy kicsit csalódott volt és arra gondolt, hogy most mégis mi a fészkes fenét fog csinálni élete hátralévő részében. Majd viccesen megjegyezte Andrej Karpathy-nak, hogy most meg kellene csinálni a szoftver fordítottját, azaz hogy egy szövegből képet generálnak. Andrej jót röhögött ezen a vicces képtelenségen és valószínűleg Dr. Li is kuncogott magában, de mi akik nem egy barlangban, vagy egy kő alatt töltöttük az elmúlt pár évet jól tudjuk mi lett a történet vége.  

Osszd meg ezt a cikket
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
Mi rejlik a Meta mesterséges intelligencia-újjászervezése mögött?
Mark Zuckerberg, a Meta vezérigazgatója nem először lép merészet, ám ezúttal minden eddiginél átfogóbb átszervezést hajt végre a cég mesterséges intelligenciával foglalkozó részlegeiben. A frissen létrehozott Meta Superintelligence Labs (MSL) névre keresztelt új divízió alá kerül az összes eddigi AI-csapat, beleértve a kutatás-fejlesztést, a termékfejlesztést és az alapmodellek építését. A cél nem csupán az emberi gondolkodással versenyképes mesterséges intelligencia (AGI), hanem egy olyan rendszerszintű szuperintelligencia megalkotása, amely meghaladja az emberi képességeket.
Szuverén AI, titkos részvényeladások – mi zajlik az NVIDIA kulisszái mögött?
A mesterséges intelligencia iparága az elmúlt években ritkán tapasztalt lendületet vett, és ennek a hullámnak az egyik legnagyobb nyertese kétségtelenül az NVIDIA. A grafikus processzorairól ismert vállalat mára nem csupán a játékosok és mérnökök kedvence, hanem a nemzetközi technológiai stratégiák központi szereplője is lett. Az amerikai tőzsdén a részvényeinek az értéke történelmi csúcsokat dönt, miközben egyre több kormányzati együttműködés és geopolitikai szál kezd köréje fonódni. De vajon mit árul el mindez a jövőről, és mennyire megalapozott a mostani optimizmus?
Nem támogatja tovább az X11-et GNOME 49
Bár a GNOME talán a legáltalánosabban használt asztali környezet az egyes Linux disztribúciók esetében, a fejlesztők a GNOME 49-ben mégis mélyebb szerkezeti változások mellett döntöttek, amely kihatással lesz a disztribúciók támogatására.
A Facebook új AI-funkciója csendben nyit kaput a személyes fotók tömeges elemzéséhez
Egy új figyelmeztetés fogadja azokat a felhasználókat, akik valamilyen bejegyzést szeretnének megosztani a Facebookon: egy felugró ablak, amely „felhőalapú feldolgozásra” kér engedélyt. A rendszer, ha jóváhagyjuk, hozzáférhet a telefonunk teljes fényképtárához – beleértve azokat a képeket is, amelyeket még soha nem töltöttünk fel a közösségi hálóra. A cél: mesterséges intelligencia által generált kreatív ötletek, például kollázsok, tematikus válogatások vagy stílusátalakított változatok készítése.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések