Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.
Mit is jelent a térbeli intelligencia?
A térbeli intelligencia lényegében azt jelenti, hogy egy mesterséges rendszer képes érzékelni, megérteni és manipulálni a háromdimenziós adatokat, valamint navigálni a 3D környezetben. Ez sokkal több, mint puszta tárgyfelismerés, melyre a mai MI-k már kiválóan képesek. Arról van szó, hogy a gépek felismerik a mélységet, a térfogatot, az objektumok közötti kapcsolatokat, és a térbeli kontextust – hasonlóan ahhoz, ahogyan mi emberek értelmezzük a körülöttünk lévő teret. Dr. Fei-Fei Li, az MI területének egyik úttörője és a "mesterséges intelligencia keresztanyjaként" emlegetett szakértő, hangsúlyozza, hogy ez a képesség ugyanolyan alapvető az MI jövője szempontjából, mint a nyelvi feldolgozás. Ahogy a nyelv alapozta meg a kommunikációt, úgy a 3D tér megértése teszi majd lehetővé az MI számára, hogy valóban értelmesen lépjen interakcióba fizikai környezetünkkel.
Ennek elérése azonban komoly kihívás és nem egyértelműen következik, a már meglévő LLM technológiából. A probléma egyik eleme, hogy a nyelv alapvetően egydimenziós (1D), mivel a nyelvi információk szekvenciálisan, sorrendben érkeznek – például a beszéd vagy írás során egymás után jönnek a szavak és szótagok. Emiatt a nyelv feldolgozására alkalmas modellek, mint az LLM-ek, jól működnek a szekvencia-alapú tanulással (pl. sequence-to-sequence modellek). A másik probléma, hogy a nyelv tisztán generatív jelenség: nem kézzelfogható, nem látjuk vagy tapintjuk, hanem az emberi elméből származik – teljes mértékben belső konstrukció, amit csak utólag rögzítünk (pl. írásban).
Ezzel szemben a vizuális világ háromdimenziós (3D), és ha az időt is beleszámítjuk, akkor négydimenziós (4D). A vizuális érzékelés során a 3D világ kétdimenziós vetületté (például a retinánkon vagy kameraképen) redukálódik – ez matematikailag ill-posed probléma (nincs egyértelmű megoldás). Ráadásul a vizuális világ nem csupán generatív, hanem rekonstruktív is – valós fizikai törvényekhez kötött –, és a felhasználása is változatosabb, a metaverzum generálásától a robotikáig. Ezért Fei-Fei Li szerint a térbeli intelligencia modellezése (pl. 3D világmodellek) sokkal összetettebb és keményebb kihívás, mint az LLM-ek fejlesztése.
Google Geospatial Reasoning Framework ez már a térbeli intelligencia?
A térbeli intelligencia fejlesztéséhez számos megközelítést alkalmaznak ma is. A számítógépes látás és a 3D feldolgozás kulcsszerepet játszik. Lidar, sztereó kamerák és strukturált fényérzékelők segítségével gyűjtik a mélységi információkat, melyeket neurális algoritmusok dolgoznak fel. Ezeket a technológiákat már használják önvezető rendszerekben, robotikában és térinformatikai alkalmazásokban.
A Google által fejlesztett Geospatial Reasoning Framework egy jelentős technológiai lépés a térbeli intelligencia alkalmazása felé, amely a vállalat globális geoadat-infrastruktúrájára és fejlett generatív AI képességeire épít (Bővebben a korábbi Google Geospatial Reasoning új AI eszköz a térinformatikai problémák megoldására cikkemben). A rendszer célja, hogy komplex térbeli összefüggéseket tárjon fel és értelmezzen különböző adatok — például műholdképek, térképek, mobilitási minták — alapján. Ennek középpontjában olyan alapmodellek állnak, mint a Population Dynamics Foundation Model, amely népesedési változásokat modellez, vagy a trajektóriaalapú mobilitási modellek, amelyek az emberek mozgását elemzik nagy területeken. Ezek a modellek szoros integrációban működnek a Google már meglévő rendszereivel (Google Maps, Earth Engine, Street View), így több százmillió helyszínhez és kiterjedt földrajzi adathoz férnek hozzá.
Ez a keretrendszer lehetővé teszi például várostervezési forgatókönyvek modellezését, katasztrófahelyzetek térbeli elemzését, éghajlati sérülékenységek feltérképezését vagy közegészségügyi trendek követését. Az AI-t — különösen a Gemini képességeket — a rendszer arra használja, hogy természetes nyelvi lekérdezésekből automatikusan GIS-műveleteket hajtson végre, új térbeli adattartalmakat generáljon, vagy bonyolult geográfiai összefüggéseket mutasson be.
Ugyanakkor fontos látni, hogy ez a megközelítés nem fedi le a térbeli intelligencia teljes spektrumát, különösen nem azt a fajta 3D világértést, amire Fei-Fei Li utal. A Google rendszere alapvetően 2D térképekre és földrajzi síkmodellekre épít; ezek kiválóak nagy léptékű, aggregált térbeli elemzésekhez, de nem alkalmasak arra, hogy finom, objektumszintű 3D kapcsolatokkal, fizikai törvényekkel, vagy testesült (embodied) AI feladatokkal birkózzanak meg. A valódi térbeli intelligencia — például amikor egy robotnak kell egy szobában navigálnia, tárgyakat azonosítania vagy manipulálnia — jóval több mint helyszíni adatfeldolgozás: dinamikus világmodellezést, érzékelési bizonytalanság kezelését, és időben változó fizikai interakciók értését igényli.
Dr. Fei-Fei Li szerint a látás képességének kifejlődése az evolúció során 540 millió évig tartott, míg a nyelv mindössze félmillió év alatt fejlődött ki – ez is jelzi, mennyire alapvető és komplex feladatról van szó.
A Jövő Útjai
Bár a szakosodott alkalmazásokban már láthatók figyelemre méltó eredmények, az emberi szintű térbeli intelligencia elérése továbbra is ambiciózus cél. A World Labs-hoz hasonló kezdeményezések, melyek hatalmas befektetéseket vonzanak, azt mutatják, hogy az iparág nagy lehetőséget lát ebben a területben. A jövőben kulcsfontosságú lesz a különböző típusú térbeli intelligenciák – a finom, 3D-s tárgymozgatástól a nagyméretű földrajzi érvelésig – hatékony integrációja. Emellett szükség van standardizált mérési és értékelési keretrendszerek kidolgozására is, hogy pontosan nyomon lehessen követni a fejlődést. A számítógépes látás, a robotika, a kognitív tudományok és a földrajz szakértőinek együttműködése alapvető a sikerhez. Már csak azért is mert a térbeli intelligenciával rendelkező modellek betanítása rendkívül nehéz. Amíg az LLM modellek betanítására a weben rengeteg szöveg és kép található, a 3D világról alkotott adatok ilyen tömegű beszerzése nemcsak nagy kihívás, de teljesen új megközelítéseket igényel.
De vajon mennyi idő kell majd mindehhez? A választ nyilván senki nem tudja, hiszen a feladat komplex így maguk a kutatók sem bocsátkoznak jóslatokba. Egy figyelemre méltó történetet azonban érdemes megemlíteni ezzel kapcsolatban. Egy interjú során Dr. Fei-Fei Li elmondta, hogy amikor végzett az egyetemen, az volt az álma, hogy egy élet munkájával talán eljut majd oda, hogy képes létrehozni egy olyan szoftvert, amely le tudja írni szavakkal, hogy mi van egy képen. Munkatársaival és tanítványaival (Andrej Karpathy, Justin Johnson, etc.) 2015-ben egyszer csak ott álltak a kész megoldással. Dr. Li egy kicsit csalódott volt és arra gondolt, hogy most mégis mi a fészkes fenét fog csinálni élete hátralévő részében. Majd viccesen megjegyezte Andrej Karpathy-nak, hogy most meg kellene csinálni a szoftver fordítottját, azaz hogy egy szövegből képet generálnak. Andrej jót röhögött ezen a vicces képtelenségen és valószínűleg Dr. Li is kuncogott magában, de mi akik nem egy barlangban, vagy egy kő alatt töltöttük az elmúlt pár évet jól tudjuk mi lett a történet vége.