A térbeli intelligencia a következő leküzdendő akadály az AGI előtt

2025-07-03T07:19:00.000+00:00 2025 július 03. 07:19 Fodor Attila

Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.

Mit is jelent a térbeli intelligencia?

A térbeli intelligencia lényegében azt jelenti, hogy egy mesterséges rendszer képes érzékelni, megérteni és manipulálni a háromdimenziós adatokat, valamint navigálni a 3D környezetben. Ez sokkal több, mint puszta tárgyfelismerés, melyre a mai MI-k már kiválóan képesek. Arról van szó, hogy a gépek felismerik a mélységet, a térfogatot, az objektumok közötti kapcsolatokat, és a térbeli kontextust – hasonlóan ahhoz, ahogyan mi emberek értelmezzük a körülöttünk lévő teret. Dr. Fei-Fei Li, az MI területének egyik úttörője és a "mesterséges intelligencia keresztanyjaként" emlegetett szakértő, hangsúlyozza, hogy ez a képesség ugyanolyan alapvető az MI jövője szempontjából, mint a nyelvi feldolgozás. Ahogy a nyelv alapozta meg a kommunikációt, úgy a 3D tér megértése teszi majd lehetővé az MI számára, hogy valóban értelmesen lépjen interakcióba fizikai környezetünkkel.

Ennek elérése azonban komoly kihívás és nem egyértelműen következik, a már meglévő LLM technológiából. A probléma egyik eleme, hogy a nyelv alapvetően egydimenziós (1D), mivel a nyelvi információk szekvenciálisan, sorrendben érkeznek – például a beszéd vagy írás során egymás után jönnek a szavak és szótagok. Emiatt a nyelv feldolgozására alkalmas modellek, mint az LLM-ek, jól működnek a szekvencia-alapú tanulással (pl. sequence-to-sequence modellek). A másik probléma, hogy a nyelv tisztán generatív jelenség: nem kézzelfogható, nem látjuk vagy tapintjuk, hanem az emberi elméből származik – teljes mértékben belső konstrukció, amit csak utólag rögzítünk (pl. írásban).

Ezzel szemben a vizuális világ háromdimenziós (3D), és ha az időt is beleszámítjuk, akkor négydimenziós (4D). A vizuális érzékelés során a 3D világ kétdimenziós vetületté (például a retinánkon vagy kameraképen) redukálódik – ez matematikailag ill-posed probléma (nincs egyértelmű megoldás). Ráadásul a vizuális világ nem csupán generatív, hanem rekonstruktív is – valós fizikai törvényekhez kötött –, és a felhasználása is változatosabb, a metaverzum generálásától a robotikáig. Ezért Fei-Fei Li szerint a térbeli intelligencia modellezése (pl. 3D világmodellek) sokkal összetettebb és keményebb kihívás, mint az LLM-ek fejlesztése.

Google Geospatial Reasoning Framework ez már a térbeli intelligencia?

A térbeli intelligencia fejlesztéséhez számos megközelítést alkalmaznak ma is. A számítógépes látás és a 3D feldolgozás kulcsszerepet játszik. Lidar, sztereó kamerák és strukturált fényérzékelők segítségével gyűjtik a mélységi információkat, melyeket neurális algoritmusok dolgoznak fel. Ezeket a technológiákat már használják önvezető rendszerekben, robotikában és térinformatikai alkalmazásokban.

A Google által fejlesztett Geospatial Reasoning Framework egy jelentős technológiai lépés a térbeli intelligencia alkalmazása felé, amely a vállalat globális geoadat-infrastruktúrájára és fejlett generatív AI képességeire épít (Bővebben a korábbi Google Geospatial Reasoning új AI eszköz a térinformatikai problémák megoldására cikkemben). A rendszer célja, hogy komplex térbeli összefüggéseket tárjon fel és értelmezzen különböző adatok — például műholdképek, térképek, mobilitási minták — alapján. Ennek középpontjában olyan alapmodellek állnak, mint a Population Dynamics Foundation Model, amely népesedési változásokat modellez, vagy a trajektóriaalapú mobilitási modellek, amelyek az emberek mozgását elemzik nagy területeken. Ezek a modellek szoros integrációban működnek a Google már meglévő rendszereivel (Google Maps, Earth Engine, Street View), így több százmillió helyszínhez és kiterjedt földrajzi adathoz férnek hozzá.

Ez a keretrendszer lehetővé teszi például várostervezési forgatókönyvek modellezését, katasztrófahelyzetek térbeli elemzését, éghajlati sérülékenységek feltérképezését vagy közegészségügyi trendek követését. Az AI-t — különösen a Gemini képességeket — a rendszer arra használja, hogy természetes nyelvi lekérdezésekből automatikusan GIS-műveleteket hajtson végre, új térbeli adattartalmakat generáljon, vagy bonyolult geográfiai összefüggéseket mutasson be.

Ugyanakkor fontos látni, hogy ez a megközelítés nem fedi le a térbeli intelligencia teljes spektrumát, különösen nem azt a fajta 3D világértést, amire Fei-Fei Li utal. A Google rendszere alapvetően 2D térképekre és földrajzi síkmodellekre épít; ezek kiválóak nagy léptékű, aggregált térbeli elemzésekhez, de nem alkalmasak arra, hogy finom, objektumszintű 3D kapcsolatokkal, fizikai törvényekkel, vagy testesült (embodied) AI feladatokkal birkózzanak meg. A valódi térbeli intelligencia — például amikor egy robotnak kell egy szobában navigálnia, tárgyakat azonosítania vagy manipulálnia — jóval több mint helyszíni adatfeldolgozás: dinamikus világmodellezést, érzékelési bizonytalanság kezelését, és időben változó fizikai interakciók értését igényli.

Dr. Fei-Fei Li szerint a látás képességének kifejlődése az evolúció során 540 millió évig tartott, míg a nyelv mindössze félmillió év alatt fejlődött ki – ez is jelzi, mennyire alapvető és komplex feladatról van szó.

A Jövő Útjai

Bár a szakosodott alkalmazásokban már láthatók figyelemre méltó eredmények, az emberi szintű térbeli intelligencia elérése továbbra is ambiciózus cél. A World Labs-hoz hasonló kezdeményezések, melyek hatalmas befektetéseket vonzanak, azt mutatják, hogy az iparág nagy lehetőséget lát ebben a területben. A jövőben kulcsfontosságú lesz a különböző típusú térbeli intelligenciák – a finom, 3D-s tárgymozgatástól a nagyméretű földrajzi érvelésig – hatékony integrációja. Emellett szükség van standardizált mérési és értékelési keretrendszerek kidolgozására is, hogy pontosan nyomon lehessen követni a fejlődést. A számítógépes látás, a robotika, a kognitív tudományok és a földrajz szakértőinek együttműködése alapvető a sikerhez. Már csak azért is mert a térbeli intelligenciával rendelkező modellek betanítása rendkívül nehéz. Amíg az LLM modellek betanítására a weben rengeteg szöveg és kép található, a 3D világról alkotott adatok ilyen tömegű beszerzése nemcsak nagy kihívás, de teljesen új megközelítéseket igényel.

De vajon mennyi idő kell majd mindehhez? A választ nyilván senki nem tudja, hiszen a feladat komplex így maguk a kutatók sem bocsátkoznak jóslatokba. Egy figyelemre méltó történetet azonban érdemes megemlíteni ezzel kapcsolatban. Egy interjú során Dr. Fei-Fei Li elmondta, hogy amikor végzett az egyetemen, az volt az álma, hogy egy élet munkájával talán eljut majd oda, hogy képes létrehozni egy olyan szoftvert, amely le tudja írni szavakkal, hogy mi van egy képen. Munkatársaival és tanítványaival (Andrej Karpathy, Justin Johnson, etc.) 2015-ben egyszer csak ott álltak a kész megoldással. Dr. Li egy kicsit csalódott volt és arra gondolt, hogy most mégis mi a fészkes fenét fog csinálni élete hátralévő részében. Majd viccesen megjegyezte Andrej Karpathy-nak, hogy most meg kellene csinálni a szoftver fordítottját, azaz hogy egy szövegből képet generálnak. Andrej jót röhögött ezen a vicces képtelenségen és valószínűleg Dr. Li is kuncogott magában, de mi akik nem egy barlangban, vagy egy kő alatt töltöttük az elmúlt pár évet jól tudjuk mi lett a történet vége.

Osszd meg ezt a cikket

2025. augusztus 17.

Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban

Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.

2025. augusztus 12.

Riasztó ütemben nő a szervezett tudományos csalások száma

A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.

2025. augusztus 08.

Túl a zajon, avagy mit hoz valójában a GPT-5?

A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.

2025. augusztus 07.

A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról

A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.

2025. augusztus 01.

Ilyen lesz a Google Pixel 10, de vajon mindent tudunk már róla?

A Google Pixel sorozat, amely letisztult szoftveréről és kiemelkedő fotós képességeiről ismert, idén a 10. generációjához érkezik. A hivatalos, augusztus 20-ra várt bemutató előtt már most rengeteg információ és pletyka kering az interneten, amelyek egy olyan készülékcsaládot körvonalaznak, amely talán nem a külsőségekben, hanem a motorháztető alatt hoz el valódi, kézzelfogható újításokat a felhasználók számára. De vajon elegendőek-e ezek a fejlesztések ahhoz, hogy a Pixel 10 kiemelkedjen a zsúfolt piacról?

2025. július 31.

Gondolkodásra tanít az OpenAI Study Mode

Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.

A térbeli intelligencia a következő leküzdendő akadály az AGI előtt

Mit is jelent a térbeli intelligencia?

Google Geospatial Reasoning Framework ez már a térbeli intelligencia?

A Jövő Útjai

Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban

Riasztó ütemben nő a szervezett tudományos csalások száma

Túl a zajon, avagy mit hoz valójában a GPT-5?

A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról

Ilyen lesz a Google Pixel 10, de vajon mindent tudunk már róla?

Gondolkodásra tanít az OpenAI Study Mode

Linux disztribúciók

openmamba GNU/Linux

ALT Linux

AnduinOS

TROMjaro

Bicom Systems

Manjaro Linux

SmartOS

Soplos Linux

TrueNAS

NetBSD

CentOS

Felkapott