Képzeljük el, hogy egy számítógépes program képes önállóan, emberi beavatkozás nélkül módosítani a saját kódját, hogy még jobbá, okosabbá váljon! Ez a futurisztikusnak hangzó koncepció, a "Gödel gép".
Jürgen Schmidhuber, az MI-kutatás egyik neves alakja már több mint két évtizede felvetette az önmagát fejlesztő MI gondolatát, és "Gödel gépnek" nevezte el. Az eredeti elképzelés szerint a Gödel gép akkor írja újra saját kódját, ha matematikailag bizonyítani tudja, hogy egy adott önkorrekció teljesítményjavuláshoz vezet. Azonban az ilyen matematikai bizonyítások rendkívül nehezek, így a Gödel gép eddig csupán elméleti koncepció maradt.
Májusban azonban az internetes közösségi médiát is lázba hozta egy kutatási cikk, amely jelentős lépést tehet a Gödel gép megvalósítása felé. A "Darwin Gödel gép: Önmódosító ügynökök nyílt végű evolúciója" című tanulmányt a Kanadai Brit Columbia Egyetem és a Sakana AI kutatói jegyzik.
A most bemutatott "Darwin Gödel gép (DGM)" azonban egy elegáns megoldással kerüli meg a matematikai bizonyítás nehézségeit. A DGM evolúciós algoritmusokat és empirikus (tapasztalati) értékelési módszereket használ. Ez azt jelenti, hogy több, önkorrekcióra képes MI rendszert versenyeztetnek egymással különböző feladatok (benchmarkok) során. A folyamatos versengés és értékelés ösztönzi az MI-k önmódosítását és folyamatos fejlődését.
A kutatócsoport a DGM megközelítést olyan "kódoló ügynökökön" alkalmazta, amelyek automatikusan generálnak programkódot. Lehetővé tették ezeknek az ügynököknek, hogy módosítsák saját Python kódjukat, például új eszközöket adjanak hozzá, vagy eltérő munkafolyamatokat javasoljanak. A módosított ügynököket ezután kódolási teszteken értékelték. Érdekesség, hogy még a rosszabbul teljesítő ügynököket is archiválták, ha viselkedésük egyedi volt, ezzel biztosítva az evolúciós sokszínűséget. Ez az ötlet segít megelőzni, hogy az ügynökök "beragadjanak" egy helyi optimumba, és ösztönzi az innovatív megoldások felfedezését.
Ennek az "evolúciónak" köszönhetően a kódoló ügynökök teljesítménye jelentősen javult. A GitHub valós problémáinak megoldására szolgáló SWE-bench benchmarkon 20-50%-os, a többnyelvű kódolást mérő Polyglot benchmarkon pedig 14,2-30,7%-os növekedést értek el.
Természetesen felmerülnek biztonsági aggályok az ilyen önfejlesztő MI kutatásokkal kapcsolatban. Sokan félnek, hogy az MI evolúciója kicsúszik az emberi ellenőrzés alól, vagy hogy az MI "csalni" fog a tesztek során. A kutatócsoport ezekre az aggodalmakra úgy reagál, hogy az MI-k önfejlesztését emberi felügyelet mellett, egy "homokozó" (sandbox) környezetben teszik lehetővé.
Májusban a második legtöbbet emlegetett kutatási cikk az NVIDIA-tól érkezett, és az MI logikai gondolkodásának rejtélyét boncolgatja. A "ProRL: Hosszútávú megerősítő tanulás kiterjeszti a gondolkodási határokat a nagyméretű nyelvi modellekben" című tanulmány azzal foglalkozik, hogy az OpenAI o1-hez és DeepSeek-R1-hez hasonló legújabb MI modellek hogyan érik el kivételes logikai érvelési képességüket.
Élénk vita zajlik az MI kutatók között arról, hogy a megerősítő tanulás (reinforcement learning) mennyire befolyásolja az alapmodellek (foundation models) érvelési képességét. A vita lényege: a megerősítő tanulás csupán felszabadítja az alapmodellekben már meglévő érvelési képességeket, vagy teljesen új érvelési képességeket ruház át rájuk? A legújabb kutatások inkább az előbbi nézetet támasztották alá.
Az NVIDIA kutatása azonban megkérdőjelezi ezt a trendet. "ProRL" nevű, hosszú távú, stabil tanulást lehetővé tevő megerősítő tanulási módszerük alkalmazásával azt mutatták be, hogy a modell képes volt új következtetési stratégiákat "felfedezni", és olyan feladatokra is megoldást találni, amelyekre az eredeti alapmodell nem tudott helyes választ adni. Ez arra utal, hogy a megerősítő tanulás valóban új érvelési képességekkel ruházhatja fel az alapmodelleket.
Ezek a kutatási áttörések azt mutatják, hogy a mesterséges intelligencia fejlődése elképesztő sebességgel halad. Az önfejlesztő MI-k, mint a Darwin Gödel gép, forradalmasíthatják a szoftverfejlesztést és számos más területet. Ugyanakkor kulcsfontosságú, hogy felelősségteljesen és átgondoltan kezeljük az ezzel járó etikai és biztonsági kérdéseket, biztosítva, hogy az MI fejlődése az emberiség javát szolgálja.