Így torzít az LLM

A mesterséges intelligencia (MI) fejlődésével párhuzamosan egyre több figyelem irányul az úgynevezett nagy nyelvi modellekre (LLM-ekre), amelyek már nemcsak a tudományos kutatásban, hanem a mindennapi élet számos területén is jelen vannak – például ügyvédi munkában, egészségügyi adatok elemzésében vagy számítógépes programok kódolásában. E modellek működésének megértése ugyanakkor továbbra is komoly kihívást jelent, különösen akkor, amikor azok látszólag megmagyarázhatatlan módon követnek el hibákat vagy adnak félrevezető válaszokat.

Az MIT kutatóinak új tanulmánya egy kevéssé ismert, de annál fontosabb jelenségre irányítja a figyelmet: az úgynevezett pozíciós torzításra. Ez a torzítás azt jelenti, hogy a modellek hajlamosak túlhangsúlyozni a szövegek elején vagy végén szereplő információkat, miközben a középső részek gyakran háttérbe szorulnak. Ez a hatás például azt eredményezheti, hogy egy 30 oldalas dokumentumból egy mesterséges intelligencia-alapú kereső eszköz nagyobb valószínűséggel találja meg a keresett információt, ha az az első vagy az utolsó oldalakon található – még akkor is, ha a középen szerepelne a releváns részlet.

A kutatók a jelenség gyökerének feltárására matematikai elméleti keretet dolgoztak ki, amely a nyelvi modellek alapját képező úgynevezett transzformer architektúra működését vizsgálja. Ez az architektúra különösen az úgynevezett figyelemmechanizmusra támaszkodik, amely lehetővé teszi, hogy a modell az egyes szavakat azok szövegkörnyezetében értelmezze. A gyakorlatban azonban ennek a mechanizmusnak korlátai vannak: például a számítási hatékonyság érdekében sok modell korlátozza, hogy egy szó mennyi más szóra „figyelhet oda”. Az egyik ilyen korlátozás, a kauzális maszkolás, kifejezetten előnyben részesíti a szöveg elején szereplő szavakat, még akkor is, ha azok jelentősége csekély.

A tanulmány arra is rámutat, hogy ezek a torzítások nem csupán az architektúra sajátosságaiból, hanem a modellek tanításához használt adatokból is eredhetnek. Ha a tanító adathalmazok túlreprezentálják a szövegek elején található információkat, az ilyen minta automatikusan beépülhet a modell működésébe. A pozíciós torzítás tehát részben technikai, részben adatminőségi kérdés is.

A kutatók által végzett kísérletek megerősítették a jelenséget: amikor egy adott feladatban – például információkeresés során – változtatták a helyes válasz pozícióját a szövegben, a modellek pontossága látványosan csökkent a szöveg középső része felé haladva, majd kissé javult, amikor a válasz a szöveg végéhez közeledett. Ezt a mintázatot a szakirodalomban "elveszve a közepén" jelenségként is emlegetik.

Bár a probléma nem új keletű, a tanulmány újdonsága abban rejlik, hogy a kutatók konkrét mechanizmusokat azonosítottak, amelyek hozzájárulnak ehhez a torzításhoz – valamint javaslatokat is tettek annak enyhítésére. Ilyenek például a maszkolási technikák újragondolása, a figyelmi rétegek számának csökkentése, illetve a pozicionális kódolások tudatos alkalmazása, amelyek segíthetik a modelleket abban, hogy kiegyensúlyozottabban értelmezzék a szöveg egészét.

Fontos hangsúlyozni, hogy a jelenség nem minden alkalmazási területen jelent egyformán nagy problémát. Szövegalkotásnál például természetes, hogy a szöveg eleje és vége kiemelt szerepet kap. Ugyanakkor olyan alkalmazásokban, ahol pontos adatkinyerés vagy méltányos döntéshozatal a cél – például jogi vagy orvosi kontextusban –, ezek a torzítások komoly következményekkel járhatnak.

Összességében az MIT kutatóinak munkája egy lépés afelé, hogy a mesterséges intelligencia rendszerek átláthatóbbá és megbízhatóbbá váljanak. Nem ígér azonnali megoldást, és nem szabad azt hinni, hogy a pozíciós torzítás minden esetben súlyos problémát jelent – de az biztos, hogy a jobb megértés révén közelebb kerülhetünk az MI-rendszerek felelősségteljes és tudatos alkalmazásához. 

Osszd meg ezt a cikket
MiniMax-M1 AI modell, célkeresztben a nagy méretű szövegek kezelése
A mesterséges intelligencia rendszerek fejlődésével egyre nagyobb az igény olyan modellekre, amelyek nemcsak a nyelv értelmezésére képesek, hanem összetett, többlépcsős gondolkodási folyamatokat is képesek végigvinni. Az ilyen modellek kulcsfontosságúak lehetnek nemcsak elméleti feladatokban, hanem például szoftverfejlesztés vagy valós idejű döntéshozatal során is. Ezek az alkalmazások azonban különösen érzékenyek a számítási költségekre, amelyeket a hagyományos megközelítések gyakran nehezen tudnak kordában tartani.
Hogyan alakítja át a mesterséges intelligencia ökoszisztémát az OpenAI és a Microsoft viszonya?
A mesterséges intelligencia iparában zajló gyors technológiai és üzleti átalakulások egyik legszembetűnőbb példáját a Microsoft és az OpenAI kapcsolatának újradefiniálása jelenti. A két vállalat éveken át szoros szövetségben dolgozott együtt, ám a közelmúlt fejleményei világosan mutatják: az iparági logika immár nem a kizárólagos partnerségeket, hanem a rugalmasabb, többszereplős együttműködési modelleket részesíti előnyben.
Dél-Korea legnagyobb MI-központját építi az Amazon és az SK-csoport
Új korszak kezdődhet Dél-Korea mesterséges intelligencia iparában – az Amazon Web Services (AWS) bejelentette, hogy az SK-csoporttal közösen építi fel az ország történetének legnagyobb MI-számítási központját. A beruházás nemcsak technológiai mérföldkő, de az SK Hynix tőzsdei teljesítményére is látványos hatással van.
Változás a Windows arcfelismerő funkciójában: már nem működik sötétben
A Microsoft a közelmúltban egy fontos biztonsági frissítést vezetett be a Windows Hello nevű arcfelismerő bejelentkezési rendszeréhez, amely a Windows 11-es operációs rendszer része. A módosítás hatására az arcfelismerés sötétben már nem működik, és a vállalat megerősítette, hogy ez nem technikai hiba, hanem tudatos döntés eredménye.
Megjelent a Kali Linux 2025.2: Mértéktartó fejlesztések egy érett rendszerben
A népszerű etikus hackelésre és kiberbiztonsági elemzésekre specializált Linux disztribúció, a Kali Linux legújabb stabil kiadása, a 2025.2-es verzió, 2025 júniusában vált elérhetővé. A fejlesztők ezúttal sem csupán karbantartási frissítéseket hoztak, hanem több olyan újdonságot is bevezettek, amelyek a rendszer használhatóságát és funkcionalitását egyaránt bővítik. A frissítések különösen azok számára lehetnek érdekesek, akik az operációs rendszert behatolástesztelésre, hálózati forgalom elemzésére vagy más biztonsági célokra használják.
Forradalmi AI memóriarendszer MemOS
A nagy nyelvi modellek (LLM-ek) központi szerepet játszanak az általános mesterséges intelligencia (AGI) fejlesztésében, azonban jelenleg jelentős korlátokkal szembesülnek a memóriakezelés terén. A mai LLM-ek működésük során általában a rögzített súlyokba ágyazott tudásra és egy korlátozott kontextusablakra támaszkodnak, ami gátolja őket abban, hogy hosszabb ideig megőrizzék vagy frissítsék az információkat. Bár az olyan megközelítések, mint a visszakereséssel kiegészített generálás (RAG), integrálják a külső tudást, gyakran hiányzik belőlük a memóriára vonatkozó strukturált megközelítés. Ez gyakran olyan problémákhoz vezet, mint a korábbi interakciók elfelejtése, a csökkent alkalmazkodóképesség és a különböző platformok közötti elszigetelt memória. Lényegében a jelenlegi LLM-ek nem kezelik a memóriát tartós, kezelhető vagy megosztható erőforrásként, ami korlátozza gyakorlati hasznosságukat.