Így torzít az LLM

A mesterséges intelligencia (MI) fejlődésével párhuzamosan egyre több figyelem irányul az úgynevezett nagy nyelvi modellekre (LLM-ekre), amelyek már nemcsak a tudományos kutatásban, hanem a mindennapi élet számos területén is jelen vannak – például ügyvédi munkában, egészségügyi adatok elemzésében vagy számítógépes programok kódolásában. E modellek működésének megértése ugyanakkor továbbra is komoly kihívást jelent, különösen akkor, amikor azok látszólag megmagyarázhatatlan módon követnek el hibákat vagy adnak félrevezető válaszokat.

Az MIT kutatóinak új tanulmánya egy kevéssé ismert, de annál fontosabb jelenségre irányítja a figyelmet: az úgynevezett pozíciós torzításra. Ez a torzítás azt jelenti, hogy a modellek hajlamosak túlhangsúlyozni a szövegek elején vagy végén szereplő információkat, miközben a középső részek gyakran háttérbe szorulnak. Ez a hatás például azt eredményezheti, hogy egy 30 oldalas dokumentumból egy mesterséges intelligencia-alapú kereső eszköz nagyobb valószínűséggel találja meg a keresett információt, ha az az első vagy az utolsó oldalakon található – még akkor is, ha a középen szerepelne a releváns részlet.

A kutatók a jelenség gyökerének feltárására matematikai elméleti keretet dolgoztak ki, amely a nyelvi modellek alapját képező úgynevezett transzformer architektúra működését vizsgálja. Ez az architektúra különösen az úgynevezett figyelemmechanizmusra támaszkodik, amely lehetővé teszi, hogy a modell az egyes szavakat azok szövegkörnyezetében értelmezze. A gyakorlatban azonban ennek a mechanizmusnak korlátai vannak: például a számítási hatékonyság érdekében sok modell korlátozza, hogy egy szó mennyi más szóra „figyelhet oda”. Az egyik ilyen korlátozás, a kauzális maszkolás, kifejezetten előnyben részesíti a szöveg elején szereplő szavakat, még akkor is, ha azok jelentősége csekély.

A tanulmány arra is rámutat, hogy ezek a torzítások nem csupán az architektúra sajátosságaiból, hanem a modellek tanításához használt adatokból is eredhetnek. Ha a tanító adathalmazok túlreprezentálják a szövegek elején található információkat, az ilyen minta automatikusan beépülhet a modell működésébe. A pozíciós torzítás tehát részben technikai, részben adatminőségi kérdés is.

A kutatók által végzett kísérletek megerősítették a jelenséget: amikor egy adott feladatban – például információkeresés során – változtatták a helyes válasz pozícióját a szövegben, a modellek pontossága látványosan csökkent a szöveg középső része felé haladva, majd kissé javult, amikor a válasz a szöveg végéhez közeledett. Ezt a mintázatot a szakirodalomban "elveszve a közepén" jelenségként is emlegetik.

Bár a probléma nem új keletű, a tanulmány újdonsága abban rejlik, hogy a kutatók konkrét mechanizmusokat azonosítottak, amelyek hozzájárulnak ehhez a torzításhoz – valamint javaslatokat is tettek annak enyhítésére. Ilyenek például a maszkolási technikák újragondolása, a figyelmi rétegek számának csökkentése, illetve a pozicionális kódolások tudatos alkalmazása, amelyek segíthetik a modelleket abban, hogy kiegyensúlyozottabban értelmezzék a szöveg egészét.

Fontos hangsúlyozni, hogy a jelenség nem minden alkalmazási területen jelent egyformán nagy problémát. Szövegalkotásnál például természetes, hogy a szöveg eleje és vége kiemelt szerepet kap. Ugyanakkor olyan alkalmazásokban, ahol pontos adatkinyerés vagy méltányos döntéshozatal a cél – például jogi vagy orvosi kontextusban –, ezek a torzítások komoly következményekkel járhatnak.

Összességében az MIT kutatóinak munkája egy lépés afelé, hogy a mesterséges intelligencia rendszerek átláthatóbbá és megbízhatóbbá váljanak. Nem ígér azonnali megoldást, és nem szabad azt hinni, hogy a pozíciós torzítás minden esetben súlyos problémát jelent – de az biztos, hogy a jobb megértés révén közelebb kerülhetünk az MI-rendszerek felelősségteljes és tudatos alkalmazásához. 

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Brutális negyedév az Apple-nél, de mi lesz az iPhone után?
Az Apple a globális gazdasági és kereskedelmi kihívások közepette ismét bizonyította rendkívüli piaci erejét, felülmúlva az elemzői várakozásokat a 2025-ös pénzügyi év harmadik negyedévében. A cupertinói óriás nem csupán rekordbevételt könyvelt el a júniussal zárult időszakban, de egy történelmi mérföldkövet is elért: leszállította a hárommilliárdodik iPhone-t. Ez az eredmény egy olyan korszakban született, amikor a vállalatot egyszerre sújtják a büntetővámok költségei és a mesterséges intelligencia területén tapasztalható, egyre élesedő verseny és számos kudarc amit a vállalat kénytelen volt elszenvedni.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.