Így torzít az LLM

A mesterséges intelligencia (MI) fejlődésével párhuzamosan egyre több figyelem irányul az úgynevezett nagy nyelvi modellekre (LLM-ekre), amelyek már nemcsak a tudományos kutatásban, hanem a mindennapi élet számos területén is jelen vannak – például ügyvédi munkában, egészségügyi adatok elemzésében vagy számítógépes programok kódolásában. E modellek működésének megértése ugyanakkor továbbra is komoly kihívást jelent, különösen akkor, amikor azok látszólag megmagyarázhatatlan módon követnek el hibákat vagy adnak félrevezető válaszokat.

Az MIT kutatóinak új tanulmánya egy kevéssé ismert, de annál fontosabb jelenségre irányítja a figyelmet: az úgynevezett pozíciós torzításra. Ez a torzítás azt jelenti, hogy a modellek hajlamosak túlhangsúlyozni a szövegek elején vagy végén szereplő információkat, miközben a középső részek gyakran háttérbe szorulnak. Ez a hatás például azt eredményezheti, hogy egy 30 oldalas dokumentumból egy mesterséges intelligencia-alapú kereső eszköz nagyobb valószínűséggel találja meg a keresett információt, ha az az első vagy az utolsó oldalakon található – még akkor is, ha a középen szerepelne a releváns részlet.

A kutatók a jelenség gyökerének feltárására matematikai elméleti keretet dolgoztak ki, amely a nyelvi modellek alapját képező úgynevezett transzformer architektúra működését vizsgálja. Ez az architektúra különösen az úgynevezett figyelemmechanizmusra támaszkodik, amely lehetővé teszi, hogy a modell az egyes szavakat azok szövegkörnyezetében értelmezze. A gyakorlatban azonban ennek a mechanizmusnak korlátai vannak: például a számítási hatékonyság érdekében sok modell korlátozza, hogy egy szó mennyi más szóra „figyelhet oda”. Az egyik ilyen korlátozás, a kauzális maszkolás, kifejezetten előnyben részesíti a szöveg elején szereplő szavakat, még akkor is, ha azok jelentősége csekély.

A tanulmány arra is rámutat, hogy ezek a torzítások nem csupán az architektúra sajátosságaiból, hanem a modellek tanításához használt adatokból is eredhetnek. Ha a tanító adathalmazok túlreprezentálják a szövegek elején található információkat, az ilyen minta automatikusan beépülhet a modell működésébe. A pozíciós torzítás tehát részben technikai, részben adatminőségi kérdés is.

A kutatók által végzett kísérletek megerősítették a jelenséget: amikor egy adott feladatban – például információkeresés során – változtatták a helyes válasz pozícióját a szövegben, a modellek pontossága látványosan csökkent a szöveg középső része felé haladva, majd kissé javult, amikor a válasz a szöveg végéhez közeledett. Ezt a mintázatot a szakirodalomban "elveszve a közepén" jelenségként is emlegetik.

Bár a probléma nem új keletű, a tanulmány újdonsága abban rejlik, hogy a kutatók konkrét mechanizmusokat azonosítottak, amelyek hozzájárulnak ehhez a torzításhoz – valamint javaslatokat is tettek annak enyhítésére. Ilyenek például a maszkolási technikák újragondolása, a figyelmi rétegek számának csökkentése, illetve a pozicionális kódolások tudatos alkalmazása, amelyek segíthetik a modelleket abban, hogy kiegyensúlyozottabban értelmezzék a szöveg egészét.

Fontos hangsúlyozni, hogy a jelenség nem minden alkalmazási területen jelent egyformán nagy problémát. Szövegalkotásnál például természetes, hogy a szöveg eleje és vége kiemelt szerepet kap. Ugyanakkor olyan alkalmazásokban, ahol pontos adatkinyerés vagy méltányos döntéshozatal a cél – például jogi vagy orvosi kontextusban –, ezek a torzítások komoly következményekkel járhatnak.

Összességében az MIT kutatóinak munkája egy lépés afelé, hogy a mesterséges intelligencia rendszerek átláthatóbbá és megbízhatóbbá váljanak. Nem ígér azonnali megoldást, és nem szabad azt hinni, hogy a pozíciós torzítás minden esetben súlyos problémát jelent – de az biztos, hogy a jobb megértés révén közelebb kerülhetünk az MI-rendszerek felelősségteljes és tudatos alkalmazásához. 

Osszd meg ezt a cikket
Hol tart ma valójában a mesterséges intelligencia?
A mesterséges intelligencia fejlesztése az elmúlt években látványos és gyakran lenyűgöző eredményeket produkált. Az olyan rendszerek, mint a ChatGPT, képesek természetes nyelvű szövegeket generálni, problémákat megoldani és sokszor az emberi teljesítményt is meghaladni különféle feladatokban. Ugyanakkor egyre több neves kutató és technológiai vezető – köztük John Carmack és François Chollet – hívja fel a figyelmet arra, hogy ezek az eredmények nem feltétlenül jelentik az általános mesterséges intelligencia (AGI) közeledtét. A színfalak mögött most új típusú problémák és kérdések kerültek a figyelem középpontjába, amelyek messze túlmutatnak a puszta teljesítményen.
A Rhino Linux új kiadással jelentkezik: 2025.3
A Linux disztribúciók körében főként kétféle szemléletmód terjedt el, vannak a stabil, ritkán frissülő rendszerek biztonságos kiszámíthatósággal, és a naprakész, de időnként kényes egyensúlyon balanszírozó, gördülő kiadású disztribúciók. A Rhino Linux ezt a két ellenpontot próbálja áthidalni, azaz egyszerre próbál naprakész lenni gördülő disztribúcióként, de alapként az Ubuntura épül, hogy megfelelő stabilitást is biztosítson.
SEAL az önmagát tanító mesterséges intelligencia előhírnöke
Hosszú évek óta tartja magát az elképzelés, hogy a mesterséges intelligencia fejlesztésének kulcsa az emberi tanítás: adatok, címkék, finomhangolás, gondosan megtervezett beavatkozások. Most azonban egy új megközelítés látott napvilágot. Az MIT kutatóinak legújabb munkája, a SEAL (Self-Adapting Language Models) névre keresztelt rendszer olyan nyelvi modelleket mutat be, amelyek képessé válnak saját maguk tanítására. Az eredmények nemcsak technológiai újdonságot jelentenek, hanem felvetik a kérdést: vajon milyen szerepet szánunk a jövőben az embernek az intelligens rendszerek képzésében?
Elég egy fotó és egy hang – az Alibaba új mesterséges intelligenciája teljes testű avatárt készít belőle
Egyetlen hangfelvétel és egy fotó is elegendő ahhoz, hogy élethű, teljes testtel mozgó, arcjátékkal és érzelmekkel teli virtuális karaktereket hozzunk létre – stúdió, színész vagy zöld háttér nélkül. Az Alibaba legújabb fejlesztése, az OmniAvatar nevű nyílt forráskódú mesterséges intelligencia-modell legalábbis éppen ezt ígéri. Bár a technológia még formálódik, már most is érdemes figyelmet szentelni annak, amit lehetővé tesz – és annak is, hogy mindez milyen új kérdéseket vet fel.
ALT Linux 11.0 Education az orosz oktatási intézmények fundamentuma
Az ALT Linux egy orosz gyökerekkel rendelkező, RPM csomagkezelőre épülő Linux disztribúció, amelynek alapjait a Sisyphus csomagtár képezi. Kezdetben orosz lokalizációs erőfeszítésekből nőtte ki magát, együttműködve olyan nemzetközi disztribúciókkal, mint a Mandrake és a SUSE Linux, különös tekintettel a cirill betűs írás támogatására.
A térbeli intelligencia a következő leküzdendő akadály az AGI előtt
Az LLM megszületésével a gépek lenyűgöző képességekre tettek szert. Ráadásul fejlődési sebességük is nagyobb tempóra kapcsolt, nap mint nap jelennek meg újabb modellek, amelyek még hatékonyabbak még jobb képességekkel ruházzák fel a gépeket. Ha azonban közelebbről megvizsgáljuk, ezzel a technológiával még csak most értük el, hogy a gépek képesek egy dimenzióban gondolkodni. A világ amelyben élünk azonban az emberi érzékelés alapján három dimenziós. Egy ember számára nem okoz gondot, hogy megállapítsa, hogy valami egy szék alatt van, vagy mögött, vagy egy felénk repülő labda körülbelül hová fog érkezni. Számos mesterséges intelligencia kutató szerint az AGI azaz a mesterséges általános intelligencia megszületéséhez el kell érni, hogy a gépek három dimenzióban gondolkodjanak, ehhez pedig ki kell fejleszteni a térbeli intelligenciát.

Az elmúlt néhány napban megjelent Linux disztribúció frissítések