Két új modellel bővül a Phi-4 modellcsalád

 A Microsoft nemrégiben jelentette be a Phi-4 család új generációját, amely két különböző, de egymást kiegészítő modellt tartalmaz: a Phi-4-multimodális és a Phi-4-mini változatot. Ezek a modellek nem csupán a számítási teljesítmény terén hoznak további javulást, hanem újszerű módon integrálják a különböző adattípusokat is, így a mesterséges intelligencia alkalmazási lehetőségei széles skáláját képesek támogatni – mindezt kompakt méretben és optimalizált erőforrás-használattal.

A Phi-4-multimodális modell

A Phi-4-multimodális modell a 5.6 milliárd paraméterrel rendelkező architektúrája révén kiváló megoldást kínál a beszéd-, kép- és szövegadatok egyidejű feldolgozására. A hagyományos rendszerekkel ellentétben, ahol külön modellek dolgoztak az egyes adattípusokon, ez a modell az ún. "mixture-of-LoRAs" technológiát alkalmazza, így képes az eltérő típusú adatok együttes reprezentációjára. Ennek eredményeként a feldolgozási folyamatok gyorsabbak és kevesebb számítási erőforrást igényelnek, ami különösen fontos az edge computing és a valós idejű alkalmazások esetében. A modell optimalizált architektúrája 40%-kal kevesebb RAM használat mellet működik, miközben a 128 000 tokenes kontextusablak lehetővé teszi, hogy hosszú és összetett tartalmakat is könnyedén kezeljen.

Az új modell emellett széleskörű többnyelvű támogatást nyújt, akár 85 nyelven is képes működni, így globális alkalmazásokban is megállja a helyét. A Phi-4-multimodális kimagasló teljesítményt ért el több fontos benchmarkon is: a beszédfelismerés terén új rekordot állított fel a HuggingFace OpenASR leaderboardon (6.14%-os szóhiba-arány), a dokumentumelemzésben 89.2%-os pontosságot ért el a DocVQA teszten, és tudományos kérdések esetében 78.5%-os sikerarányt mutatott – ezek az eredmények összehasonlíthatóak a legújabb generációs modellekkel. Emellett a cross-modális feladatokban, amikor például egy diagram értelmezése és a hozzá kapcsolódó beszédalapú utasítások együttes feldolgozása szükséges, a Phi-4-multimodális 35%-kal pontosabb eredményeket produkált a konkurens megoldásokhoz képest.

A Phi-4-mini modell

A Phi-4-mini modell 3.8 milliárd paraméterével a szövegalapú feladatokra optimalizált megoldás, amely egy "decoder-only" transzformer architektúrát alkalmaz a grouped-query attention mechanizmus segítségével. Ez a megoldás nemcsak a memóriaköltségeket csökkenti (22%-kal kevesebb erőforrást igényel), hanem a kontextusérzékenységet is megőrzi. Az alapértelmezett konfiguráció 43 nyelv támogatását biztosítja, és a modell képes akár 128 000 tokenes kontextusablak kezelésére is, így hosszú szövegek, dokumentumok feldolgozását is lehetővé teszi.

Egy másik fontos újítás a Phi-4-mini esetében a funkcióhívás és külső integrációk területén mutatkozik meg: a modell képes a felhasználói lekérdezések alapján automatikusan releváns API-kat azonosítani, paramétereket generálni, és különböző külső rendszereket meghívni. Például egy okosotthon-irányítási forgatókönyvben egyetlen természetes nyelvű parancs alapján a modell képes aktiválni a klímarendszert, módosítani a világítási beállításokat, majd értesítést küldeni – mindezt 1.2 másodperces átlagos válaszidővel.

Ipari alkalmazhatóság és testreszabhatóság

Mindkét modell – a multimodális és a szöveg-specifikus – széles körű ipari alkalmazások számára nyújt megoldást. Az egészségügyben például a valós idejű képfeldolgozás segítségével CT-vizsgálatok elemzésére, az autóiparban pedig sofőrfigyelő rendszerek és gesztusfelismerő megoldások integrálására is alkalmasak. Pénzügyi szolgáltatásokban a többnyelvű dokumentumelemzés révén valós idejű riportok generálása és kockázatelemzés is megvalósítható. Egy japán gyártócég, a Headwaters Co., esettanulmánya azt mutatja, hogy a Phi-4-mini edge alkalmazása akár 40%-kal csökkentheti a gyártási hibák számát, miközben az adatfeldolgozás helyben történik, biztosítva ezzel az ipari titkok védelmét.

A modellek rendkívül testreszabhatóak. Az Azure AI Foundry eszközeivel egyszerűen finomhangolhatóak domain-specifikus feladatokra – legyen szó nyelvi fordításról, orvosi kérdések megválaszolásáról vagy más specializált feladatokról. Például egy angol-indonéz fordítás esetén a finomhangolás után a BLEU pontszám a 17.4-ről 35.5-re emelkedett, míg orvosi kérdések esetében a pontosság 47.6%-ról 56.7%-ra nőtt. Ezek a fejlesztések nem csupán a modell teljesítményét javítják, hanem a gyakorlati alkalmazhatóságot is növelik.

A BLEU (Bilingual Evaluation Understudy) pontszám a gépi fordítás minőségének mérésére szolgáló szabványos metrika, amely 0 és 100 közötti értéket ad a gépi fordítás és emberi referenciafordítások közötti egyezés mértéke alapján. Ha megnézzük egy összehasonlótó táblázat alapján, hogyan is áll a Phi-4 mini a versenytársakhoz képest, akkor azt látjuk, hogy van tőle jobb abszolút értékben, de ha figyelembe vesszük azt is hogy a Phi-4 mini 3,5 milliárd paraméteres a Madlad-400-10B meg a nevéből is láthatóan 10 és alig jobb a Pihi-4 minitől, akkor már érezhető hogy itt rendkívül jó hatékonyság növekedés történt. Ugyanakkor a pontszám természetesen még messze van a 100-tól.

Modell neve Paraméterszám BLEU (alap) BLEU (finomhangolva) Finomhangolási idő
Phi-4-mini 3.8B 17.4 35.5 3 óra (16 A100)
Madlad-400-10B 10B 29.1 38.2 14 óra (32 A100)
NLLB-200-distilled 1.3B 22.7 31.9 8 óra (8 A100)
OPUS-MT (latest) 0.5B 15.8 24.3 2 óra (4 A100)
Tower-7B-v0.1 7B 26.4 34.1 12 óra (24 A100)

A Microsoft saját bevallása szerint nagy hangsúlyt fektetett a modellek biztonságára és etikus működésére. A Phi-4 család a Microsoft AI Red Team és a PyRIT (Python Risk Identification Toolkit) keretrendszerei segítségével esett át átfogó biztonsági auditokon, amelyek során több mint 120 különböző támadási vektort teszteltek. Az eredmény: a modellek védelme kiterjed a többnyelvű biztonsági próbákra, adatbázis-injektálás elleni védelemre, dinamikus jogosultságkezelésre és többfaktoros hitelesítésre. Emellett a helyi üzembe helyezés lehetősége lehetővé teszi, hogy a rendszerek internetkapcsolat nélkül is működjenek, miközben a 256 bites titkosítás garantálja a helyi adatok biztonságát.

A Phi-4 modellek három fő platformon érhetők el: az Azure AI Foundry, az NVIDIA API Catalog (optimalizálva a legújabb GPU architektúrákra, mint az NVIDIA H100 és Blackwell) és a HuggingFace Hub, ahol nyílt forráskódú implementációk is elérhetőek.

A Phi-4 modellcsalád integrációja számos iparágban jelentős változásokat ígér. Az okostelefonok esetében például a helyi MI feldolgozás révén a nyelvi fordítórendszerek nem csak gyorsabbak, hanem akár 65%-kal energiahatékonyabbak is lehetnek. Az oktatási technológiák terén az adaptív tanulási platformok révén személyre szabott visszajelzésekkel segíthetik a tanulást, míg az IoT eszközök prediktív karbantartási képességei új szintre emelhetik a rendszerhatékonyságot. Microsoft tervei szerint a Phi-4 modellek alapját képezik majd a következő generációs Copilot+ PC-knek, ahol a helyi MI feldolgozás akár 90%-kal növelheti az energiahatékonyságot.

Összegzés

Összességében a Phi-4 modellcsalád jelentős előrelépést képvisel a kis nyelvi modellek területén. A multimodális képességek, a kompakt kialakítás, az edge computingra optimalizált működés, valamint a széles körű testreszabhatóság mind hozzájárulnak ahhoz, hogy ezek a modellek forradalmasíthassák a mesterséges intelligencia alkalmazásait a mindennapi életben és az ipari környezetben egyaránt. A Microsoft ezen innovatív megközelítése példát mutat arra, hogyan lehet a technológiát nem csupán a nagyvállalati igények kielégítésére, hanem a szélesebb közönség, a hétköznapi felhasználók számára is elérhetővé és hasznossá tenni.  

Osszd meg ezt a cikket
Történelmi fordulat után az SK Hynix az új piacvezető a memóriaiparban
Három évtizeden keresztül a Samsung neve szinte egyet jelentett a DRAM-piac vezető szerepével. Most azonban fordult a kocka: 2025 első félévében a dél-koreai SK Hynix először előzte meg riválisát a globális memóriaiparban, megszakítva ezzel egy több mint harmincéves sorozatot. A változás nem csupán egy vállalati rangsor átrendeződését jelenti, hanem mélyebb átalakulásra utal az egész félvezetőiparban.
Riasztó ütemben nő a szervezett tudományos csalások száma
A tudomány világa a kíváncsiságra, együttműködésre és közös fejlődésre épül – legalábbis az eszmény szerint. A valóságban azonban mindig is jelen volt benne a verseny, az egyenlőtlenség és a hibázás lehetősége. Régóta tartott attól a tudományos közösség, hogy ezek a nyomások néhány kutatót eltérítenek a tudomány alapvető küldetésétől: a hiteles tudás létrehozásától. Sokáig úgy tűnt, hogy a csalás főként magányos elkövetők műve. Az utóbbi években azonban egy aggasztó fordulat bontakozott ki: egyre több bizonyíték utal arra, hogy a csalás immár nem elszigetelt botlások sorozata, hanem szervezett, ipari méreteket öltő tevékenység, állítja egy nemrég megjelent tanulmány.
Túl a zajon, avagy mit hoz valójában a GPT-5?
A mesterséges intelligencia fejlődése az utóbbi években különösen gyors ütemet vett, olyannyira hogy már szinte fullasztó mennyiségben jönnek ki a hírek a fejlettebbnél fejlettebb modellekről. Így ebben a nagy zajban nem könnyű egy-egy új fejlesztésnek kitűnnie, hiszen egyre nagyobbat kell gurítani, ahhoz hogy a felhasználó ingerküszöbét átvigye. Az OpenAI duplán terhelt emiatt, mivel valahogyan meg kell őriznie az elsőbbségét a többiek előtt akik szorosan jönnek fel mögötte. Ebbe a feszült térbe érkezett meg az OpenAI által most bemutatott GPT-5 modellcsalád, amely a kritikusok által is nagyon várt, hiszen az előzetes beharangozások alapján nem kevesebbet várnak el tőle minthogy minimum új mérföldkő legyen a mesterséges intelligencia modellek tekintetében. A nagy kérdés tehát az, hogy vajon megfelel e ezeknek az elvárásoknak. A cikk során megvizsgáljuk, hogyan illeszkedik a GPT-5 a mesterséges intelligencia modellek a fejlődési ívébe, milyen újdonságokat hoz, és miképpen hat a jelenlegi technológiai ökoszisztémára.
A legnépszerűbb elméletek az AI munkahelyekre gyakorolt hatásáról
A ChatGPT 2022 év végi megjelenése óta szinte hónapról hónapra újabb lehengerlő fejlesztések jelennek meg az AI területén ezért szinte azonnal beindult a fantáziálás arról, hogy miként is fogja ez megváltoztatni az életünket. Ezen belül is az egyik elsődleges kérdés, hogy milyen hatással lesz a munkahelyekre. Mivel a félelmek nem csillapodnak ezzel kapcsolatban, megjegyzem teljesen jogosan, azt gondolom érdemes időnként újból és újból megvizsgálni ezt a kérdést, hiszen az AI fejlődése drámai, ugyanakkor az idő előrehaladtával mégis talán egyre pontosabb képet kaphatunk az ilyen jellegű kérdésekről, hiszen az empirikus tapasztalatok is egyre gyűlnek és egyre több olyan elmélet lát napvilágot, amely igyekszik megválaszolni a kérdéseket. A cikkben igyekeztem összegyűjteni a legrelevánsabb elméleteket, bár a teljesség igénye nélkül hiszen ezek irodalma napról napra bővül. A kérdés természetes az, hogy látható e már a fény az alagút végén, vagy még mindig befelé haladunk egy olyan új világba, amelyről még mindig túl keveset tudunk.
Gondolkodásra tanít az OpenAI Study Mode
Az utóbbi években a mesterséges intelligenciának köszönhetően forradalmi változások indultak be az oktatásban, ahol a hangsúly egyre inkább a passzív információbefogadásról az aktív, mélyebb megértést célzó tanulási folyamatokra helyeződik át.
 Megjelent a Linux Kernel 6.16
Megjelent a Linux kernel 6.16-os verziója. Bár a kiadási folyamat a fejlesztők szerint a lehető legjobb értelemben vett „eseménytelenséggel” zajlott le, a felszín alatt jelentős fejlesztések történtek, amelyek biztonsági, teljesítménybeli és rendszerkezelési szempontból is előrelépést jelentenek. Eközben a soron következő 6.17-es verzió fejlesztése a megszokottnál kissé zavarosabban indult – ennek hátterében olyan emberi tényezők állnak, amelyek ritkán kerülnek reflektorfénybe egy ilyen méretű nyílt forráskódú projekt esetében.