Két új modellel bővül a Phi-4 modellcsalád

 A Microsoft nemrégiben jelentette be a Phi-4 család új generációját, amely két különböző, de egymást kiegészítő modellt tartalmaz: a Phi-4-multimodális és a Phi-4-mini változatot. Ezek a modellek nem csupán a számítási teljesítmény terén hoznak további javulást, hanem újszerű módon integrálják a különböző adattípusokat is, így a mesterséges intelligencia alkalmazási lehetőségei széles skáláját képesek támogatni – mindezt kompakt méretben és optimalizált erőforrás-használattal.

A Phi-4-multimodális modell

A Phi-4-multimodális modell a 5.6 milliárd paraméterrel rendelkező architektúrája révén kiváló megoldást kínál a beszéd-, kép- és szövegadatok egyidejű feldolgozására. A hagyományos rendszerekkel ellentétben, ahol külön modellek dolgoztak az egyes adattípusokon, ez a modell az ún. "mixture-of-LoRAs" technológiát alkalmazza, így képes az eltérő típusú adatok együttes reprezentációjára. Ennek eredményeként a feldolgozási folyamatok gyorsabbak és kevesebb számítási erőforrást igényelnek, ami különösen fontos az edge computing és a valós idejű alkalmazások esetében. A modell optimalizált architektúrája 40%-kal kevesebb RAM használat mellet működik, miközben a 128 000 tokenes kontextusablak lehetővé teszi, hogy hosszú és összetett tartalmakat is könnyedén kezeljen.

Az új modell emellett széleskörű többnyelvű támogatást nyújt, akár 85 nyelven is képes működni, így globális alkalmazásokban is megállja a helyét. A Phi-4-multimodális kimagasló teljesítményt ért el több fontos benchmarkon is: a beszédfelismerés terén új rekordot állított fel a HuggingFace OpenASR leaderboardon (6.14%-os szóhiba-arány), a dokumentumelemzésben 89.2%-os pontosságot ért el a DocVQA teszten, és tudományos kérdések esetében 78.5%-os sikerarányt mutatott – ezek az eredmények összehasonlíthatóak a legújabb generációs modellekkel. Emellett a cross-modális feladatokban, amikor például egy diagram értelmezése és a hozzá kapcsolódó beszédalapú utasítások együttes feldolgozása szükséges, a Phi-4-multimodális 35%-kal pontosabb eredményeket produkált a konkurens megoldásokhoz képest.

A Phi-4-mini modell

A Phi-4-mini modell 3.8 milliárd paraméterével a szövegalapú feladatokra optimalizált megoldás, amely egy "decoder-only" transzformer architektúrát alkalmaz a grouped-query attention mechanizmus segítségével. Ez a megoldás nemcsak a memóriaköltségeket csökkenti (22%-kal kevesebb erőforrást igényel), hanem a kontextusérzékenységet is megőrzi. Az alapértelmezett konfiguráció 43 nyelv támogatását biztosítja, és a modell képes akár 128 000 tokenes kontextusablak kezelésére is, így hosszú szövegek, dokumentumok feldolgozását is lehetővé teszi.

Egy másik fontos újítás a Phi-4-mini esetében a funkcióhívás és külső integrációk területén mutatkozik meg: a modell képes a felhasználói lekérdezések alapján automatikusan releváns API-kat azonosítani, paramétereket generálni, és különböző külső rendszereket meghívni. Például egy okosotthon-irányítási forgatókönyvben egyetlen természetes nyelvű parancs alapján a modell képes aktiválni a klímarendszert, módosítani a világítási beállításokat, majd értesítést küldeni – mindezt 1.2 másodperces átlagos válaszidővel.

Ipari alkalmazhatóság és testreszabhatóság

Mindkét modell – a multimodális és a szöveg-specifikus – széles körű ipari alkalmazások számára nyújt megoldást. Az egészségügyben például a valós idejű képfeldolgozás segítségével CT-vizsgálatok elemzésére, az autóiparban pedig sofőrfigyelő rendszerek és gesztusfelismerő megoldások integrálására is alkalmasak. Pénzügyi szolgáltatásokban a többnyelvű dokumentumelemzés révén valós idejű riportok generálása és kockázatelemzés is megvalósítható. Egy japán gyártócég, a Headwaters Co., esettanulmánya azt mutatja, hogy a Phi-4-mini edge alkalmazása akár 40%-kal csökkentheti a gyártási hibák számát, miközben az adatfeldolgozás helyben történik, biztosítva ezzel az ipari titkok védelmét.

A modellek rendkívül testreszabhatóak. Az Azure AI Foundry eszközeivel egyszerűen finomhangolhatóak domain-specifikus feladatokra – legyen szó nyelvi fordításról, orvosi kérdések megválaszolásáról vagy más specializált feladatokról. Például egy angol-indonéz fordítás esetén a finomhangolás után a BLEU pontszám a 17.4-ről 35.5-re emelkedett, míg orvosi kérdések esetében a pontosság 47.6%-ról 56.7%-ra nőtt. Ezek a fejlesztések nem csupán a modell teljesítményét javítják, hanem a gyakorlati alkalmazhatóságot is növelik.

A BLEU (Bilingual Evaluation Understudy) pontszám a gépi fordítás minőségének mérésére szolgáló szabványos metrika, amely 0 és 100 közötti értéket ad a gépi fordítás és emberi referenciafordítások közötti egyezés mértéke alapján. Ha megnézzük egy összehasonlótó táblázat alapján, hogyan is áll a Phi-4 mini a versenytársakhoz képest, akkor azt látjuk, hogy van tőle jobb abszolút értékben, de ha figyelembe vesszük azt is hogy a Phi-4 mini 3,5 milliárd paraméteres a Madlad-400-10B meg a nevéből is láthatóan 10 és alig jobb a Pihi-4 minitől, akkor már érezhető hogy itt rendkívül jó hatékonyság növekedés történt. Ugyanakkor a pontszám természetesen még messze van a 100-tól.

Modell neve Paraméterszám BLEU (alap) BLEU (finomhangolva) Finomhangolási idő
Phi-4-mini 3.8B 17.4 35.5 3 óra (16 A100)
Madlad-400-10B 10B 29.1 38.2 14 óra (32 A100)
NLLB-200-distilled 1.3B 22.7 31.9 8 óra (8 A100)
OPUS-MT (latest) 0.5B 15.8 24.3 2 óra (4 A100)
Tower-7B-v0.1 7B 26.4 34.1 12 óra (24 A100)

A Microsoft saját bevallása szerint nagy hangsúlyt fektetett a modellek biztonságára és etikus működésére. A Phi-4 család a Microsoft AI Red Team és a PyRIT (Python Risk Identification Toolkit) keretrendszerei segítségével esett át átfogó biztonsági auditokon, amelyek során több mint 120 különböző támadási vektort teszteltek. Az eredmény: a modellek védelme kiterjed a többnyelvű biztonsági próbákra, adatbázis-injektálás elleni védelemre, dinamikus jogosultságkezelésre és többfaktoros hitelesítésre. Emellett a helyi üzembe helyezés lehetősége lehetővé teszi, hogy a rendszerek internetkapcsolat nélkül is működjenek, miközben a 256 bites titkosítás garantálja a helyi adatok biztonságát.

A Phi-4 modellek három fő platformon érhetők el: az Azure AI Foundry, az NVIDIA API Catalog (optimalizálva a legújabb GPU architektúrákra, mint az NVIDIA H100 és Blackwell) és a HuggingFace Hub, ahol nyílt forráskódú implementációk is elérhetőek.

A Phi-4 modellcsalád integrációja számos iparágban jelentős változásokat ígér. Az okostelefonok esetében például a helyi MI feldolgozás révén a nyelvi fordítórendszerek nem csak gyorsabbak, hanem akár 65%-kal energiahatékonyabbak is lehetnek. Az oktatási technológiák terén az adaptív tanulási platformok révén személyre szabott visszajelzésekkel segíthetik a tanulást, míg az IoT eszközök prediktív karbantartási képességei új szintre emelhetik a rendszerhatékonyságot. Microsoft tervei szerint a Phi-4 modellek alapját képezik majd a következő generációs Copilot+ PC-knek, ahol a helyi MI feldolgozás akár 90%-kal növelheti az energiahatékonyságot.

Összegzés

Összességében a Phi-4 modellcsalád jelentős előrelépést képvisel a kis nyelvi modellek területén. A multimodális képességek, a kompakt kialakítás, az edge computingra optimalizált működés, valamint a széles körű testreszabhatóság mind hozzájárulnak ahhoz, hogy ezek a modellek forradalmasíthassák a mesterséges intelligencia alkalmazásait a mindennapi életben és az ipari környezetben egyaránt. A Microsoft ezen innovatív megközelítése példát mutat arra, hogyan lehet a technológiát nem csupán a nagyvállalati igények kielégítésére, hanem a szélesebb közönség, a hétköznapi felhasználók számára is elérhetővé és hasznossá tenni.  

Osszd meg ezt a cikket
Svájc új nyelvi modellje megmutatja, hogyan lehet az AI valóban közjó
Miközben a mesterséges intelligencia (AI) gyors ütemben formálja a tudományos kutatást, az ipart és a közszolgáltatásokat, egyre több kérdés merül fel a technológia átláthatóságával, társadalmi hasznosságával és szabályozhatóságával kapcsolatban. A svájci kutatók egy új kezdeményezéssel kívánnak választ adni ezekre a kérdésekre: teljesen nyílt forráskódú, közfinanszírozású nagy nyelvi modellt (LLM) fejlesztettek, amelyet idén nyáron terveznek nyilvánosan elérhetővé tenni. A projekt hátterében az ETH Zürich, az EPFL és a Svájci Nemzeti Szuperszámítógépes Központ (CSCS) áll, a számítási kapacitást pedig a „Alps” nevű, kifejezetten AI-feladatokra tervezett szuperszámítógép biztosította.
Az okos szemüvegek piaca valóban robbanás előtt áll?
Egyes iparági szakértők szerint 2025 lehet az az év, amikor az okos szemüvegek végérvényesen kilépnek a kísérleti eszközök árnyékából, és megkezdik térhódításukat a szélesebb fogyasztói rétegekben. Bár a technológia nem új, az utóbbi évek fejlesztései, piaci szereplők belépése és a mesterséges intelligencia térnyerése együttesen egy olyan fordulópontot vetítenek előre, amely indokolttá teszi a kérdést: az okos szemüvegek piaca valóban robbanás előtt áll?
Kína 100 ezer Nvidia chipet szerezne be – de honnan jönnek a tiltott technológiák?
Miközben az Egyesült Államok és Kína közötti politikai és gazdasági feszültségek egyre fokozódnak, a globális technológiai verseny sem lassul. A világ egyik legfontosabb chipgyártója, az amerikai Nvidia olyan új stratégiákon dolgozik, amelyekkel a geopolitikai korlátok ellenére is fenntarthatja jelenlétét Kínában. A vállalat nem csupán üzleti, hanem diplomáciai téren is igyekszik mozgásteret teremteni magának.
 Fázisátmenet figyelhető meg a nyelvi modellek tanulásában
Mi történik a mesterséges intelligencia „elméjében”, amikor megtanulja megérteni a nyelvet? Hogyan jut el oda, hogy nem csupán a szavak sorrendjét, hanem azok jelentését is képes követni? Egy nemrég megjelent kutatás a mesterséges intelligencia e belső folyamataiba enged elméleti betekintést, és olyan átváltozást azonosít, amely a fizikából ismert fázisátmenetekhez hasonlítható.
 Hogyan segít az MI a cementipar szén-dioxid-kibocsátásának csökkentésében
A globális szén-dioxid-kibocsátás mintegy nyolc százalékáért egyetlen iparág felelős: a cementgyártás. Ez több, mint amennyit az egész légi közlekedési szektor kibocsát világszerte. Miközben a világ egyre több betont használ — lakóházakhoz, infrastruktúrához, ipari létesítményekhez —, a cement előállítása továbbra is rendkívül energiaigényes és szennyező marad. Ezen a helyzeten kíván változtatni a svájci Paul Scherrer Intézet (PSI) kutatócsoportja, amely mesterséges intelligencia segítségével dolgozik ki új, környezetbarát cementrecepteket.
Hol tart ma valójában a mesterséges intelligencia?
A mesterséges intelligencia fejlesztése az elmúlt években látványos és gyakran lenyűgöző eredményeket produkált. Az olyan rendszerek, mint a ChatGPT, képesek természetes nyelvű szövegeket generálni, problémákat megoldani és sokszor az emberi teljesítményt is meghaladni különféle feladatokban. Ugyanakkor egyre több neves kutató és technológiai vezető – köztük John Carmack és François Chollet – hívja fel a figyelmet arra, hogy ezek az eredmények nem feltétlenül jelentik az általános mesterséges intelligencia (AGI) közeledtét. A színfalak mögött most új típusú problémák és kérdések kerültek a figyelem középpontjába, amelyek messze túlmutatnak a puszta teljesítményen.