A DeepSeek nevű kínai AI startup nemrégiben bemutatta a legújabb fejlesztését, a DeepSeek-R1 modellt, amely azonnal üstökösként söpört végig a mesterséges intelligenciát használók körében.
Az új R1 modell a DeepSeek V3 szakértői rendszeren alapszik, és teljesítményében felveszi a versenyt az OpenAI élvonalbeli o1 modelljével. A legnagyobb vonzereje azonban az, hogy a működése 90-95%-kal olcsóbb.
Ez a fejlesztés nagy előrelépést jelent a nyílt forrású modellek terén, tovább csökkentve a rést a zárt, kereskedelmi modellek és a nyilvánosan elérhető megoldások között. A DeepSeek csapata azzal demonstrálta az R1 modell erejét, hogy hat Llama és Qwen modellt finomhangolt R1 segítségével, jelentősen javítva azok teljesítményét. Egy konkrét esetben a Qwen-1.5B verzója bizonyos matematikai teszteken felülmúlta a GPT-4o és Claude 3.5 Sonnet modelleket.
Mit kínál a DeepSeek-R1?
Az általános mesterséges intelligencia (AGI) elérésének versenyében kulcsfontosságúak az olyan modellek, amelyek egyre jobban képesek komplex érvelési feladatok elvégzésére. Az OpenAI elsőként lépett ezen a területen az o1 modellel, amely a "chain-of-thought" technikát alkalmazza, hogy problémákat oldjon meg és javítsa saját gondolkodási stratégiáját.
A DeepSeek-R1 szintén ezt a megközelítést követi, de egyesíti a megerősítéses tanulást (reinforcement learning, RL) és a felügyelt finomhangolást (supervised fine-tuning), hogy még pontosabb érvelési képességekkel rendelkezzen.
A teszteredmények szerint a DeepSeek-R1 79,8%-ot ért el az AIME 2024 matematikai teszteken, 97,3%-ot a MATH-500 teszten, valamint 2029 pontot szerzett a Codeforces platformon, ami jobbnak bizonyult, mint a programozók 96,3%-a. Ezzel szemben az o1-1217 modell 79,2%-ot, 96,4%-ot és 96,6%-ot ért el ugyanezeken a teszteken.
A DeepSeek-R1 általános tudása is kiemelkedő: 90,8%-os pontosságot ért el az MMLU teszten, mindössze 1%-kal maradva el az OpenAI o1 modelljétől.

A modell tanításának folyamata
A DeepSeek-R1 fejlesztése jelentős mérföldkövet jelent a kínai startup számára, hiszen egy olyan nyílt forrású modellt hozott létre, amelynek teljes tanítási folyamata is transzparens.
A modell alapját a DeepSeek-R1-Zero jelentette, amely kizárólag megerősítéses tanulással lett képezve. Kezdetben a DeepSeek-V3-base modellt alkalmazták, amelyet felügyelt adatok nélkül tanítottak, kizárólag saját fejlődésére építve.
A kutatók szerint a modell természetesen alakított ki erős érvelési képességeket, azonban bizonyos hiányosságokat is mutatott, mint az alacsony olvashatóság és a nyelvi keveredés. Ezek orvoslására egy többlépcsős tréningfolyamatot alkalmaztak, amely kombinálta a felügyelt tanulást és az RL-módszereket.
Költséghatékonyság: az OpenAI o1-hez képest
Nemcsak a teljesítményben, hanem az árképzésben is jelentős a különbség. Az OpenAI o1 modellje 15 dollárba kerül milló input tokenenként, és 60 dollárba milló output tokenenként. Ezzel szemben a DeepSeek Reasoner (amely DeepSeek-R1-re épül) mindössze 0,55 dollárba kerül milló input tokenenként, és 2,19 dollárba milló output tokenenként.
A modellt a "DeepThink" néven tesztelhetik a felhasználók a DeepSeek chat platformon, valamint elérhető a Hugging Face-en az MIT licenc keretében vagy API-n keresztül integrálható.