DeepSeek-R1 az OpenAI o1 open source kihívója

A DeepSeek nevű kínai AI startup nemrégiben bemutatta a legújabb fejlesztését, a DeepSeek-R1 modellt, amely azonnal üstökösként söpört végig a mesterséges intelligenciát használók körében.

Az új R1 modell a DeepSeek V3 szakértői rendszeren alapszik, és teljesítményében felveszi a versenyt az OpenAI élvonalbeli o1 modelljével. A legnagyobb vonzereje azonban az, hogy a működése 90-95%-kal olcsóbb.

Ez a fejlesztés nagy előrelépést jelent a nyílt forrású modellek terén, tovább csökkentve a rést a zárt, kereskedelmi modellek és a nyilvánosan elérhető megoldások között. A DeepSeek csapata azzal demonstrálta az R1 modell erejét, hogy hat Llama és Qwen modellt finomhangolt R1 segítségével, jelentősen javítva azok teljesítményét. Egy konkrét esetben a Qwen-1.5B verzója bizonyos matematikai teszteken felülmúlta a GPT-4o és Claude 3.5 Sonnet modelleket.

Mit kínál a DeepSeek-R1?

Az általános mesterséges intelligencia (AGI) elérésének versenyében kulcsfontosságúak az olyan modellek, amelyek egyre jobban képesek komplex érvelési feladatok elvégzésére. Az OpenAI elsőként lépett ezen a területen az o1 modellel, amely a "chain-of-thought" technikát alkalmazza, hogy problémákat oldjon meg és javítsa saját gondolkodási stratégiáját.

A DeepSeek-R1 szintén ezt a megközelítést követi, de egyesíti a megerősítéses tanulást (reinforcement learning, RL) és a felügyelt finomhangolást (supervised fine-tuning), hogy még pontosabb érvelési képességekkel rendelkezzen.

A teszteredmények szerint a DeepSeek-R1 79,8%-ot ért el az AIME 2024 matematikai teszteken, 97,3%-ot a MATH-500 teszten, valamint 2029 pontot szerzett a Codeforces platformon, ami jobbnak bizonyult, mint a programozók 96,3%-a. Ezzel szemben az o1-1217 modell 79,2%-ot, 96,4%-ot és 96,6%-ot ért el ugyanezeken a teszteken.

A DeepSeek-R1 általános tudása is kiemelkedő: 90,8%-os pontosságot ért el az MMLU teszten, mindössze 1%-kal maradva el az OpenAI o1 modelljétől.   

DeepSeek R1 kiemelkedő teljesítmény
DeepSeek R1 kiemelkedő teljesítmény

A modell tanításának folyamata

A DeepSeek-R1 fejlesztése jelentős mérföldkövet jelent a kínai startup számára, hiszen egy olyan nyílt forrású modellt hozott létre, amelynek teljes tanítási folyamata is transzparens.

A modell alapját a DeepSeek-R1-Zero jelentette, amely kizárólag megerősítéses tanulással lett képezve. Kezdetben a DeepSeek-V3-base modellt alkalmazták, amelyet felügyelt adatok nélkül tanítottak, kizárólag saját fejlődésére építve.

A kutatók szerint a modell természetesen alakított ki erős érvelési képességeket, azonban bizonyos hiányosságokat is mutatott, mint az alacsony olvashatóság és a nyelvi keveredés. Ezek orvoslására egy többlépcsős tréningfolyamatot alkalmaztak, amely kombinálta a felügyelt tanulást és az RL-módszereket.

Költséghatékonyság: az OpenAI o1-hez képest

Nemcsak a teljesítményben, hanem az árképzésben is jelentős a különbség. Az OpenAI o1 modellje 15 dollárba kerül milló input tokenenként, és 60 dollárba milló output tokenenként. Ezzel szemben a DeepSeek Reasoner (amely DeepSeek-R1-re épül) mindössze 0,55 dollárba kerül milló input tokenenként, és 2,19 dollárba milló output tokenenként.

A modellt a "DeepThink" néven tesztelhetik a felhasználók a DeepSeek chat platformon, valamint elérhető a Hugging Face-en az MIT licenc keretében vagy API-n keresztül integrálható.   

Osszd meg ezt a cikket
Lehet hogy hamarosan véget is ér az okostelefonok kora?
A napokban zajlik a Google trösztellenes pere, amelyen meghalgatták Eddy Cue-t az Apple szolgáltatásokért felelős vezető alelnökét. A tanúvallomás során Cue váratlan és izgalmas kijelentést tett, amelyben azt sugallta, hogy hamarosan az iPhone az iPod sorsára juthat.
Az Apple Anthropic-ra támaszkodva kíván saját „Vibe-Coding” platformot létrehozni
Az Apple számos nehézséggel nézett szembe az utóbbi időben saját mesterséges intelligencia megoldásainak kifejlesztése során, ezért talán nem meglepő, hogy a továbbiakban inkább külső AI-szakértelemre támaszkodna a további fejlesztések érdekében. Most úgy döntöttek, hogy az Anthropic-al egyesítik erőiket egy forradalmi „vibe-coding” szoftverplatform létrehozására, amely a generatív mesterséges intelligenciát használja fel a programozók kódjának írására, szerkesztésére és tesztelésére - derül ki a legfrissebb jelentésekből.
Megkezdődött a stablecoin forradalom
A Stripe megkezdte a fejlett világon kívüli országokban a stablecoin alapú fizetések tesztelését. A kezdeményezést a Bridge stablecoin platform felvásárlása előzte meg, amelyet a Coinbase korábbi vezetői Zach Abrams és Sean Yu alapítottak. A Stripe által alkalmazott stablecoin a dollár értékéhez van rögzítve, és elsősorban olyan vállalkozások számára kívánják megkönnyíteni a kifizetéseket vele, amelyek olyan országokban működnek, ahol a nemzeti valuta árfolyamának erős ingadozása, vagy egyéb infrastrukturális okok miatt a hagyományos valutákban való pénz mozgás rendkívül költséges.
QnodeOS az első kvantum operációs rendszer
A kvantumhálózatok eddig elérhetetlenül bonyolultnak tűntek a fejlesztők számára, hiszen minden hardvertípushoz külön szoftverréteg készült. Március közepén azonban a Quantum Internet Alliance (QIA) kutatócsoportja bejelentette a QNodeOS névre keresztelt kvantumoperációs rendszert, amely – a klasszikus világ operációs rendszereihez hasonlóan – elrejti a hardver alacsony szintű részleteit, és lehetővé teszi a magasabb szintű alkalmazások fejlesztését különböző kvantumprocesszorokon. Az első bemutatót a Nature online kiadványa közölte 2025. március 12-én, és azóta a QNodeOS gyorsan a kvantumhálózati kutatások középpontjába került.