A DeepSeek R1-0528, a kínai DeepSeek cég legújabb fejlesztése, jelentős előrelépést képvisel a mesterséges intelligencia modell érvelési képességeiben. Az új modell a januári DeepSeek R1-re épül, annak továbbfejlesztett változata. A cég állítása szerint a DeepSeek R1-0528 teljesítménye már vetekszik az OpenAI o3-as modelljével és megközelíti a Google Gemini 2.5 Pro képességeit.
A modell jelentősen javított az érvelési és a következtetési képességein. Ezt a megnövelt számítási erőforrások felhasználásával, algoritmikus optimalizálással és a kérdésenkénti tokenhasználat átlagosan 12 000-ről 23 000-re növelésével érték el. Ennek eredményeként a modell jelentős teljesítménynövekedést mutatott különböző teszteken. Például az AIME 2025 teszten a pontossága a korábbi 70%-ról 87,5%-ra nőtt.
A DeepSeek R1-0528 architektúrája 685 milliárd paramétert tartalmaz (a korábbi R1-ben 671 milliárd volt), és egy Mixture-of-Experts (MoE) kialakítást használ, ahol tokenenként csak 37 milliárd paraméter aktív. A modell kontextusablaka 128K token, és maximálisan 64K tokent képes generálni. Támogatja a funkciós hívásokat és a JSON kimeneti formátumokat. Emellett csökkent a hallucinációs arány, különösen a tartalom átírásakor és összefoglalásakor. Javult a kódgenerálási képessége is.
A modell figyelemre méltó eredményeket ért el különböző benchmarkokon. A matematikai feladatokban a teljesítménye eléri vagy meghaladja a vezető modellek, például az OpenAI o3-as és a Google Gemini 2.5 Pro szintjét. A programozási és kódolási feladatokban a LiveCodeBench-en az OpenAI o4-mini és o3 érvelési modellek mögött foglal helyet. Az általános érvelési képességei is javultak, amit a GPQA-Diamond teszten elért jelentős pontszámnövekedés (71,5%-ról 81,0%-ra) is bizonyít.
A DeepSeek a fő R1-0528 modell mellett kiadott egy kisebb, desztillált verziót is, a DeepSeek-R1-0528-Qwen3-8B-t. Ez a modell a Qwen3-8B-re épül, és a DeepSeek-R1-0528-ból desztillált érvelési tudást tartalmaz. A nyílt forráskódú modellek között kiemelkedő teljesítményt nyújt. A Qwen3-8B-t +10,0%-kal felülmúlja, és megegyezik a Qwen3-235B-thinking teljesítményével. Egyetlen, legalább 40 GB VRAM-mal rendelkező GPU-n is futtatható.