GTC 2025: Az NVIDIA Blackwell chipeken alapuló szerverei és a DGX Station

A 2009 óta megrendezett GTC (GPU Technológiai Konferencia) idén március 17 és 21 között kerül megrendezésre az NVIDIA által. A konferencia célja hogy bemutassa a legújabb fejlesztéseket és elősegítse a különböző iparágak közötti együttműködést és további fejlesztéseket, így többnyire fejlesztők, kutatók, technológiai vezetők vesznek részt rajta. Az NVIDIA CEO-ja Jensen Huang egy ideje emlegeti, hogy a vállalatok a jövőben token gyárrá változnak, ami alatt azt érti, hogy minden létező munkafolyamat mesterséges intelligencia által támogatott lesz. Ebben jelenleg nagy szerepet játszanak a nagy szerverek, de az AI integráció egyre inkább lecsorog majd a személyi számítógépek szintjére és a jövőben olyan számítógépek, laptopok lesznek amelyek megfelelő hardverrel rendelkeznek, ahhoz hogy akár nagy nyelvi modelleket futtassanak a háttérben. Erre azért van szükség mert a programozók, mérnökök és szinte mindenki mesterséges intelligencia által asszisztált munkát fog végezni.

Az új Blackwell GPU

De ne rohanjunk ennyire előre. Jensen Huang szerint, hogy ezeket a célokat elérjük először is a számítási teljesítmény drámai növelésére van szükség (scale-up) majd ha ez megvan akkor a rendszer kiterjesztése következik (scale-out), amikor is ezeket a felskálázott számítási elemeket összekapcsolják. Ezzel kapcsolatban elmondta hogy a három évvel ezelőtt bemutatott Grace Hopper architektúra és Ranger szerver modell volt az ahol ezt az elképzelést kezdték el használni, és bár a fizikai kiterjedése a szervernek túl nagy lett, de igazolta az elképzeléseiket. A fizikai méret egyébként egyrészt a léghűtés miatt volt amelyet az új Blackwall GPU esetében folyadékhűtésre cseréltek, így sikerült elérni egy olyan méretet ami már befért a szerver rackekbe. A másik probléma az volt hogy az NVLink-el összekapcsolt CPU és GPU egy modulban voltak. Ez az eszköz nagy sebességű összekapcsolást biztosít a CPU és GPU között. Hagyományos gépekben ez PCI Express interfészt használnak ugyanerre, de az NVLink alacsonyabb késleltetés mellett működik. Az NVLink diszaggregációjával sikerült a CPU-t és a GPU-t külön modulokba szétszeparálni, így az egyes komponensek egymástól függetlenül cserélhetők lettek a szerverben.

Az így bemutatott változások még mindig szenvednek egy harmadik problémától és ez pedig a GPU-k összekötéséhez használt optikai adatátviteli kábelek (transciever). Ezek a kábelek egyrészt rendkívül drágák (6db kell minden GPU-hoz így 6000 dollárral növelik a GPU árát) másrészt nagymértékben növelik a fogyasztást 180 Watt fogyasztással növelik a teljes áramfogyasztást GPU-nként. Ennek kiküszöbölésére Jensen Huang bemutatott egy szilicium-fotonika alapú megoldást, amely lehetővé teszi hogy a GPU-k fotonok segítségével kommunikáljanak. Egyébként a Google már alkalmazza ezt a technológiát a saját adatközpontjában, ahol 40%-os energiafelhasználás csökkenést okozott a technológia bevezetése.  

Server performance roadmap
Server performance roadmap

A méretcsökkenésnek hála 1 Exaflop (1000 Petaflop) teljesítményt értek el szerver rackenként. A memória sávszélesség valami egészen hihetetlen 570 TB/s. Összehasonlításként egy NVIDIA RTX 4070-ben ez a sávszélesség ezerszer kisebb tehát 504 GB/s, bár az nyilván nem szerverekbe készül. De egy másik realisztikusabb összehasonlítás a teljesítmény növekedést illetően. Jensen Huang azt mondja hogy ha egy 1 Megawatt fogyasztású AI céggel számolunk, akkor 1400 szerver rack van jelenleg használt H100-okkal, ez így 300 millió token másodpercenkénti sebességre képes LLM modell futtatásakor. Az új megoldással ez így néz ki, ha továbbra is 1 MW fogyasztással számolunk akkor 600 szerver rack váltja a régi 1400-at és a H100-okat az új fentebb bemutatott Blackwell számítási egységek váltják, az eredmény pedig 12000 millió token másodpercenként. A növekedés egyszerűen annyira drámain hatalmas, hogy eléggé nehezen követhető, de már bejelentésre kerültek az utódok. Idén év végén jön majd a Blackwell Ultra majd jövőre és 2027-ben a Rubin és Rubin Ultra GPU-k. A Rubin Ultra-nál egy rack 15 Exaflop teljesítményű lesz a jelenlegi 1 Exaflop helyett.

DGX Station

Ahogy a bevezetőben említettem Jensen Huang 30 millió programozóról beszél, akik hamarosan mind valamilyen AI támogatással fognak dolgozni. Ez egy fontos különbség azon vélemények között, akik máris temetik a programozókat és úgy vélik programozókra már nincs is szükség. Viszont ahhoz, hogy a programozók lokálisan ki tudják használni a nagy nyelvi modelleket szükség van megfelelő memória sávszélességre és megfelelő mennyiségű memóriára. A DGX Station az NVIDIA válasza erre a piaci igényre, amely 20 000 AI TFLOPS teljesítményű 8 TB/s a memória sávszélessége 784 GB RAM-al rendelkezik és ebből 288 GB elérhető a GPU számára tehát viszonylag nagyobb modellek is futtathatóak rajta. Természetesen a most bejelentett Blackwell chipet használja, csakúgy mint egyébként Geforce RTX 5xxx grafikus kártya sorozat. Nagy kérdés nyilván majd az ára lesz, mivel a korábbi szintén idén bemutatott de jóval kisebb teljesítményű DGX Spark 4000 dollárba kerül miközben csak 128 GB RAM-al 273 GB/s memória sávszélességgel és 1000 AI TFLOPS teljesítménnyel rendelkezik, tehát egy hússzor gyengébb és egy jóval kisebb készülék. Igaz ennek is megvan az előnye mivel a DGX Spark jóval kisebb így többet összekötve ütős kis szervert lehet belőle készíteni egy kisebb iroda számára, de az ára azért még elég húzós. 

DGX Station
DGX Station
Osszd meg ezt a cikket
Ötször nagyobb számítási teljesítménnyel érkezik a Tesla új FSD chipje
A Tesla következő generációs FSD (Full Self-Driving) chipje, az AI5/HW5, jelentős előrelépést képvisel a vállalat önvezető technológiájának fejlődésében. Bár a korábbi, HW4 néven ismert modell már önmagában is erőteljes teljesítményt kínált, az új chip 2000–2500 TOPS (tera művelet másodpercenként) számítási teljesítményével gyakorlatilag új szintet teremt a járműbe épített mesterséges intelligencia alkalmazások számára. Ez az ötszörös növekedés nem pusztán technikai bravúr, hanem lehetővé teszi, hogy a rendszer bonyolultabb, finomhangoltabb és kevesebb emberi beavatkozást igénylő algoritmusokkal dolgozzon – olyanokkal, amelyek egyre közelebb hozzák a teljesen felügyelet nélküli közlekedés lehetőségét.
Hogyan alakítja át a mesterséges intelligencia ökoszisztémát az OpenAI és a Microsoft viszonya?
A mesterséges intelligencia iparában zajló gyors technológiai és üzleti átalakulások egyik legszembetűnőbb példáját a Microsoft és az OpenAI kapcsolatának újradefiniálása jelenti. A két vállalat éveken át szoros szövetségben dolgozott együtt, ám a közelmúlt fejleményei világosan mutatják: az iparági logika immár nem a kizárólagos partnerségeket, hanem a rugalmasabb, többszereplős együttműködési modelleket részesíti előnyben.
A Samsung Galaxy A26 5G a vásárlók szemszögéből
A Samsung Galaxy A sorozat már régóta megbízható választás a költségtudatos Android-felhasználók számára, mivel a legfontosabb funkciókat biztosítja anélkül, hogy a legújabb trendeket követné. Az új Samsung Galaxy A26 5G folytatja ezt a hagyományt: biztonsági játékot játszik, de hatékonyan teljesít ott, ahol számít. Ez a cikk az A26 5G professzionális értékeléséből származó betekintést ötvözi az összesített vásárlói visszajelzésekkel, hogy átfogó képet adjon a készülék teljesítményéről és a felhasználók véleményéről.
Dél-Korea legnagyobb MI-központját építi az Amazon és az SK-csoport
Új korszak kezdődhet Dél-Korea mesterséges intelligencia iparában – az Amazon Web Services (AWS) bejelentette, hogy az SK-csoporttal közösen építi fel az ország történetének legnagyobb MI-számítási központját. A beruházás nemcsak technológiai mérföldkő, de az SK Hynix tőzsdei teljesítményére is látványos hatással van.