A 2009 óta megrendezett GTC (GPU Technológiai Konferencia) idén március 17 és 21 között kerül megrendezésre az NVIDIA által. A konferencia célja hogy bemutassa a legújabb fejlesztéseket és elősegítse a különböző iparágak közötti együttműködést és további fejlesztéseket, így többnyire fejlesztők, kutatók, technológiai vezetők vesznek részt rajta. Az NVIDIA CEO-ja Jensen Huang egy ideje emlegeti, hogy a vállalatok a jövőben token gyárrá változnak, ami alatt azt érti, hogy minden létező munkafolyamat mesterséges intelligencia által támogatott lesz. Ebben jelenleg nagy szerepet játszanak a nagy szerverek, de az AI integráció egyre inkább lecsorog majd a személyi számítógépek szintjére és a jövőben olyan számítógépek, laptopok lesznek amelyek megfelelő hardverrel rendelkeznek, ahhoz hogy akár nagy nyelvi modelleket futtassanak a háttérben. Erre azért van szükség mert a programozók, mérnökök és szinte mindenki mesterséges intelligencia által asszisztált munkát fog végezni.
Az új Blackwell GPU
De ne rohanjunk ennyire előre. Jensen Huang szerint, hogy ezeket a célokat elérjük először is a számítási teljesítmény drámai növelésére van szükség (scale-up) majd ha ez megvan akkor a rendszer kiterjesztése következik (scale-out), amikor is ezeket a felskálázott számítási elemeket összekapcsolják. Ezzel kapcsolatban elmondta hogy a három évvel ezelőtt bemutatott Grace Hopper architektúra és Ranger szerver modell volt az ahol ezt az elképzelést kezdték el használni, és bár a fizikai kiterjedése a szervernek túl nagy lett, de igazolta az elképzeléseiket. A fizikai méret egyébként egyrészt a léghűtés miatt volt amelyet az új Blackwall GPU esetében folyadékhűtésre cseréltek, így sikerült elérni egy olyan méretet ami már befért a szerver rackekbe. A másik probléma az volt hogy az NVLink-el összekapcsolt CPU és GPU egy modulban voltak. Ez az eszköz nagy sebességű összekapcsolást biztosít a CPU és GPU között. Hagyományos gépekben ez PCI Express interfészt használnak ugyanerre, de az NVLink alacsonyabb késleltetés mellett működik. Az NVLink diszaggregációjával sikerült a CPU-t és a GPU-t külön modulokba szétszeparálni, így az egyes komponensek egymástól függetlenül cserélhetők lettek a szerverben.
Az így bemutatott változások még mindig szenvednek egy harmadik problémától és ez pedig a GPU-k összekötéséhez használt optikai adatátviteli kábelek (transciever). Ezek a kábelek egyrészt rendkívül drágák (6db kell minden GPU-hoz így 6000 dollárral növelik a GPU árát) másrészt nagymértékben növelik a fogyasztást 180 Watt fogyasztással növelik a teljes áramfogyasztást GPU-nként. Ennek kiküszöbölésére Jensen Huang bemutatott egy szilicium-fotonika alapú megoldást, amely lehetővé teszi hogy a GPU-k fotonok segítségével kommunikáljanak. Egyébként a Google már alkalmazza ezt a technológiát a saját adatközpontjában, ahol 40%-os energiafelhasználás csökkenést okozott a technológia bevezetése.

A méretcsökkenésnek hála 1 Exaflop (1000 Petaflop) teljesítményt értek el szerver rackenként. A memória sávszélesség valami egészen hihetetlen 570 TB/s. Összehasonlításként egy NVIDIA RTX 4070-ben ez a sávszélesség ezerszer kisebb tehát 504 GB/s, bár az nyilván nem szerverekbe készül. De egy másik realisztikusabb összehasonlítás a teljesítmény növekedést illetően. Jensen Huang azt mondja hogy ha egy 1 Megawatt fogyasztású AI céggel számolunk, akkor 1400 szerver rack van jelenleg használt H100-okkal, ez így 300 millió token másodpercenkénti sebességre képes LLM modell futtatásakor. Az új megoldással ez így néz ki, ha továbbra is 1 MW fogyasztással számolunk akkor 600 szerver rack váltja a régi 1400-at és a H100-okat az új fentebb bemutatott Blackwell számítási egységek váltják, az eredmény pedig 12000 millió token másodpercenként. A növekedés egyszerűen annyira drámain hatalmas, hogy eléggé nehezen követhető, de már bejelentésre kerültek az utódok. Idén év végén jön majd a Blackwell Ultra majd jövőre és 2027-ben a Rubin és Rubin Ultra GPU-k. A Rubin Ultra-nál egy rack 15 Exaflop teljesítményű lesz a jelenlegi 1 Exaflop helyett.
DGX Station
Ahogy a bevezetőben említettem Jensen Huang 30 millió programozóról beszél, akik hamarosan mind valamilyen AI támogatással fognak dolgozni. Ez egy fontos különbség azon vélemények között, akik máris temetik a programozókat és úgy vélik programozókra már nincs is szükség. Viszont ahhoz, hogy a programozók lokálisan ki tudják használni a nagy nyelvi modelleket szükség van megfelelő memória sávszélességre és megfelelő mennyiségű memóriára. A DGX Station az NVIDIA válasza erre a piaci igényre, amely 20 000 AI TFLOPS teljesítményű 8 TB/s a memória sávszélessége 784 GB RAM-al rendelkezik és ebből 288 GB elérhető a GPU számára tehát viszonylag nagyobb modellek is futtathatóak rajta. Természetesen a most bejelentett Blackwell chipet használja, csakúgy mint egyébként Geforce RTX 5xxx grafikus kártya sorozat. Nagy kérdés nyilván majd az ára lesz, mivel a korábbi szintén idén bemutatott de jóval kisebb teljesítményű DGX Spark 4000 dollárba kerül miközben csak 128 GB RAM-al 273 GB/s memória sávszélességgel és 1000 AI TFLOPS teljesítménnyel rendelkezik, tehát egy hússzor gyengébb és egy jóval kisebb készülék. Igaz ennek is megvan az előnye mivel a DGX Spark jóval kisebb így többet összekötve ütős kis szervert lehet belőle készíteni egy kisebb iroda számára, de az ára azért még elég húzós.
