Rynek sztucznej inteligencji rozwija się w ogromnym tempie. Coraz więcej firm chce uruchamiać
duże modele językowe lokalnie – bez korzystania z chmury i bez budowania kosztownej infrastruktury serwerowej.
Jednym z kierunków rozwoju są kompaktowe stacje robocze AI, które pozwalają uruchamiać modele LLM
bezpośrednio w biurze. Do tej kategorii należą między innymi:
Oba urządzenia wykorzystują układ NVIDIA Grace GB10 Blackwell, który łączy CPU i GPU
w jednej architekturze oraz oferuje bardzo dużą ilość zunifikowanej pamięci.
Postanowiliśmy sprawdzić, jak taka platforma radzi sobie w praktyce – szczególnie w kontekście
lokalnej inferencji modeli LLM.
Pierwsze wrażenie po uruchomieniu obu urządzeń jest dość zaskakujące.
HP ZGX Nano G1n i Lenovo ThinkStation PGX są bardzo kompaktowe – znacznie mniejsze niż klasyczne serwery GPU
czy duże stacje robocze wyposażone w kilka kart graficznych.
Sprzęt bez problemu mieści się na biurku i nie wymaga specjalnej infrastruktury.
W praktyce można go traktować jako serwer AI w formacie desktop, który obsługuje lokalne modele językowe
dla kilku użytkowników jednocześnie.
Dla firm budujących środowiska AI on-premise to znacznie prostsze rozwiązanie niż infrastruktura
oparta o wiele kart GPU.
Najważniejszym elementem platformy Grace GB10 jest 128 GB zunifikowanej pamięci RAM,
z której mogą korzystać zarówno CPU jak i GPU.
Dla porównania – nawet profesjonalna karta NVIDIA RTX PRO 6000 Blackwell posiada maksymalnie
96 GB pamięci VRAM.
Według producenta komputery z układem Grace GB10 mogą obsługiwać modele nawet do
200 miliardów parametrów. W naszych testach uruchamialiśmy między innymi model
GPT-OSS 120B.
Model uruchomiony przy pomocy Ollama generował średnio około
40 tokenów na sekundę.
Podczas testów korzystaliśmy z konfiguracji opartej o Open WebUI oraz
Ollama. Taki zestaw działa podobnie do narzędzi takich jak ChatGPT czy Google Gemini.
Całe środowisko można postawić w kilkadziesiąt minut, dzięki czemu komputer może działać
jako lokalny serwer AI dla kilku osób.
Sprawdziliśmy również wyniki w benchmarku LocalScore.ai dla modelu Llama 3.1 8B.
| Platforma | Wynik |
|---|---|
| GB10 Blackwell | 485 pkt |
| RTX 4000 Ada | 647 pkt |
| RTX 6000 Ada | 1609 pkt |
| RTX 6000 Blackwell | 2000 pkt |
W testach syntetycznych karty RTX są znacznie szybsze. Jednak gdy modele stają się większe
lub kontekst rozmowy rośnie, 128 GB pamięci GB10 zaczyna mieć ogromne znaczenie.
Dla takich scenariuszy kompaktowy serwer AI na biurku może znacząco uprościć infrastrukturę.
HP ZGX Nano G1n i Lenovo ThinkStation PGX pokazują nowy kierunek rozwoju infrastruktury AI.
Nie są najszybsze na rynku, ale oferują dużą ilość pamięci, niski pobór energii
oraz możliwość uruchamiania dużych modeli językowych lokalnie.
Dla wielu firm rozwijających rozwiązania AI on-premise może to być
bardzo ciekawa alternatywa dla klasycznych serwerów GPU.
Masz pytania dotyczące wdrożenia AI w firmie?
Adam Bębenek
a.bebenek@mat.net.pl
12 252 06 61
512 240 334