NVIDIA DGX Spark için iki tanımlayıcı özellik öne çıkıyor: 4.000 ABD Doları tutarındaki masaüstü biriminde 128 GB birleşik bellek ve yerleşik 200 Gb veri merkezi düzeyinde ağ. Yüksek hızlı yapı, onu normal iş istasyonlarından farklı kılar ve bir zamanlar rafa monte sunuculara özel olan çok düğümlü kümelemeye olanak tanır. Bu inceleme, çeşitli modellerde ve iş yüklerinde iki düğümlü 200GbE kümelerindeki Dell, GIGABYTE ve HP Spark çeşitleri arasındaki dağıtılmış çıkarımları kıyaslamaktadır. Ayrıca, NVIDIA'nın varsayılan tensör paralelliğinden (TP) daha iyi performans gösteren alternatif bir bölme yöntemi olan boru hattı paralelliğini (PP) de analiz eder.
200 Gb Ağ Yapısı
Her Spark, entegre ConnectX-7 SmartNIC ile eşleştirilmiş iki QSFP56 kafesini donatıyor. PCIe Gen5 x4 bant genişliği ile sınırlıdır; kullanılabilir ağ hızı sınırları 200 Gb'dir ve tek bağlantı noktası tam bant genişliği için yeterlidir; ikinci bağlantı noktası topoloji esnekliği sunar. Üç ortak yapılandırma mevcuttur: doğrudan Spark'tan Spark'a 200 Gb bağlantılar, çift 100 Gb bağlantı noktaları aracılığıyla anahtarsız halka topolojisi ve NVMe-oF yüksek hızlı depolama erişimiyle hibrit kümeleme. NVIDIA, tek birimli masaüstü bilgisayarlar, doğrulanmış iki düğümlü kümeler ve yeni piyasaya sürülen dört düğümlü kurulumlar satmaktadır. Dual-Spark konfigürasyonu, üretim tarzı çıkarımlar için en pratik olanıdır ve bu testin odak noktasıdır.
Kıvılcım Kümelemesinin Gerekçesi
Birincil fayda, model kapasitesini genişletmektir: iki bağlantılı Spark, tek birim bellek sınırlarını aşan 120B parametreli modelleri çalıştırabilir. Daha da önemlisi, platform uygun fiyatlı bir eğitim aracı olarak hizmet ediyor. NVIDIA, yeni başlayanların AI iş akışlarını öğrenmeleri için Spark'ı model dağıtımı, ince ayar ve PyTorch/JAX geliştirmeyi kapsayan resmi kılavuzlarla tasarlar. Çift düğümlü kümeler, pahalı veri merkezi donanımı olmadan çok düğümlü paralelliği ve ağ darboğazı analizini daha da öğretir. Özellikle Spark, üretim çıkarımı için optimize edilmemiştir. Bellek bant genişliği ve düğümler arası gecikmeyle sınırlı olan 200GbE bağlantısı, dahili PCIe bağlantılarından daha yavaştır. Daha büyük kümeler, düşük token verimiyle ciddi performans düşüşüne maruz kalıyor ve bu da onları ticari hizmetten ziyade eğitim amaçlı kullanımla sınırlıyor.
Performans Testi: PP ve TP
Paralellik Stratejisi Seçimi
NVIDIA varsayılan olarak her transformatör katmanını sık sık tamamen azaltılmış veri alışverişiyle iki GPU'ya bölen TP'yi kullanır. Buna karşılık PP, modelleri katmanlara böler ve aktivasyonları düğümler arasında yalnızca bir kez aktarır. 200GbE bağlantılarında PP, düğümler arası iletişimi en aza indirir. Yüksek parti boyutlarındaki büyük modeller için PP, TP'den çok daha iyi performans gösteriyor; TP yalnızca tek istekli, düşük gecikmeli sohbet senaryolarında üstündür.
GPT-OSS-120B üzerinde yapılan testler bu açığı doğruluyor. Parti boyutu 128'de PP, dengeli iş yüklerinde 554,69 tok/s'ye (TP'den 2,20 kat daha hızlı), önceden doldurmanın yoğun olduğu görevlerde ise 310,63 tok/s'ye, 164,99 tok/s'ye ulaşır. TP yalnızca parti boyutu 1'de öndedir. Llama-3.1-8B gibi küçük modeller için, hafif katman hesaplaması nedeniyle TP çoğu parti boyutuna hakimdir ve PP yalnızca yüksek eşzamanlılıkta TP'yi geride bırakır.
Çoklu Model Karşılaştırma Sonuçları (PP=2)
GPT-OSS Serisi
GPT-OSS-120B için HP, dengeli (504,88 tok/s) ve önceden doldurma ağırlıklı (441,63 tok/s) iş yüklerinde en yüksek verimi elde etti; GIGABYTE, kod çözme ağırlıklı testlere öncülük etti (494,37 tok/s). GPT-OSS-20B için Dell dengeli (976,77 tok/s) ve önceden doldurma ağırlıklı (852,39 tok/s) senaryolara hakim olurken, GIGABYTE kod çözme görevlerine (945,55 tok/s) öncülük etti.
Lama 3.1 8B Çeşitleri
BF16 hassasiyetinde Dell dengeli (689,53 tok/s) ve kod çözme ağırlıklı (581,43 tok/s) iş yüklerine öncülük etti; GIGABYTE, ön dolum ağırlıklı testleri kazandı (539,27 tok/s). FP4 optimizasyonu verimi keskin bir şekilde artırdı: GIGABYTE dengeli (1458,86 tok/s) ve önceden doldurma ağırlıklı (954,23 tok/s) görevlere öncülük etti. FP8 için Dell, dengeli (1105,42 tok/s) ve kod çözme ağırlıklı (862,33 tok/s) senaryolarda dar farkları korudu.
Mistral ve Qwen Modelleri
Mistral Small 3.1 24B minimum düzeyde boşluk gördü: GIGABYTE dengeli iş yüklerinde 255,09 tok/s'ye ulaştı. Qwen3 Coder 30B (A3B Tabanı) için GIGABYTE, önceden doldurma ağırlıklı görevleri (1862,40 tok/s) yönetti; Dell kod çözme senaryolarında başarılı oldu. FB8 nicemleme altında, GIGABYTE ön doldurma ağırlıklı verimi (3088,62 tok/s) zirveye çıkarırken, Dell kod çözme görevlerine (705,77 tok/s) öncülük etti.
Çift Kıvılcım Sistemleri En Yüksek Çıkış Özeti
|
Modeli
|
Senaryo (BS – 64)
|
Dell Zirve Çıkışı
|
GIGABYTE Zirve Çıkışı
|
HP Zirve Çıkışı
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
Eşit ISL/OSL
|
463,97 tok/sn
|
497,26 tok/sn
|
504,88 tok/sn
|
|
GPT-OSS-120B
|
Ağır Ön Doldurma
|
419,56 tok/sn
|
417,34 tok/sn
|
441,63 tok/sn
|
|
GPT-OSS-120B
|
Ağır Kod Çözme
|
451,18 tok/sn
|
494,37 tok/sn
|
474,85 tok/sn
|
|
GPT-OSS-20B
|
Eşit ISL/OSL
|
976,77 tok/sn
|
952,31 tok/sn
|
915,72 tok/sn
|
|
GPT-OSS-20B
|
Ağır Ön Doldurma
|
852,39 tok/sn
|
802,37 tok/sn
|
757,05 tok/sn
|
|
GPT-OSS-20B
|
Ağır Kod Çözme
|
938,65 tok/sn
|
945,55 tok/sn
|
865,78 tok/sn
|
|
Llama-3.1-8B-Talimat
|
Eşit ISL/OSL
|
689,53 tok/sn
|
687,48 tok/sn
|
618,87 tok/sn
|
|
Llama-3.1-8B-Talimat
|
Ağır Ön Doldurma
|
515,45 tok/sn
|
539,27 tok/sn
|
463,39 tok/sn
|
|
Llama-3.1-8B-Talimat
|
Ağır Kod Çözme
|
581,43 tok/sn
|
576,91 tok/sn
|
531,07 tok/sn
|
|
Lama-3.1-8B-FP4
|
Eşit ISL/OSL
|
1427,39 tok/sn
|
1458,86 tok/sn
|
1413,51 tok/sn
|
|
Lama-3.1-8B-FP4
|
Ağır Ön Doldurma
|
884,22 tok/sn
|
954,23 tok/sn
|
843,57 tok/sn
|
|
Lama-3.1-8B-FP4
|
Ağır Kod Çözme
|
1008,98 tok/sn
|
1007,23 tok/sn
|
943,73 tok/sn
|
|
Lama-3.1-8B-FP8
|
Eşit ISL/OSL
|
1105,42 tok/sn
|
1089,85 tok/sn
|
1076,68 tok/sn
|
|
Lama-3.1-8B-FP8
|
Ağır Ön Doldurma
|
759,50 tok/sn
|
827,40 tok/sn
|
725,51 tok/sn
|
|
Lama-3.1-8B-FP8
|
Ağır Kod Çözme
|
862,33 tok/sn
|
855,81 tok/sn
|
800,78 tok/sn
|
|
Mistral-Küçük-3.1-24B
|
Eşit ISL/OSL
|
249,77 tok/sn
|
255,09 tok/sn
|
239,09 tok/sn
|
|
Mistral-Küçük-3.1-24B
|
Ağır Ön Doldurma
|
216,01 tok/sn
|
214,38 tok/sn
|
197,92 tok/sn
|
|
Mistral-Küçük-3.1-24B
|
Ağır Kod Çözme
|
238,44 tok/sn
|
237,97 tok/sn
|
221,41 tok/sn
|
Çözüm
Dell, GIGABYTE ve HP Spark birimleri, partiye özel küçük farklarla göz ardı edilebilir performans boşlukları sunar. Satın alma kararlarında, önemsiz karşılaştırma farklılıkları yerine kasa tasarımına, termal performansa, garantiye ve satış sonrası desteğe öncelik verilmelidir. Paralellik stratejisi, OEM varyasyonlarından çok daha büyük bir etki yaratır: PP, toplu çıkarım açısından TP'den daha iyi performans gösterirken, TP, tek akışlı, düşük gecikmeli etkileşime uygundur. NVIDIA'nın TP önerisi, Spark'ın üretim altyapısından ziyade etkileşimli bir öğrenme cihazı olarak konumlandırmasıyla uyumludur. Çift düğümlü Spark kümesi, dağıtılmış yapay zeka için uygun fiyatlı bir öğretim platformu olarak hizmet eder. Gelecekteki testler daha büyük kümeleri ve uçtan uca küçük model eğitimini kapsayacak ve laboratuvarda 800 Gb anahtar dağıtımı bekleniyor.
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Küresel Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web sitesi: www.qianxingdata.com/www.storagesserver.com
İş Odağı:
BİT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimimizle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık yapıyoruz.
“Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak”Güvenilir BİT Ürün Servis Sağlayıcınız!
Sandy Yang/Küresel Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web sitesi: www.qianxingdata.com/www.storagesserver.com
İş Odağı:
BİT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimimizle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık yapıyoruz.
“Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak”Güvenilir BİT Ürün Servis Sağlayıcınız!



