logo
Ana sayfa Davalar

NVIDIA DGX Spark Cluster İncelemesi: Dell, GIGABYTE ve HP'de Dağıtılmış İfade

Sertifika
Çin Beijing Qianxing Jietong Technology Co., Ltd. Sertifikalar
Çin Beijing Qianxing Jietong Technology Co., Ltd. Sertifikalar
Müşteri yorumları
Beijing Qianxing Jietong Technology Co., Ltd'nin satış personeli çok profesyonel ve sabırlıdır. Hızlı bir şekilde teklif verebilirler. Ürünlerin kalitesi ve paketlemesi de çok iyi. İşbirliğimiz çok düzgün.

—— 《Festfing DV》LLC

Acilen intel CPU ve Toshiba SSD ararken, Pekin Qianxing Jietong Technology Co., Ltd'den Sandy bana çok yardım etti ve ihtiyacım olan ürünleri hızla aldı. Onu gerçekten takdir ediyorum.

—— kedi yavrusu

Beijing Qianxing Jietong Technology Co., Ltd'den Sandy, bir sunucu satın aldığımda bana yapılandırma hatalarını zamanında hatırlatabilen çok dikkatli bir satıcıdır. Mühendisler de oldukça profesyonel ve test sürecini hızla tamamlayabiliyorlar.

—— Strelkin Mihail Vladimiroviç

Beijing Qianxing Jietong ile çalışmaktan çok memnunuz. Ürün kalitesi mükemmel ve teslimat her zaman zamanında yapılıyor. Satış ekibi profesyonel, sabırlı ve tüm sorularımızda çok yardımcı oluyor. Destekleri için gerçekten minnettarız ve uzun vadeli bir ortaklık için sabırsızlanıyoruz. Şiddetle tavsiye edilir!

—— Ahmad Navid

MikroTik RB3011 zaten kullanılmıştı, ama çok iyi durumdaydı ve her şey mükemmel şekilde çalışıyor.Ve tüm endişelerim hızlıca ele alındı.- Çok güvenilir bir tedarikçi. - Çok tavsiye ederim.

—— Geran Colesio

Ben sohbet şimdi

NVIDIA DGX Spark Cluster İncelemesi: Dell, GIGABYTE ve HP'de Dağıtılmış İfade

May 15, 2026
NVIDIA DGX Spark için iki tanımlayıcı özellik öne çıkıyor: 4.000 ABD Doları tutarındaki masaüstü biriminde 128 GB birleşik bellek ve yerleşik 200 Gb veri merkezi düzeyinde ağ. Yüksek hızlı yapı, onu normal iş istasyonlarından farklı kılar ve bir zamanlar rafa monte sunuculara özel olan çok düğümlü kümelemeye olanak tanır. Bu inceleme, çeşitli modellerde ve iş yüklerinde iki düğümlü 200GbE kümelerindeki Dell, GIGABYTE ve HP Spark çeşitleri arasındaki dağıtılmış çıkarımları kıyaslamaktadır. Ayrıca, NVIDIA'nın varsayılan tensör paralelliğinden (TP) daha iyi performans gösteren alternatif bir bölme yöntemi olan boru hattı paralelliğini (PP) de analiz eder.

son şirket davası hakkında NVIDIA DGX Spark Cluster İncelemesi: Dell, GIGABYTE ve HP'de Dağıtılmış İfade  0

200 Gb Ağ Yapısı


Her Spark, entegre ConnectX-7 SmartNIC ile eşleştirilmiş iki QSFP56 kafesini donatıyor. PCIe Gen5 x4 bant genişliği ile sınırlıdır; kullanılabilir ağ hızı sınırları 200 Gb'dir ve tek bağlantı noktası tam bant genişliği için yeterlidir; ikinci bağlantı noktası topoloji esnekliği sunar. Üç ortak yapılandırma mevcuttur: doğrudan Spark'tan Spark'a 200 Gb bağlantılar, çift 100 Gb bağlantı noktaları aracılığıyla anahtarsız halka topolojisi ve NVMe-oF yüksek hızlı depolama erişimiyle hibrit kümeleme. NVIDIA, tek birimli masaüstü bilgisayarlar, doğrulanmış iki düğümlü kümeler ve yeni piyasaya sürülen dört düğümlü kurulumlar satmaktadır. Dual-Spark konfigürasyonu, üretim tarzı çıkarımlar için en pratik olanıdır ve bu testin odak noktasıdır.

son şirket davası hakkında NVIDIA DGX Spark Cluster İncelemesi: Dell, GIGABYTE ve HP'de Dağıtılmış İfade  1

Kıvılcım Kümelemesinin Gerekçesi


Birincil fayda, model kapasitesini genişletmektir: iki bağlantılı Spark, tek birim bellek sınırlarını aşan 120B parametreli modelleri çalıştırabilir. Daha da önemlisi, platform uygun fiyatlı bir eğitim aracı olarak hizmet ediyor. NVIDIA, yeni başlayanların AI iş akışlarını öğrenmeleri için Spark'ı model dağıtımı, ince ayar ve PyTorch/JAX geliştirmeyi kapsayan resmi kılavuzlarla tasarlar. Çift düğümlü kümeler, pahalı veri merkezi donanımı olmadan çok düğümlü paralelliği ve ağ darboğazı analizini daha da öğretir. Özellikle Spark, üretim çıkarımı için optimize edilmemiştir. Bellek bant genişliği ve düğümler arası gecikmeyle sınırlı olan 200GbE bağlantısı, dahili PCIe bağlantılarından daha yavaştır. Daha büyük kümeler, düşük token verimiyle ciddi performans düşüşüne maruz kalıyor ve bu da onları ticari hizmetten ziyade eğitim amaçlı kullanımla sınırlıyor.

Performans Testi: PP ve TP


Paralellik Stratejisi Seçimi


NVIDIA varsayılan olarak her transformatör katmanını sık sık tamamen azaltılmış veri alışverişiyle iki GPU'ya bölen TP'yi kullanır. Buna karşılık PP, modelleri katmanlara böler ve aktivasyonları düğümler arasında yalnızca bir kez aktarır. 200GbE bağlantılarında PP, düğümler arası iletişimi en aza indirir. Yüksek parti boyutlarındaki büyük modeller için PP, TP'den çok daha iyi performans gösteriyor; TP yalnızca tek istekli, düşük gecikmeli sohbet senaryolarında üstündür.
GPT-OSS-120B üzerinde yapılan testler bu açığı doğruluyor. Parti boyutu 128'de PP, dengeli iş yüklerinde 554,69 tok/s'ye (TP'den 2,20 kat daha hızlı), önceden doldurmanın yoğun olduğu görevlerde ise 310,63 tok/s'ye, 164,99 tok/s'ye ulaşır. TP yalnızca parti boyutu 1'de öndedir. Llama-3.1-8B gibi küçük modeller için, hafif katman hesaplaması nedeniyle TP çoğu parti boyutuna hakimdir ve PP yalnızca yüksek eşzamanlılıkta TP'yi geride bırakır.

Çoklu Model Karşılaştırma Sonuçları (PP=2)


GPT-OSS Serisi


GPT-OSS-120B için HP, dengeli (504,88 tok/s) ve önceden doldurma ağırlıklı (441,63 tok/s) iş yüklerinde en yüksek verimi elde etti; GIGABYTE, kod çözme ağırlıklı testlere öncülük etti (494,37 tok/s). GPT-OSS-20B için Dell dengeli (976,77 tok/s) ve önceden doldurma ağırlıklı (852,39 tok/s) senaryolara hakim olurken, GIGABYTE kod çözme görevlerine (945,55 tok/s) öncülük etti.

Lama 3.1 8B Çeşitleri


BF16 hassasiyetinde Dell dengeli (689,53 tok/s) ve kod çözme ağırlıklı (581,43 tok/s) iş yüklerine öncülük etti; GIGABYTE, ön dolum ağırlıklı testleri kazandı (539,27 tok/s). FP4 optimizasyonu verimi keskin bir şekilde artırdı: GIGABYTE dengeli (1458,86 tok/s) ve önceden doldurma ağırlıklı (954,23 tok/s) görevlere öncülük etti. FP8 için Dell, dengeli (1105,42 tok/s) ve kod çözme ağırlıklı (862,33 tok/s) senaryolarda dar farkları korudu.

Mistral ve Qwen Modelleri


Mistral Small 3.1 24B minimum düzeyde boşluk gördü: GIGABYTE dengeli iş yüklerinde 255,09 tok/s'ye ulaştı. Qwen3 Coder 30B (A3B Tabanı) için GIGABYTE, önceden doldurma ağırlıklı görevleri (1862,40 tok/s) yönetti; Dell kod çözme senaryolarında başarılı oldu. FB8 nicemleme altında, GIGABYTE ön doldurma ağırlıklı verimi (3088,62 tok/s) zirveye çıkarırken, Dell kod çözme görevlerine (705,77 tok/s) öncülük etti.

Çift Kıvılcım Sistemleri En Yüksek Çıkış Özeti


Modeli
Senaryo (BS – 64)
Dell Zirve Çıkışı
GIGABYTE Zirve Çıkışı
HP Zirve Çıkışı
GPT-OSS-120B
Eşit ISL/OSL
463,97 tok/sn
497,26 tok/sn
504,88 tok/sn
GPT-OSS-120B
Ağır Ön Doldurma
419,56 tok/sn
417,34 tok/sn
441,63 tok/sn
GPT-OSS-120B
Ağır Kod Çözme
451,18 tok/sn
494,37 tok/sn
474,85 tok/sn
GPT-OSS-20B
Eşit ISL/OSL
976,77 tok/sn
952,31 tok/sn
915,72 tok/sn
GPT-OSS-20B
Ağır Ön Doldurma
852,39 tok/sn
802,37 tok/sn
757,05 tok/sn
GPT-OSS-20B
Ağır Kod Çözme
938,65 tok/sn
945,55 tok/sn
865,78 tok/sn
Llama-3.1-8B-Talimat
Eşit ISL/OSL
689,53 tok/sn
687,48 tok/sn
618,87 tok/sn
Llama-3.1-8B-Talimat
Ağır Ön Doldurma
515,45 tok/sn
539,27 tok/sn
463,39 tok/sn
Llama-3.1-8B-Talimat
Ağır Kod Çözme
581,43 tok/sn
576,91 tok/sn
531,07 tok/sn
Lama-3.1-8B-FP4
Eşit ISL/OSL
1427,39 tok/sn
1458,86 tok/sn
1413,51 tok/sn
Lama-3.1-8B-FP4
Ağır Ön Doldurma
884,22 tok/sn
954,23 tok/sn
843,57 tok/sn
Lama-3.1-8B-FP4
Ağır Kod Çözme
1008,98 tok/sn
1007,23 tok/sn
943,73 tok/sn
Lama-3.1-8B-FP8
Eşit ISL/OSL
1105,42 tok/sn
1089,85 tok/sn
1076,68 tok/sn
Lama-3.1-8B-FP8
Ağır Ön Doldurma
759,50 tok/sn
827,40 tok/sn
725,51 tok/sn
Lama-3.1-8B-FP8
Ağır Kod Çözme
862,33 tok/sn
855,81 tok/sn
800,78 tok/sn
Mistral-Küçük-3.1-24B
Eşit ISL/OSL
249,77 tok/sn
255,09 tok/sn
239,09 tok/sn
Mistral-Küçük-3.1-24B
Ağır Ön Doldurma
216,01 tok/sn
214,38 tok/sn
197,92 tok/sn
Mistral-Küçük-3.1-24B
Ağır Kod Çözme
238,44 tok/sn
237,97 tok/sn
221,41 tok/sn


Çözüm


Dell, GIGABYTE ve HP Spark birimleri, partiye özel küçük farklarla göz ardı edilebilir performans boşlukları sunar. Satın alma kararlarında, önemsiz karşılaştırma farklılıkları yerine kasa tasarımına, termal performansa, garantiye ve satış sonrası desteğe öncelik verilmelidir. Paralellik stratejisi, OEM varyasyonlarından çok daha büyük bir etki yaratır: PP, toplu çıkarım açısından TP'den daha iyi performans gösterirken, TP, tek akışlı, düşük gecikmeli etkileşime uygundur. NVIDIA'nın TP önerisi, Spark'ın üretim altyapısından ziyade etkileşimli bir öğrenme cihazı olarak konumlandırmasıyla uyumludur. Çift düğümlü Spark kümesi, dağıtılmış yapay zeka için uygun fiyatlı bir öğretim platformu olarak hizmet eder. Gelecekteki testler daha büyük kümeleri ve uçtan uca küçük model eğitimini kapsayacak ve laboratuvarda 800 Gb anahtar dağıtımı bekleniyor.

Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Küresel Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web sitesi: www.qianxingdata.com/www.storagesserver.com
İş Odağı:
BİT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimimizle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık yapıyoruz.
“Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak”Güvenilir BİT Ürün Servis Sağlayıcınız!
İletişim bilgileri
Beijing Qianxing Jietong Technology Co., Ltd.

İlgili kişi: Ms. Sandy Yang

Tel: 13426366826

Sorgunuzu doğrudan bize gönderin (0 / 3000)