AMD, MLPerf Inference v6.0 kıyaslama sonuçlarını duyurdu ve Instinct MI355X GPU'yu tek düğümlü, çok düğümlü ve heterojen dağıtımları destekleyebilen, yüksek oranda ölçeklenebilir bir çıkarım platformu olarak konumlandırdı. Artımlı performans artışlarının ötesinde, gönderim yeni iş yükleri sunuyor, saniyede 1 milyondan fazla token'ı aşan küme ölçekli verim gösteriyor ve genişleyen bir iş ortağı ekosisteminde tutarlı performans tekrarlanabilirliğini doğruluyor.
CDNA 4 Mimarisi Yüksek Kapasiteli Çıkarımı Hedefliyor
Instinct MI355X, TSMC'nin çift işlemcili çiplet tasarımından yararlanan AMD'nin CDNA 4 mimarisi üzerine inşa edilmiştir: hesaplama kalıpları (XCD'ler) 3nm düğüm kullanırken, G/Ç kalıpları 6nm FinFET teknolojisini kullanır. Çoklu çiplet paketi 185 milyar transistör entegre eder ve büyük model çıkarımı için kritik olan FP4 ve FP6 veri formatlarını destekler. Her GPU, 8 TB/sn bellek bant genişliği sağlayan 288 GB'a kadar HBM3E bellekle donatılmıştır, bu da tek bir cihazda 520 milyar parametreye kadar modellerin desteklenmesini sağlar. AMD, hesaplama yoğunluğu ve bellek kapasitesinin bu kombinasyonunun, büyük ölçekli çıkarım iş yükleri için önemli bir avantaj olan aşırı model bölümleme ihtiyacını ortadan kaldırdığını vurguluyor.
UBB8 yapılandırmalarında mevcut olan platform, çeşitli veri merkezi dağıtım gereksinimleriyle uyumlu olarak hem hava soğutmalı hem de doğrudan sıvı soğutmalı seçenekler sunar. Özellikle MI355X, sıvı soğutma ile 1400W TBP (Termal Tasarım Gücü) özelliğine sahiptir ve hava soğutmalı muadili MI350X'ten daha yüksek performans sunar.
Çok Düğümlü Verim Saniyede 1 Milyon Token'ı Aşıyor
MLPerf v6.0 turunun öne çıkan başarılarından biri, AMD'nin küme ölçekli veriminin saniyede 1 milyondan fazla token'ı aşmasıdır. Instinct MI355X GPU'ları kullanarak AMD, hem Sunucu hem de Çevrimdışı senaryolarda Llama 2 70B ile ve Çevrimdışı modda GPT-OSS-120B ile bu kilometre taşına ulaştı.
AMD MLPerf Saniyede 1 Milyon Token Grafiği
Bu sonuçlar, çıkarım performansının bireysel hızlandırıcı başına yerine küme düzeyinde değerlendirilmesine yönelik büyüyen bir endüstri eğilimini yansıtıyor. Toplam verim ve hizmet süresi, büyük ölçekli yapay zeka dağıtımlarında üretim hazırlığını belirlemek için birincil metrikler haline gelmiştir.
AMD ayrıca olağanüstü ölçekleme verimliliği gösterdi. Llama 2 70B için, 11 düğümlü, 87 GPU'luk bir yapılandırma, Çevrimdışı, Sunucu ve Etkileşimli senaryolarda saniyede 1 milyondan fazla token elde etti ve ölçek genişletme verimliliği %93 ila %98 arasında değişiyordu. GPT-OSS-120B için, 12 düğümlü, 94 GPU'luk bir küme, %90'ın üzerinde ölçekleme verimliliği ile benzer bir verim sağladı; bu da dağıtımlar tek bir sistemin ötesine genişledikçe performansın etkili bir şekilde çevrildiğini kanıtlıyor.
Nesiller Arası Kazançlar ve Rekabetçi Tek Düğümlü Performans
AMD, Instinct MI355X'in Llama 2 70B Sunucu'da önceki nesil Instinct MI325X'e kıyasla 3,1 kat daha iyi performans göstererek saniyede 100.282 token'a ulaşmasıyla önemli nesiller arası iyileştirmeler bildirdi. Bu iyileştirme, hem CDNA 4 mimari geliştirmelerinden hem de ROCm yazılım optimizasyonlarından kaynaklanmaktadır. Çevrimdışı puanlar, önceki MLPerf turlarına kıyasla 4,4 kat, Sunucu puanları ise 4,8 kat iyileşti; bu, öncelikle MI355X'in yapay zeka iş yükleri için daha yüksek verim sağlayan temel bir özelliği olan FP4 nicelemesinden kaynaklanıyor.
AMD Çıkarım Sonuçları vs Önceki Nesil Grafiği
NVIDIA platformlarına karşı tek düğümlü karşılaştırmalarda, MI355X güçlü bir rekabetçilik gösterdi. Llama 2 70B üzerinde, Çevrimdışı verimde NVIDIA B200 ile eşleşti, Sunucu performansında neredeyse eşitlik sağladı ve Etkileşimli modda onu geride bıraktı. NVIDIA B300'e karşı, MI355X Çevrimdışı performansın %92'sini, Sunucu performansının %93'ünü sağladı ve Etkileşimli modda %4 oranında onu geride bıraktı. Özellikle, MI355X ayrıca daha iyi maliyet verimliliği sunarak NVIDIA B200'e kıyasla dolar başına %40 daha fazla token sağlıyor.
İlk Kez Model Etkinleştirme Kapsamı Genişletiyor
MLPerf Inference v6.0, birkaç yeni iş yükü tanıttı ve AMD bu turu hızlı model etkinleştirmeyi sergilemek için kullandı. Uzmanlar karışımı bir model olan GPT-OSS-120B, MI355X ile MLPerf'e ilk kez çıktı ve hem Çevrimdışı hem de Sunucu senaryolarında NVIDIA sistemlerine karşı rekabetçi sonuçlar elde etti.
AMD ayrıca Wan-2.2 metinden-videoya üretimi için sonuçlar sundu ve bu da çok modlu ve üretken video çıkarımına girişini işaret ediyor. Resmi gönderim Tek Akış gecikmesine odaklanırken, sonuçlar mevcut platformlarla eşdeğerdi. Gönderim sonrası ayarlama performansı daha da iyileştirdi ve yazılım yığını olgunlaştıkça optimizasyon için alan olduğunu vurguladı.
Bu eklemeler, AMD'nin geleneksel LLM kıyaslamalarının ötesine geçerek çeşitli kullanım durumlarında gelişmekte olan yapay zeka iş yüklerini destekleme taahhüdünü vurguluyor.
ROCm Yazılımı Ölçeklendirme ve Heterojen Çıkarımı Sağlıyor
AMD, MI355X'in performans ve ölçeklenebilirliğinin çoğunu ROCm yazılım yığınına borçludur. Temel geliştirmeler arasında optimize edilmiş FP4 yürütme, dağıtılmış çıkarım için geliştirilmiş GPU'dan GPU'ya iletişim ve karışık GPU dağıtımları için kritik olan heterojen ortamlar arasında dinamik iş yükü dağıtımını destekleme yer alıyor.
AMD MLPerf çıkarım sonuçları instinct mI355x grafiği
Dell ve MangoBoost tarafından geliştirilen kilometre taşı niteliğindeki bir heterojen gönderim, üç AMD Instinct GPU modeli kullandı: MI300X, MI325X ve MI355X. Bu yapılandırma, Llama 2 70B Sunucu'da saniyede 141.521 token ve Llama 2 70B Çevrimdışı'nda saniyede 151.843 token elde etti. Özellikle, MI355X platformu Dell'in ABD laboratuvarında bulunurken, MI300X ve MI325X sistemleri Kore'deydi; bu da coğrafi konumlarda dağıtılmış sistemleri koordine etme yeteneğini gösteriyor.
Ekosistem Büyümesi ve Tekrarlanabilirlik
AMD'nin iş ortağı ekosistemi bu MLPerf turunda önemli ölçüde genişledi ve dokuz şirket birden fazla Instinct GPU nesli boyunca sonuçlar sundu. Katılan satıcılar arasında Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro ve Red Hat yer alıyor; bu da AMD'nin çıkarım çözümlerinin geniş bir endüstri tarafından benimsendiğini gösteriyor.
İş ortağı gönderimleri, tipik olarak %4 içinde ve bazı durumlarda %1 içinde kalarak AMD'nin dahili sonuçlarıyla yakından uyumluydu. Bu tutarlılık, MI355X performansının OEM ve bulut platformlarında tekrarlanabilir olduğunu, dağıtım riskini azalttığını ve gerçek dünya performans sonuçlarına olan güveni artırdığını doğruluyor.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web sitesi: www.qianxingdata.com/www.storagesserver.com
İş Odak Noktası:
BT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimiyle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla işbirliği yapıyoruz.
Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak
Sandy Yang/Global Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web sitesi: www.qianxingdata.com/www.storagesserver.com
İş Odak Noktası:
BT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimiyle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla işbirliği yapıyoruz.
Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak



