IBM Storage Scale paralel dosya sistemi, NVIDIA Dynamo ile eşleştirilen dağıtılmış KV önbelleği yönetimini destekler ve büyük bağlam iş yükleri ile büyük ölçekli AI çıkarım senaryolarına hizmet verir.
IBM, resmi bir Redbook yayınladı.Sınırsız Bağlantı: Büyük ölçekli yapay zeka çıkarımı için yüksek performanslı bir KV önbelleği platformu, bu ortak çözüm için tam bir doğrulanmış referans mimarisi sunar. Entegre yığın, Supermicro Petascale Depolama Sunucuları, NVIDIA Spectrum-X Ethernet ağını,ve IBM Storage Scale Erasure Coding Edition (ECE), AI çıkarımı için yüksek performanslı bir paylaşılan depolama katmanı oluşturmak içinIBM ITSO (Uluslararası Teknik Destek Örgütü) tarafından yayınlanan yetkili teknik belgeler olarak, IBM Redbooks, pratik,Kurumsal düzeyde IBM altyapı ürünleri için derinlemesine dağıtım rehberliği.
IBM, Supermicro ve NVIDIA'nın mühendislik ekiplerinin ortak yazarı olan Redbook, uzun bağlamlı yapay zeka iş yüklerinin temel bir ağrılı noktasını ele alıyor.RAG alım uygulamaları ve özerk ajan boru hatları, GPU HBM içinde büyük KV önbelleği verileri oluştururÖnbelleğe alınan veriler sınırlı HBM kaynaklarından çıkarıldıktan sonra, tekrarlanan yeniden hesaplamalar ciddi gecikme artışlarını tetikleyecek ve sürekli çapraz istek KV önbelleği depolamasını vazgeçilmez hale getirecektir.
Çözüm, farklı gecikme ve kapasite taleplerini kapsayan beş katmanlı hiyerarşik KV önbelleği mimarisini benimser:
-
G1 katmanı: GPU düğümü yerel HBM
-
G2 Katmanı: CPU düğüm sistemi DRAM
-
G3 katmanı: Doğrudan bağlı yerel SSD
-
G3.5 Katman: Pod düzeyinde paylaşılan flash depolama, NVIDIA BlueField DPU'ları ile doğrudan GPU sunucu DPU'larına bağlantı kuruluyor
-
G4 katman: Tüm GPU hesaplama sunucularına bağlı dış çapraz Ethernet paylaşılan depolama havuzu
Bu çok katmanlı yapılandırma, uçtan uca bellek ve depolama hiyerarşisini kapsar ve sürekli gecikme ve kapasite eğimi sağlar.Otomatik tahliye ve tüm depolama yığınındaki dinamik veri yeniden yükleme, esnek bir şekilde değişik iş yükü erişim kalıplarına ve toplam altyapı maliyeti bütçelerine uyarlanabilir.
Supermicro Petascale Depolama Sunucularında dağıtılan, Depolama Ölçeği ECE, G4 soğuk önbelleği katmanı olarak hizmet eder. Gecikme duyarlı olmayan KV önbelleği verileri için optimize edilmiştir.Aktif olmayan çok dönüşlü konuşma durumları da dahil, anında yanıt gerektirmeyen ortak ajan bağlamı verileri ve tarihsel sorgu kayıtları.
Redbook'da kaydedilen test sonuçlarına göre, bu üretim hazır referans mimarisi, üretken AI ve ajantik AI çıkarım hizmetlerini etkili bir şekilde hızlandırıyor.Tek istekli TTFT (Time To First Token) testlerinde, harici depolama ölçeği KV önbelleği olmayan bağımsız GPU sunucularıyla karşılaştırıldığında, entegre sistem, hızlı uzunluk değişikliklerine rağmen istikrarlı bir TTFT'yi korur.56 kat hızlandırma130k-token giriş dizisi altında ve genişletilmiş uyarı uzunluklarından kaynaklanan çıkarım gecikme dalgalanmalarını tamamen ortadan kaldırır.
Eşzamanlı çok kullanıcılı çıkarım basıncı altında, çözüm çarpıcı bir performans iyileştirmesi elde eder: istek işlem hızı 0,19 RPS'den 4,26 RPS'ye yükselerek,22 kat verim artışıBu arada, 200 çıkarım isteği için toplam işleme süresi% 95 oranında azalır, GPU kullanım verimliliğini ve genel çıkarım kümesi ölçeklenebilirliğini büyük ölçüde artırır.
Yığın, sert gürültülü komşu stres testlerinde de sağlam bir performansı korur. Dört müşteri ucu ile sürekli 200 GB / s rakip ağ I / O trafiği üretir.Entegre sistem hala 3'te istikrarlı çalışıyor..6 RPS, tüm 200 çıkarım isteğini 55.56 saniye içinde bitirir.18 kat daha yüksekSadece GPU'ya dayalı yeniden hesaplama mimarisi.
Araştırma ekibi Redbook'da şu sonuca varmıştır: "Güçlü GPU donanım yatırımları üzerine ROI'yi en üst düzeye çıkarmayı hedefleyen işletmeler için, bu doğrulanmış entegre mimari, basit,İfade verimliliğini artırmak için üretime hazır yaklaşım, uçtan uca gecikmeyi azaltmak, daha yüksek hizmet eşzamanlılığını desteklemek ve daha uygun maliyetli büyük ölçekli yapay zeka çıkarım altyapısı oluşturmak.
Anahtar kelimeler: SUPERMICRO, IBM Storage Scale, NVIDIA Dynamo
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Küresel Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
İş odaklı:
İKT Ürün dağıtım/Sistem entegrasyonu ve hizmetler/altyapı çözümleri
20+ yıllık BT dağıtım deneyimiyle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık kuruyoruz.
Akıllı bir dünya inşa etmek için teknolojiyi kullanmak güvenilir İKT ürün hizmet sağlayıcınız!