Ana sayfa Davalar

AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi

Tüm ürünler

Raf Depolama Sunucusu
(179)

Huawei Füzyon Sunucusu
(31)

Dell Poweredge Sunucu
(59)

H3C Sunucusu
(31)

Datacom Anahtarları
(96)

WLAN Cihazı
(21)

Akıllı Kablosuz Yönlendirici
(17)

Sabit Disk HDD
(78)

Dahili Sabit Disk SSD
(16)

Geforce Grafik Kartı
(27)

INTEL CPU İşlemci
(20)

Sunucu Belleği RAM
(6)

Yenilenmiş Depolama Sunucusu
(6)

SFP Alıcı-Verici Modülü
(4)

fiber kanal anahtarı
(125)

Sertifika

Müşteri yorumları

Beijing Qianxing Jietong Technology Co., Ltd'nin satış personeli çok profesyonel ve sabırlıdır. Hızlı bir şekilde teklif verebilirler. Ürünlerin kalitesi ve paketlemesi de çok iyi. İşbirliğimiz çok düzgün.

—— 《Festfing DV》LLC

Acilen intel CPU ve Toshiba SSD ararken, Pekin Qianxing Jietong Technology Co., Ltd'den Sandy bana çok yardım etti ve ihtiyacım olan ürünleri hızla aldı. Onu gerçekten takdir ediyorum.

—— kedi yavrusu

Beijing Qianxing Jietong Technology Co., Ltd'den Sandy, bir sunucu satın aldığımda bana yapılandırma hatalarını zamanında hatırlatabilen çok dikkatli bir satıcıdır. Mühendisler de oldukça profesyonel ve test sürecini hızla tamamlayabiliyorlar.

—— Strelkin Mihail Vladimiroviç

Beijing Qianxing Jietong ile çalışmaktan çok memnunuz. Ürün kalitesi mükemmel ve teslimat her zaman zamanında yapılıyor. Satış ekibi profesyonel, sabırlı ve tüm sorularımızda çok yardımcı oluyor. Destekleri için gerçekten minnettarız ve uzun vadeli bir ortaklık için sabırsızlanıyoruz. Şiddetle tavsiye edilir!

—— Ahmad Navid

MikroTik RB3011 zaten kullanılmıştı, ama çok iyi durumdaydı ve her şey mükemmel şekilde çalışıyor.Ve tüm endişelerim hızlıca ele alındı.- Çok güvenilir bir tedarikçi. - Çok tavsiye ederim.

—— Geran Colesio

Ben sohbet şimdi

AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi

March 13, 2026

Kontrol noktası, AI modeli eğitimi için gereklidir, çünkü esnekliği, operasyonel verimliliği ve kaydedilen durumlardan eğitimi yeniden başlatma veya inceleme yeteneğini sağlar.Günümüzün AI iş yüklerinin talepleri, giderek daha karmaşık modeller ve geniş eğitim veri kümeleri ile karakterize edilir..

Yapay Zeka İş Akışlarındaki Kontrol Noktalarının Rolü

Yapay zekâ eğitiminde kontrol noktası, eğitim döngüsü boyunca bir modelin tam durumunun periyodik olarak kaydedilmesini içeren hayati bir süreçtir.Optimizer durumlarıEğitim sürecinin belirli aralıklarla kapsamlı bir anlık görüntüsü oluşturarak,Kontrol noktası eğitim sürekliliğini garanti eder ve kesinti durumunda iyileşmeyi sağlar.

Kontrol noktaları tipik olarak tekrarlama tabanlı aralıklarla (örneğin, her bin eğitim adımı) yakalanır. Modern large language model (LLM) training— which can span weeks or even months and consume massive computational resources—relies heavily on these checkpoints as a safety net against potential failuresÖrneğin, GPT-4 sınıfı bir modeli eğitmek, model boyutuna ve eğitim yapılandırmasına bağlı olarak birkaç yüz gigabayt'tan birden fazla terabayta kadar kontrol noktaları oluşturabilir.

DALL-E tarafından oluşturulan eğitim süreci

Kontrol noktasının temel amacı sadece yedek fonksiyonun ötesinde.Sistem arızası durumlarında sıfırdan yeniden başlamak yerine eğitimin son kaydedilen durumdan devam etmesine izin vermekEk olarak, kontrol noktaları model analizi için çok değerlidir:Araştırmacıların farklı eğitim aşamalarında modelin gelişimini incelemelerini ve performans bozulması tespit edildiğinde potansiyel olarak önceki durumlara geri dönmelerini sağlarlar..

Depolama perspektifinden bakıldığında, kontrol noktası sırasında yazma kalıpları özellikle dikkate değer.Bu farklı bir I / O profili oluşturur: Eğitim hesaplamaları sırasında nispeten düşük depolama aktivitesi dönemleri, ardından kontrol noktası sırasında yoğun, geniş bant genişliği yazma işlemleri.Bu yazma işlemleri tipik olarak sıralıdır ve yüksek bant genişliği sıralı yazmalar için optimize edilmiş depolama sistemlerinden önemli ölçüde yararlanabilir..

Dağıtılmış eğitimde farklı paralellik stratejileri kontrol noktası davranışında önemli bir etkiye sahip olabilir.Bu stratejiler, eğitim sırasında kontrol noktasının ne zaman gerçekleştiğini ve modelin hangi bölümünün kaydedildiğini etkiler.Modern dağıtılmış eğitim kurulumlarında, birden fazla GPU aynı anda aynı katmanın farklı bölümlerini yazabilir ve karmaşık I/O kalıpları oluşturabilir.Bu paralel yazma yeteneği verimliliğin anahtarıdır, ancak verilerin tutarlılığını korurken eşzamanlı yazma işlemlerini işleyebilen dikkatli bir koordinasyon ve sağlam depolama sistemleri gerektirir.Bu süreçte herhangi bir sıkıntı, eğitim gecikmelerine yol açabilir.

Yavaş kontrol noktası, tüm eğitim sürecinin, kontrol noktası depolamaya yazılırken durması gerektiği için önemli eğitim sıkıntıları yaratabilir.Eğer kontrol noktası her birkaç saatte bir 30 dakika sürerse, bu, tüm eğitim dönemi boyunca birikimli birkaç saatlik duraklama süresi ile sonuçlanabilir.Bu, eğitim verimliliğini doğrudan etkiler ve özellikle bilgisayar kaynaklarının saatlik olarak faturalandığı bulut ortamlarında işletme maliyetlerini arttırır..

Hızlı kontrol noktası, ekiplerin daha sık kontrol noktaları oluşturmasına da olanak tanır ve arızalar durumunda potansiyel veri kaybını azaltır.Bu, daha agresif eğitim yaklaşımlarını ve daha iyi deneysel tekrarlama döngülerini sağlar.Ayrıca, hızlı kontrol noktası yükleme süreleri, farklı eğitim konfigürasyonları ve model mimarileri ile daha hızlı deney yapmayı kolaylaştırır.Araştırmacılar alternatif yaklaşımları test etmek için önceki durumlardan daha kolay bir şekilde geri alabilirler..

Depolama sisteminin bu kontrol noktası operasyonlarını verimli bir şekilde ele alma yeteneği, genel eğitim altyapısında kilit bir faktör haline gelir. High-performance storage solutions that can manage both the burst write patterns of checkpointing and the sustained read/write operations of training can significantly reduce the total time and cost of training large language modelsDolayısıyla, the storage subsystem’s performance characteristics—particularly its ability to handle large sequential writes and maintain consistent high bandwidth—are crucial considerations when designing LLM training infrastructure.

Bu rapor için, yapay zeka kontrol noktası için SSD performansını değerlendirmeye çalıştık, kontrol noktası hızı kritik olduğunda en son Gen5 SSD'lerin faydalarını değerlendirdik,Eğitilen model için daha yararlısa çok sayıda kontrol noktası saklayabilen piyasadaki en büyük QLC SSD'lere kıyasla.

Kontrol Noktası Performansı DLIO ile Benchmarking

Solidigm SSD'lerinin AI eğitim ortamlarında gerçek dünya performansını değerlendirmek için, Argonne Ulusal Laboratuvarı tarafından geliştirilen Data and Learning Input/Output (DLIO) değerlendirme aracını kullandık.DLIO, derin öğrenme iş yüklerinde I / O kalıplarını test etmek için özel olarak tasarlanmıştır., depolama sistemlerinin kontrol noktalarını, veri alımını ve model eğitimi zorluklarını nasıl ele aldığına dair anlayış sağlar.

DLIO'yu kullanarak, yoğun kontrol noktası senaryoları altında sürücünün verimliliğini, gecikmesini ve güvenilirliğini ölçmeyi amaçladık. Bu test 61.44TB D5-P5336 üzerinde yapılırken,İlk performans verileri, Solidigm D5-P5336 122TB versiyonunun benzer bir performans profili sunduğunu göstermektedir.Bu testte PCIe Gen5'in avantajlarını göstermek için TLC tabanlı bir D7-PS1010'un sonuçlarını da dahil ettik. Kontrol noktalarındaki her iki bakış açısını sergilemek için bu iki sürücüyü seçtik:En hızlı kontrol noktasına odaklanan bir tane, diğeri ise tek bir SSD'ye maksimum sayıda kontrol noktasını depolamak.

Bu çalışma için seçilen platform Ubuntu 22 çalışan Dell PowerEdge R760'dı.04.02 LTS. 13 Ağustos 2024 sürümünden itibaren DLIO benchmark sürümü 2.0'yu kullandık. Sistem yapılandırmamız aşağıda belirtilmiştir:

2 x Intel Xeon Gold 6430 (32-Core, 2.1GHz)
16 x 64GB DDR5-4400
480GB Dell BOSS SSD
Seri Kablolar Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336

Benchmarking'imizin gerçek dünya senaryolarını yansıttığını sağlamak için, testlerimizi LLAMA 3.1 405B model mimarisine dayandırdık, model parametrelerini yakalamak için torch.save (() aracılığıyla kontrol noktasını uyguladık,Optimizer durumlarıKurulumumuz 8 GPU sistemini simüle ederek, 8 GPU'ya dağıtılmış 4 yönlü tensör paralel ve 2 yönlü boru hattı paralel işlemle hibrit paralellik stratejisini uyguladı..Bu yapılandırma, modern büyük dil modeli eğitim gereksinimlerini temsil eden 1.636 GB'lık kontrol noktası boyutlarına yol açtı.

DLIO kontrol noktası iş yükü için test sürecimiz, her sürücüyü benzer bir kullanım seviyesine doldurmaktan oluşuyordu. 61.44TB Solidigm D5-P5336 için, her geçiş 33 kontrol noktası aralığı içeriyordu.toplam 54TBDaha küçük 7.68TB D7-PS1010, toplam 4.9TB'lik bir ayak izi ile üç kontrol noktası aralığına rahatlıkla sığar.İstendiğimizden biraz daha yüksek bir kullanım getirdiği halde.

Gen4 QLC tabanlı 61.44TB D5-P5536'yı Gen5 TLC tabanlı 7.68TB D7-PS1010'la karşılaştırdığımızda DLIO kontrol noktası iş yükü ilginç sonuçlar verdi.İki SSD modeli arasında daha geniş bir performans farkına tanık oldukDaha hızlı Gen5 PS1010 her kontrol noktasını ortalama 464 saniyede tamamladı, Gen4 P5336'nın 623 saniyesine kıyasla.PS1010 için 579 ve 587 saniyeye ve P5336 için 676 ve 680 saniyeye kadar daraldı..

Kontrol noktası aralıklarında mümkün olan en küçük boşluğa sahip olmak isteyen işletmeler için, TLC tabanlı Gen5 PS1010, en hızlı tamamlama süresinde bir avantaj sunar.Hedef çok sayıda kontrol noktasını uygun maliyetle korumaksaQLC tabanlı Gen4 P5336 bunu yapabilir. İkinci ve üçüncü geçiş sırasında iki sürüş arasında ortalama kontrol noktası zamanlarında %17'den daha az bir fark ölçtük.

GPUDirect depolama bant genişliği

DLIO, bir yapay zeka iş akışında flaş performansı gösterirken, bir kontrol noktası geri yüklenene kadar iş yükü tamamen yazıya dayanır.AI iş yüklerinde Solidigm D7-PS1010 ve D5-P5336'nın daha tam bir resmini çizmek için, GDSIO kullanılarak okuma bant genişliği ölçümlerini dahil ettik.

GPU Doğrudan Depolama Nasıl Çalışır

Geleneksel olarak, bir GPU NVMe sürücüsünde depolanan verileri işlediğinde, veriler önce GPU'ya ulaşmadan önce CPU ve sistem belleğinden geçmelidir.CPU bir aracı haline geldiğindeGPU Direct Storage, GPU'nun PCIe otobüsü üzerinden depolama cihazından doğrudan verilere erişmesini sağlayarak bu verimsizliği ortadan kaldırır.Bu doğrudan yol veri hareketi ile ilişkili genel masrafları azaltır, daha hızlı ve daha verimli veri aktarımlarına olanak tanır.

Yapay zeka iş yükleri, özellikle derin öğrenme içerenler çok veri yoğunluğundadır.ve veri aktarımında herhangi bir gecikme, yetersiz GPU'lara ve daha uzun eğitim sürelerine yol açabilir.. GPU Direkt Depolama, verilerin GPU'ya mümkün olduğunca hızlı bir şekilde teslim edilmesini sağlayarak, dinlenme süresini en aza indirerek ve hesaplama verimliliğini en üst düzeye çıkararak bu zorluğu ele alır.

Tıpkı DLIO testi gibi, amacımız da yüksek hızlı 5. nesil SSD'ler ile yüksek kapasiteli QLC sürücüler arasındaki farkları daha iyi anlamak ve tanımlamaktır.Ve her sürücü farklı avantajlar sunuyor.İhtiyaca bağlı olarak.

Test Yapılandırma Matrisi

Aşağıdaki parametrelerin her kombinasyonunu sistematik olarak test platformumuzda bir NVIDIA L4 ile test ettik:

Blok Boyutları: 1M, 128K, 64K, 16K, 8K
İpek Sayısı: 128, 64, 32, 16, 8, 4, 1
İş Sayısı: 16
Parti Boyutları: 16

İlk bakışımız, QLC tabanlı D5-P5336'ya oldu.8K'dan 1M'ye geçiyor.Artmış IO derinliğinin avantajı, iş yüklerinin düzelemeye başladığı 32'de azalmaya başladı.

Daha sonra, Gen5 PS-1010'a bakıyoruz, 1M blok boyutunda 6.2GiB/s'ye kadar ölçeklenebilir ve 128'lik bir IO derinliğine sahip.Özel iş yükleri ile önemli bir yüklenme gösterir128K blok boyutunda önemli bir iyileştirme alanı, 64 ve 128 IO derinliğinde PS1010'un P5336'nın okuma bant genişliğinin iki katını sunduğu 128K blok boyutunda geldi.

Her iki SSD'nin de NVIDIA L4 kullanılarak test edildiğini belirtmek önemlidir. Gen4 D5-P5336 üst ucunda veya yakınında iken,H100 gibi üst model NVIDIA GPU'ları, D7-PS1010 ile daha yüksek bir performans gösterdiBir sürücünün hızı bazı müşteriler için nihai belirleyici faktördür, diğerleri ise genel yoğunluğa öncelik verir.Birbirine bağlıiçin çözümler sunarİkisi de,QLC ve TLC SSD teklifleri.

Sonuçlar

Yapay zeka eğitiminin ölçeği ve karmaşıklığı artmaya devam ettikçe, altta yatan depolama altyapısı sadece hızla devam etmekle kalmamalı, aynı zamanda tempoyu belirlemektedir. Our tests with two distinctly different SSDs highlight the importance of aligning storage solutions with specific training priorities—whether that means minimizing checkpoint latency or maximizing checkpoint density for cost-effective scalability.

Değerlendirmemizde, Solidigm D5-P5336 (61.44TB) ve D7-PS1010 (7.68TB) gerçekçi yapay zeka eğitim koşullarında test ettik.DLIO referans değerini ve kapsamlı bir hibrit paralel LLM kontrol noktası iş akışını kullanmakSürücüleri doldurduğumuzda çoklu test sürümlerinde kontrol noktası yazma performansını yansıtan ölçümleri yakaladık.Gen4 QLC tabanlı D5-P5336 ve Gen5 TLC tabanlı D7-PS1010 arasındaki tamamlama sürelerindeki performans farklılıklarını vurgulayan.

D7-PS1010 mümkün olan en hızlı kontrol noktasını yazdırırken, D5-P5336 sadece mütevazı bir performans ticareti ile ikna edici maliyet etkinliği ve kapasite avantajları gösterdi.Daha sonra bir NVIDIA L4 GPU ile GDSIO kullanarak GPU Doğrudan Depolama (GDS) okuma bant genişliklerini inceledikBulgularımız, Solidigm D5-P5336'nın 1M transfer boyutu ile 4.2GiB/s'ye kadar okuma bant genişliği sağladığını, D7-PS1010'un ise 6.2GiB/s'ye kadar önemli bir yükleme sağladığını gösterdi.Daha güçlü bir GPU kullanıldığında performans daha da etkileyici olur., NVIDIA L40s veya H100/H200 gibi.

Geleceğe bakıldığında, Solidigm D5-P5336 122TB SSD'nin benzeri görülmemiş kapasitesi, yapay zeka eğitimini ve dağıtımını yeniden şekillendirmeye hazır.Bu yüksek kapasiteli sürücüler yeni verimlilik ve esneklik seviyelerini açıyor, daha önce ulaşılamayan eğitim stratejilerini mümkün kılıyor. yüksek kapasiteli SSD çözümlerinde Solidigm'in liderliği, kuruluşların daha az sürücüde daha fazla veri ve kontrol noktası saklamalarını sağlıyor.Bir sonraki AI karmaşıklığı dalgasına karşı altyapılarını geleceğe hazırlamaya yardımcı olurken.

Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Küresel Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com

İş odaklı:
İKT Ürün dağıtım/Sistem entegrasyonu ve hizmetler/altyapı çözümleri
20+ yıllık BT dağıtım deneyimiyle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık kuruyoruz.
Akıllı bir dünya inşa etmek için teknolojiyi kullanmak güvenilir İKT ürün hizmet sağlayıcınız!

PREV: Micron 6550 ION SSD: Tek Sürücüde Gen5 Performansı, Enerji Verimliliği ve Yüksek Kapasite

NEXT: Sıvı Soğutma Veri Merkezinize Geliyor: Dell Tech World Seçenekleri Vurguluyor

İletişim bilgileri

Beijing Qianxing Jietong Technology Co., Ltd.

İlgili kişi: Ms. Sandy Yang

Tel: 13426366826

AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi

Raf Depolama Sunucusu

Huawei Füzyon Sunucusu

Dell Poweredge Sunucu

H3C Sunucusu

Datacom Anahtarları

WLAN Cihazı

Akıllı Kablosuz Yönlendirici

Sabit Disk HDD

Dahili Sabit Disk SSD

Geforce Grafik Kartı

INTEL CPU İşlemci

Sunucu Belleği RAM

Yenilenmiş Depolama Sunucusu

SFP Alıcı-Verici Modülü

fiber kanal anahtarı

AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi

GPUDirect depolama bant genişliği

GPU Doğrudan Depolama Nasıl Çalışır

Test Yapılandırma Matrisi

Sonuçlar

Raf Depolama Sunucusu

12 Bölmeli 1U Raf Tipi Sunucu Lenovo ThinkSystem SR630 Raf Tipi Sunucu

Think System SR250 V2 4SFF Raf Depolama Sunucusu Intel Xeon E-2378G İşlemci

Intel C621A Raf Depolama Sunucusu Inspur NF5180M6 1U Rafa Monte Sunucu

Huawei Füzyon Sunucusu

FusionServer 5288 V6 4U Raf Tipi Sunucu 32 DDR4 DIMM'ler 44 3,5 İnç Sabit Diskler

Ultra Yüksek Yoğunluklu Huawei Fusion Sunucusu 1U Ağ Depolama Sunucusu 1288H V5

Yeni Nesil OceanStor 5310 Huawei Rack Sunucu Hibrit Flaş Depolama