logo
Ana sayfa Davalar

AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi

Sertifika
Çin Beijing Qianxing Jietong Technology Co., Ltd. Sertifikalar
Çin Beijing Qianxing Jietong Technology Co., Ltd. Sertifikalar
Müşteri yorumları
Beijing Qianxing Jietong Technology Co., Ltd'nin satış personeli çok profesyonel ve sabırlıdır. Hızlı bir şekilde teklif verebilirler. Ürünlerin kalitesi ve paketlemesi de çok iyi. İşbirliğimiz çok düzgün.

—— 《Festfing DV》LLC

Acilen intel CPU ve Toshiba SSD ararken, Pekin Qianxing Jietong Technology Co., Ltd'den Sandy bana çok yardım etti ve ihtiyacım olan ürünleri hızla aldı. Onu gerçekten takdir ediyorum.

—— kedi yavrusu

Beijing Qianxing Jietong Technology Co., Ltd'den Sandy, bir sunucu satın aldığımda bana yapılandırma hatalarını zamanında hatırlatabilen çok dikkatli bir satıcıdır. Mühendisler de oldukça profesyonel ve test sürecini hızla tamamlayabiliyorlar.

—— Strelkin Mihail Vladimiroviç

Beijing Qianxing Jietong ile çalışmaktan çok memnunuz. Ürün kalitesi mükemmel ve teslimat her zaman zamanında yapılıyor. Satış ekibi profesyonel, sabırlı ve tüm sorularımızda çok yardımcı oluyor. Destekleri için gerçekten minnettarız ve uzun vadeli bir ortaklık için sabırsızlanıyoruz. Şiddetle tavsiye edilir!

—— Ahmad Navid

MikroTik RB3011 zaten kullanılmıştı, ama çok iyi durumdaydı ve her şey mükemmel şekilde çalışıyor.Ve tüm endişelerim hızlıca ele alındı.- Çok güvenilir bir tedarikçi. - Çok tavsiye ederim.

—— Geran Colesio

Ben sohbet şimdi

AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi

March 13, 2026
Kontrol noktası, AI modeli eğitimi için gereklidir, çünkü esnekliği, operasyonel verimliliği ve kaydedilen durumlardan eğitimi yeniden başlatma veya inceleme yeteneğini sağlar.Günümüzün AI iş yüklerinin talepleri, giderek daha karmaşık modeller ve geniş eğitim veri kümeleri ile karakterize edilir..
 
son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  0
 
Yapay Zeka İş Akışlarındaki Kontrol Noktalarının Rolü
Yapay zekâ eğitiminde kontrol noktası, eğitim döngüsü boyunca bir modelin tam durumunun periyodik olarak kaydedilmesini içeren hayati bir süreçtir.Optimizer durumlarıEğitim sürecinin belirli aralıklarla kapsamlı bir anlık görüntüsü oluşturarak,Kontrol noktası eğitim sürekliliğini garanti eder ve kesinti durumunda iyileşmeyi sağlar.
 
Kontrol noktaları tipik olarak tekrarlama tabanlı aralıklarla (örneğin, her bin eğitim adımı) yakalanır. Modern large language model (LLM) training— which can span weeks or even months and consume massive computational resources—relies heavily on these checkpoints as a safety net against potential failuresÖrneğin, GPT-4 sınıfı bir modeli eğitmek, model boyutuna ve eğitim yapılandırmasına bağlı olarak birkaç yüz gigabayt'tan birden fazla terabayta kadar kontrol noktaları oluşturabilir.
 
son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  1
 
DALL-E tarafından oluşturulan eğitim süreci
Kontrol noktasının temel amacı sadece yedek fonksiyonun ötesinde.Sistem arızası durumlarında sıfırdan yeniden başlamak yerine eğitimin son kaydedilen durumdan devam etmesine izin vermekEk olarak, kontrol noktaları model analizi için çok değerlidir:Araştırmacıların farklı eğitim aşamalarında modelin gelişimini incelemelerini ve performans bozulması tespit edildiğinde potansiyel olarak önceki durumlara geri dönmelerini sağlarlar..
 
Depolama perspektifinden bakıldığında, kontrol noktası sırasında yazma kalıpları özellikle dikkate değer.Bu farklı bir I / O profili oluşturur: Eğitim hesaplamaları sırasında nispeten düşük depolama aktivitesi dönemleri, ardından kontrol noktası sırasında yoğun, geniş bant genişliği yazma işlemleri.Bu yazma işlemleri tipik olarak sıralıdır ve yüksek bant genişliği sıralı yazmalar için optimize edilmiş depolama sistemlerinden önemli ölçüde yararlanabilir..
 
Dağıtılmış eğitimde farklı paralellik stratejileri kontrol noktası davranışında önemli bir etkiye sahip olabilir.Bu stratejiler, eğitim sırasında kontrol noktasının ne zaman gerçekleştiğini ve modelin hangi bölümünün kaydedildiğini etkiler.Modern dağıtılmış eğitim kurulumlarında, birden fazla GPU aynı anda aynı katmanın farklı bölümlerini yazabilir ve karmaşık I/O kalıpları oluşturabilir.Bu paralel yazma yeteneği verimliliğin anahtarıdır, ancak verilerin tutarlılığını korurken eşzamanlı yazma işlemlerini işleyebilen dikkatli bir koordinasyon ve sağlam depolama sistemleri gerektirir.Bu süreçte herhangi bir sıkıntı, eğitim gecikmelerine yol açabilir.
 
Yavaş kontrol noktası, tüm eğitim sürecinin, kontrol noktası depolamaya yazılırken durması gerektiği için önemli eğitim sıkıntıları yaratabilir.Eğer kontrol noktası her birkaç saatte bir 30 dakika sürerse, bu, tüm eğitim dönemi boyunca birikimli birkaç saatlik duraklama süresi ile sonuçlanabilir.Bu, eğitim verimliliğini doğrudan etkiler ve özellikle bilgisayar kaynaklarının saatlik olarak faturalandığı bulut ortamlarında işletme maliyetlerini arttırır..
 
Hızlı kontrol noktası, ekiplerin daha sık kontrol noktaları oluşturmasına da olanak tanır ve arızalar durumunda potansiyel veri kaybını azaltır.Bu, daha agresif eğitim yaklaşımlarını ve daha iyi deneysel tekrarlama döngülerini sağlar.Ayrıca, hızlı kontrol noktası yükleme süreleri, farklı eğitim konfigürasyonları ve model mimarileri ile daha hızlı deney yapmayı kolaylaştırır.Araştırmacılar alternatif yaklaşımları test etmek için önceki durumlardan daha kolay bir şekilde geri alabilirler..
 
Depolama sisteminin bu kontrol noktası operasyonlarını verimli bir şekilde ele alma yeteneği, genel eğitim altyapısında kilit bir faktör haline gelir. High-performance storage solutions that can manage both the burst write patterns of checkpointing and the sustained read/write operations of training can significantly reduce the total time and cost of training large language modelsDolayısıyla, the storage subsystem’s performance characteristics—particularly its ability to handle large sequential writes and maintain consistent high bandwidth—are crucial considerations when designing LLM training infrastructure.
 
Bu rapor için, yapay zeka kontrol noktası için SSD performansını değerlendirmeye çalıştık, kontrol noktası hızı kritik olduğunda en son Gen5 SSD'lerin faydalarını değerlendirdik,Eğitilen model için daha yararlısa çok sayıda kontrol noktası saklayabilen piyasadaki en büyük QLC SSD'lere kıyasla.
 
Kontrol Noktası Performansı DLIO ile Benchmarking
Solidigm SSD'lerinin AI eğitim ortamlarında gerçek dünya performansını değerlendirmek için, Argonne Ulusal Laboratuvarı tarafından geliştirilen Data and Learning Input/Output (DLIO) değerlendirme aracını kullandık.DLIO, derin öğrenme iş yüklerinde I / O kalıplarını test etmek için özel olarak tasarlanmıştır., depolama sistemlerinin kontrol noktalarını, veri alımını ve model eğitimi zorluklarını nasıl ele aldığına dair anlayış sağlar.
 
son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  2
 
DLIO'yu kullanarak, yoğun kontrol noktası senaryoları altında sürücünün verimliliğini, gecikmesini ve güvenilirliğini ölçmeyi amaçladık. Bu test 61.44TB D5-P5336 üzerinde yapılırken,İlk performans verileri, Solidigm D5-P5336 122TB versiyonunun benzer bir performans profili sunduğunu göstermektedir.Bu testte PCIe Gen5'in avantajlarını göstermek için TLC tabanlı bir D7-PS1010'un sonuçlarını da dahil ettik. Kontrol noktalarındaki her iki bakış açısını sergilemek için bu iki sürücüyü seçtik:En hızlı kontrol noktasına odaklanan bir tane, diğeri ise tek bir SSD'ye maksimum sayıda kontrol noktasını depolamak.
 

Bu çalışma için seçilen platform Ubuntu 22 çalışan Dell PowerEdge R760'dı.04.02 LTS. 13 Ağustos 2024 sürümünden itibaren DLIO benchmark sürümü 2.0'yu kullandık. Sistem yapılandırmamız aşağıda belirtilmiştir:

  • 2 x Intel Xeon Gold 6430 (32-Core, 2.1GHz)
  • 16 x 64GB DDR5-4400
  • 480GB Dell BOSS SSD
  • Seri Kablolar Gen5 JBOF
    • 7.68TB Solidigm D7-PS1010
    • 61.44TB Solidigm D5-P5336

Benchmarking'imizin gerçek dünya senaryolarını yansıttığını sağlamak için, testlerimizi LLAMA 3.1 405B model mimarisine dayandırdık, model parametrelerini yakalamak için torch.save (() aracılığıyla kontrol noktasını uyguladık,Optimizer durumlarıKurulumumuz 8 GPU sistemini simüle ederek, 8 GPU'ya dağıtılmış 4 yönlü tensör paralel ve 2 yönlü boru hattı paralel işlemle hibrit paralellik stratejisini uyguladı..Bu yapılandırma, modern büyük dil modeli eğitim gereksinimlerini temsil eden 1.636 GB'lık kontrol noktası boyutlarına yol açtı.

son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  3

DLIO kontrol noktası iş yükü için test sürecimiz, her sürücüyü benzer bir kullanım seviyesine doldurmaktan oluşuyordu. 61.44TB Solidigm D5-P5336 için, her geçiş 33 kontrol noktası aralığı içeriyordu.toplam 54TBDaha küçük 7.68TB D7-PS1010, toplam 4.9TB'lik bir ayak izi ile üç kontrol noktası aralığına rahatlıkla sığar.İstendiğimizden biraz daha yüksek bir kullanım getirdiği halde.

son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  4

Gen4 QLC tabanlı 61.44TB D5-P5536'yı Gen5 TLC tabanlı 7.68TB D7-PS1010'la karşılaştırdığımızda DLIO kontrol noktası iş yükü ilginç sonuçlar verdi.İki SSD modeli arasında daha geniş bir performans farkına tanık oldukDaha hızlı Gen5 PS1010 her kontrol noktasını ortalama 464 saniyede tamamladı, Gen4 P5336'nın 623 saniyesine kıyasla.PS1010 için 579 ve 587 saniyeye ve P5336 için 676 ve 680 saniyeye kadar daraldı..

Kontrol noktası aralıklarında mümkün olan en küçük boşluğa sahip olmak isteyen işletmeler için, TLC tabanlı Gen5 PS1010, en hızlı tamamlama süresinde bir avantaj sunar.Hedef çok sayıda kontrol noktasını uygun maliyetle korumaksaQLC tabanlı Gen4 P5336 bunu yapabilir. İkinci ve üçüncü geçiş sırasında iki sürüş arasında ortalama kontrol noktası zamanlarında %17'den daha az bir fark ölçtük.

GPUDirect depolama bant genişliği

DLIO, bir yapay zeka iş akışında flaş performansı gösterirken, bir kontrol noktası geri yüklenene kadar iş yükü tamamen yazıya dayanır.AI iş yüklerinde Solidigm D7-PS1010 ve D5-P5336'nın daha tam bir resmini çizmek için, GDSIO kullanılarak okuma bant genişliği ölçümlerini dahil ettik.

son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  5
GPU Doğrudan Depolama Nasıl Çalışır

Geleneksel olarak, bir GPU NVMe sürücüsünde depolanan verileri işlediğinde, veriler önce GPU'ya ulaşmadan önce CPU ve sistem belleğinden geçmelidir.CPU bir aracı haline geldiğindeGPU Direct Storage, GPU'nun PCIe otobüsü üzerinden depolama cihazından doğrudan verilere erişmesini sağlayarak bu verimsizliği ortadan kaldırır.Bu doğrudan yol veri hareketi ile ilişkili genel masrafları azaltır, daha hızlı ve daha verimli veri aktarımlarına olanak tanır.

Yapay zeka iş yükleri, özellikle derin öğrenme içerenler çok veri yoğunluğundadır.ve veri aktarımında herhangi bir gecikme, yetersiz GPU'lara ve daha uzun eğitim sürelerine yol açabilir.. GPU Direkt Depolama, verilerin GPU'ya mümkün olduğunca hızlı bir şekilde teslim edilmesini sağlayarak, dinlenme süresini en aza indirerek ve hesaplama verimliliğini en üst düzeye çıkararak bu zorluğu ele alır.

Tıpkı DLIO testi gibi, amacımız da yüksek hızlı 5. nesil SSD'ler ile yüksek kapasiteli QLC sürücüler arasındaki farkları daha iyi anlamak ve tanımlamaktır.Ve her sürücü farklı avantajlar sunuyor.İhtiyaca bağlı olarak.

Test Yapılandırma Matrisi

Aşağıdaki parametrelerin her kombinasyonunu sistematik olarak test platformumuzda bir NVIDIA L4 ile test ettik:

  • Blok Boyutları: 1M, 128K, 64K, 16K, 8K
  • İpek Sayısı: 128, 64, 32, 16, 8, 4, 1
  • İş Sayısı: 16
  • Parti Boyutları: 16

İlk bakışımız, QLC tabanlı D5-P5336'ya oldu.8K'dan 1M'ye geçiyor.Artmış IO derinliğinin avantajı, iş yüklerinin düzelemeye başladığı 32'de azalmaya başladı.

son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  6

Daha sonra, Gen5 PS-1010'a bakıyoruz, 1M blok boyutunda 6.2GiB/s'ye kadar ölçeklenebilir ve 128'lik bir IO derinliğine sahip.Özel iş yükleri ile önemli bir yüklenme gösterir128K blok boyutunda önemli bir iyileştirme alanı, 64 ve 128 IO derinliğinde PS1010'un P5336'nın okuma bant genişliğinin iki katını sunduğu 128K blok boyutunda geldi.

son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  7

Her iki SSD'nin de NVIDIA L4 kullanılarak test edildiğini belirtmek önemlidir. Gen4 D5-P5336 üst ucunda veya yakınında iken,H100 gibi üst model NVIDIA GPU'ları, D7-PS1010 ile daha yüksek bir performans gösterdiBir sürücünün hızı bazı müşteriler için nihai belirleyici faktördür, diğerleri ise genel yoğunluğa öncelik verir.Birbirine bağlıiçin çözümler sunarİkisi de,QLC ve TLC SSD teklifleri.

Sonuçlar

Yapay zeka eğitiminin ölçeği ve karmaşıklığı artmaya devam ettikçe, altta yatan depolama altyapısı sadece hızla devam etmekle kalmamalı, aynı zamanda tempoyu belirlemektedir. Our tests with two distinctly different SSDs highlight the importance of aligning storage solutions with specific training priorities—whether that means minimizing checkpoint latency or maximizing checkpoint density for cost-effective scalability.
 
Değerlendirmemizde, Solidigm D5-P5336 (61.44TB) ve D7-PS1010 (7.68TB) gerçekçi yapay zeka eğitim koşullarında test ettik.DLIO referans değerini ve kapsamlı bir hibrit paralel LLM kontrol noktası iş akışını kullanmakSürücüleri doldurduğumuzda çoklu test sürümlerinde kontrol noktası yazma performansını yansıtan ölçümleri yakaladık.Gen4 QLC tabanlı D5-P5336 ve Gen5 TLC tabanlı D7-PS1010 arasındaki tamamlama sürelerindeki performans farklılıklarını vurgulayan.
 
son şirket davası hakkında AI Kontrol Noktalarını Ölçeklendirme: Yüksek Kapasiteli SSD'lerin Model Eğitimi üzerindeki Etkisi  8
 
D7-PS1010 mümkün olan en hızlı kontrol noktasını yazdırırken, D5-P5336 sadece mütevazı bir performans ticareti ile ikna edici maliyet etkinliği ve kapasite avantajları gösterdi.Daha sonra bir NVIDIA L4 GPU ile GDSIO kullanarak GPU Doğrudan Depolama (GDS) okuma bant genişliklerini inceledikBulgularımız, Solidigm D5-P5336'nın 1M transfer boyutu ile 4.2GiB/s'ye kadar okuma bant genişliği sağladığını, D7-PS1010'un ise 6.2GiB/s'ye kadar önemli bir yükleme sağladığını gösterdi.Daha güçlü bir GPU kullanıldığında performans daha da etkileyici olur., NVIDIA L40s veya H100/H200 gibi.
 
Geleceğe bakıldığında, Solidigm D5-P5336 122TB SSD'nin benzeri görülmemiş kapasitesi, yapay zeka eğitimini ve dağıtımını yeniden şekillendirmeye hazır.Bu yüksek kapasiteli sürücüler yeni verimlilik ve esneklik seviyelerini açıyor, daha önce ulaşılamayan eğitim stratejilerini mümkün kılıyor. yüksek kapasiteli SSD çözümlerinde Solidigm'in liderliği, kuruluşların daha az sürücüde daha fazla veri ve kontrol noktası saklamalarını sağlıyor.Bir sonraki AI karmaşıklığı dalgasına karşı altyapılarını geleceğe hazırlamaya yardımcı olurken.
 
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Küresel Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com

İş odaklı:
İKT Ürün dağıtım/Sistem entegrasyonu ve hizmetler/altyapı çözümleri
20+ yıllık BT dağıtım deneyimiyle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık kuruyoruz.
Akıllı bir dünya inşa etmek için teknolojiyi kullanmak güvenilir İKT ürün hizmet sağlayıcınız!
İletişim bilgileri
Beijing Qianxing Jietong Technology Co., Ltd.

İlgili kişi: Ms. Sandy Yang

Tel: 13426366826

Sorgunuzu doğrudan bize gönderin (0 / 3000)