| NVIDIA L4 Özellikleri | |
|---|---|
| FP 32 | 30.3 teraFLOPs |
| TF32 Tensor Çekirdeği | 60 teraFLOPs |
| FP16 Tensor Çekirdeği | 121 teraFLOPs |
| BFLOAT16 Tensor Çekirdeği | 121 teraFLOPs |
| FP8 Tensor Çekirdeği | 242.5 teraFLOPs |
| INT8 Tensor Çekirdeği | 242.5 TOPs |
| GPU Belleği | 24GB GDDR6 |
| GPU Bellek Bant Genişliği | 300GB/s |
| Maksimum Termal Tasarım Gücü (TDP) | 72W |
| Form Faktörü | 1 yuvalı düşük profilli PCIe |
| Ara Bağlantı | PCIe Gen4 x16 |
| Özellik Tablosu | L4 |
Elbette, L4'ün fiyatı yaklaşık 2500 dolar civarında, A2'nin yarı fiyatına ve eski (ancak hala oldukça yetenekli) T4'ün kullanılmış olarak 1000 doların altında bulunmasıyla, bu üç çıkarım GPU'su arasındaki fark nedir sorusu ortadadır.
| NVIDIA L4, A2 ve T4 Özellikleri | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30.3 teraFLOPs | 4.5 teraFLOPs | 8.1 teraFLOPs |
| TF32 Tensor Çekirdeği | 60 teraFLOPs | 9 teraFLOPs | N/A |
| FP16 Tensor Çekirdeği | 121 teraFLOPs | 18 teraFLOPs | N/A |
| BFLOAT16 Tensor Çekirdeği | 121 teraFLOPs | 18 teraFLOPs | N/A |
| FP8 Tensor Çekirdeği | 242.5 teraFLOPs | N/A | N/A |
| INT8 Tensor Çekirdeği | 242.5 TOPs | 36 TOPS | 130 TOPS |
| GPU Belleği | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
| GPU Bellek Bant Genişliği | 300GB/s | 200GB/s | 320+ GB/s |
| Maksimum Termal Tasarım Gücü (TDP) | 72W | 40-60W | 70W |
| Form Faktörü | 1 yuvalı düşük profilli PCIe | ||
| Ara Bağlantı | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Özellik Tablosu | L4 | A2 | T4 |
Bu üç kartı incelerken anlaşılması gereken bir şey, bunların tam olarak nesilden nesile birebir değiştirmeler olmadığıdır; bu da T4'ün yıllar sonra bile bazı kullanım durumları için popüler bir seçim olmaya devam etmesini açıklar. A2, düşük güç tüketimi ve daha uyumlu (x8'e karşı x16 mekanik) bir seçenek olarak T4'ün yerine çıktı. Teknik olarak L4, T4'ün yerine geçerken, A2 gelecekte güncellenebilecek veya güncellenmeyebilecek bir ara konumu doldurur.
MLPerf Çıkarım 3.1 Performansı
MLPerf, adil ve ilgili YZ donanım ve yazılım kıyaslamaları sağlamak üzere kurulan akademi, araştırma ve endüstri liderlerinden oluşan bir YZ konsorsiyumudur. Bu kıyaslamalar, makine öğrenimi donanım, yazılım ve hizmetlerinin çeşitli görevler ve senaryolardaki performansını ölçmek için tasarlanmıştır.
Testlerimiz iki özel MLPerf kıyaslamasına odaklanıyor: Resnet50 ve BERT.
- Resnet50: Görüntü sınıflandırması için öncelikli olarak kullanılan bir evrişimli sinir ağıdır. Bir sistemin görüntü işleme ile ilgili derin öğrenme görevlerini ne kadar iyi yerine getirebileceğinin iyi bir göstergesidir.
- BERT (Çift Yönlü Dönüştürücü Temsilleri): Bu kıyaslama, doğal dil işleme görevlerine odaklanır ve bir sistemin insan dilini anlama ve işleme performansına ilişkin bilgiler sunar.
Her iki test de YZ donanımının görüntü ve dil işleme içeren gerçek dünya senaryolarındaki yeteneklerini değerlendirmek için kritik öneme sahiptir.
NVIDIA L4'ü bu kıyaslamalarla değerlendirmek, L4 GPU'nun belirli YZ görevlerindeki yeteneklerini anlamaya yardımcı olmak için kritiktir. Ayrıca, farklı yapılandırmaların (tekli, ikili ve dörtlü kurulumlar) performansı nasıl etkilediğine dair bilgiler sunar. Bu bilgi, YZ altyapılarını optimize etmek isteyen profesyoneller ve kuruluşlar için hayati önem taşır.
Modeller iki ana modda çalıştırılır: Sunucu ve Çevrimdışı.
- Çevrimdışı Mod: Bu mod, tüm verilerin aynı anda işlenmeye hazır olduğu durumlarda bir sistemin performansını ölçer. Sistem büyük bir veri kümesini tek bir yığın halinde işlediğinde, yığın işleme gibidir. Çevrimdışı mod, gecikmenin birincil endişe olmadığı ancak verimliliğin ve etkinliğin önemli olduğu senaryolar için kritiktir.
- Sunucu Modu: Buna karşılık, sunucu modu, isteklerin tek tek geldiği gerçek dünya sunucu ortamını taklit eden bir senaryoda sistemin performansını değerlendirir. Bu mod gecikmeye duyarlıdır ve sistemin her isteğe ne kadar hızlı yanıt verebildiğini ölçer. Web sunucuları veya etkileşimli uygulamalar gibi anında yanıtın gerekli olduğu gerçek zamanlı uygulamalar için esastır.
1 x NVIDIA L4 – Dell PowerEdge XR7620
Tek bir NVIDIA L4 ile donatılmış Dell PowerEdge XR7620'nin yakın zamanda yapılan incelememizin bir parçası olarak, MLPerf dahil olmak üzere çeşitli görevleri çalıştırmak için kenara taşıdık.
Test sistemimizin yapılandırması aşağıdaki bileşenleri içeriyordu:
- 2 x Xeon Gold 6426Y – 16 çekirdekli 2.5GHz
- 1 x NVIDIA L4
- 8 x 16GB DDR5
- 480GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA Sürücüsü 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Puan |
|---|---|
| Resnet50 – Sunucu | 12.204,40 |
| Resnet50 – Çevrimdışı | 13.010,20 |
| BERT K99 – Sunucu | 898,945 |
| BERT K99 – Çevrimdışı | 973,435 |
Resnet50 ve BERT K99 için sunucu ve çevrimdışı senaryolardaki performans neredeyse aynıdır, bu da L4'ün farklı sunucu modellerinde tutarlı performans gösterdiğini göstermektedir.
1, 2 ve 4 NVIDIA L4 – Dell PowerEdge T560
İnceleme birimimizin yapılandırması aşağıdaki bileşenleri içeriyordu:
- 2 x Intel Xeon Gold 6448Y (her biri 32 çekirdekli/64 iş parçacıklı, 225 watt TDP, 2.1-4.1GHz)
- 8 x 1.6TB Solidigm P5520 SSD'ler PERC 12 RAID kartı ile
- 1-4x NVIDIA L4 GPU
- 8 x 64GB RDIMM
- Ubuntu Server 22.04
- NVIDIA Sürücüsü 535
| Dell PowerEdge T560 1x NVIDIA L4 | Puan |
|---|---|
| Resnet50 – Sunucu | 12.204,40 |
| Resnet50 – Çevrimdışı | 12.872,10 |
| Bert K99 – Sunucu | 898,945 |
| Bert K99 – Çevrimdışı | 945,146 |
Dell T560'ta iki L4 ile yaptığımız testlerde, hem Resnet50 hem de BERT K99 kıyaslamaları için bu neredeyse doğrusal ölçeklenmeyi gözlemledik. Bu ölçeklenme, L4 GPU'larının verimliliğinin ve önemli kayıplar olmadan birlikte çalışabilme yeteneklerinin bir kanıtıdır.
| Dell PowerEdge T560 2x NVIDIA L4 | Puan |
|---|---|
| Resnet50 – Sunucu | 24.407,50 |
| Resnet50 – Çevrimdışı | 25.463,20 |
| BERT K99 – Sunucu | 1.801,28 |
| BERT K99 – Çevrimdışı | 1.904,10 |
İki NVIDIA L4 GPU ile tanık olduğumuz tutarlı doğrusal ölçeklenme, dört L4 birimi içeren yapılandırmalara etkileyici bir şekilde devam eder. Bu ölçeklenme, paralel işlem ve kaynak yönetimi karmaşıklığı nedeniyle eklenen her GPU ile doğrusal performans artışlarını sürdürmenin giderek zorlaştığı göz önüne alındığında özellikle dikkat çekicidir.
| Dell PowerEdge T560 4x NVIDIA L4 | Puan |
|---|---|
| Resnet50 – Sunucu | 48.818,30 |
| Resnet50 – Çevrimdışı | 51.381,70 |
| BERT K99 – Sunucu | 3.604,96 |
| BERT K99 – Çevrimdışı | 3.821,46 |
Bu sonuçlar yalnızca açıklama amaçlıdır ve rekabetçi veya resmi MLPerf sonuçları değildir. Tam resmi sonuçlar listesi için lütfen MLPerf Sonuçlar Sayfasını ziyaret edin.
NVIDIA L4 GPU'larının doğrusal ölçeklenebilirliğini doğrulamanın yanı sıra, laboratuvardaki testlerimiz bu birimleri farklı operasyonel senaryolarda dağıtmanın pratik sonuçlarına ışık tuttu. Örneğin, L4 GPU'ları ile tüm yapılandırmalarda sunucu ve çevrimdışı modlar arasındaki performans tutarlılığı, güvenilirliklerini ve çok yönlülüklerini ortaya koymaktadır.
Bu yön, operasyonel bağlamların önemli ölçüde farklılık gösterdiği işletmeler ve araştırma kurumları için özellikle önemlidir. Dahası, ara bağlantı darboğazlarının minimum etkisine ve çoklu GPU kurulumlarında GPU senkronizasyonunun verimliliğine ilişkin gözlemlerimiz, YZ altyapılarını ölçeklendirmek isteyenler için değerli bilgiler sunmaktadır. Bu bilgiler, yalnızca kıyaslama sayılarının ötesine geçerek, bu tür donanımların gerçek dünya senaryolarında nasıl en iyi şekilde kullanılabileceğine dair daha derin bir anlayış sunarak, YZ ve HPC altyapısında daha iyi mimari kararlar ve yatırım stratejileri yönlendirmektedir.
NVIDIA L4 – Uygulama Performansı
Yeni NVIDIA L4'ün performansını, ondan önce gelen NVIDIA A2 ve NVIDIA T4 ile karşılaştırdık. Geçmiş modellere göre bu performans yükseltmesini göstermek için, laboratuvarımızdaki bir sunucuya, Windows Server 2022 ve en son NVIDIA sürücüleriyle, tüm GPU test paketimizden yararlanarak üç modeli de kurduk.
Bu kartlar aşağıdaki yapılandırmaya sahip bir Dell Poweredge R760 üzerinde test edildi:
- 2 x Intel Xeon Gold 6430 (32 Çekirdek, 2.1GHz)
- Windows Server 2022
- NVIDIA Sürücüsü 538.15
- 1x örnekleme için tüm kartlarda ECC devre dışı
Bu üç kurumsal GPU grubundaki performans testlerine başlarken, önceki A2 ve T4 modelleri arasındaki benzersiz performans farklılıklarını belirtmek önemlidir. A2 piyasaya sürüldüğünde, daha düşük güç tüketimi ve daha küçük bir PCIe Gen4 x8 yuvasında çalışması gibi bazı dikkat çekici iyileştirmeler sundu; eski T4'ün gerektirdiği daha büyük PCIe Gen3 x16 yuvası yerine. Başlangıçta, özellikle daha küçük form faktörü ihtiyacı olan daha fazla sisteme takılmasını sağladı.
Blender OptiX 4.0
Blender OptiX, açık kaynaklı bir 3D modelleme uygulamasıdır. Bu test hem CPU hem de GPU için çalıştırılabilir, ancak burada diğer testlerin çoğu gibi yalnızca GPU'yu kullandık. Bu kıyaslama, Blender Benchmark CLI yardımcı programı kullanılarak çalıştırıldı. Puan, dakika başına örnek sayısıdır ve daha yüksek daha iyidir.
| Blender 4.0 (Daha Yüksek Daha İyidir) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – Monster | 2.207,765 | 458,692 | 850,076 |
| GPU Blender CLI – Junkshop | 1.127,829 | 292,553 | 517,243 |
| GPU Blender CLI – Classroom | 1.111,753 | 262,387 | 478,786 |
Blackmagic RAW Hız Testi
CPU'ları ve GPU'ları, video oynatma hızlarını test eden Blackmagic'in RAW Hız Testi ile test ediyoruz. Bu, gerçek dünya RAW kod çözme için CPU ve GPU performansını içeren hibrit bir testtir. Bunlar ayrı sonuçlar olarak görüntülenir, ancak burada yalnızca GPU'lara odaklandığımız için CPU sonuçları atlanmıştır.
| Blackmagic RAW Hız Testi (Daha Yüksek Daha İyidir) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon'un Cinebench 2024'ü, tüm CPU çekirdeklerini ve iş parçacıklarını kullanan bir CPU ve GPU oluşturma kıyaslamasıdır. Yine GPU sonuçlarına odaklandığımız için testin CPU bölümlerini çalıştırmadık. Daha Yüksek Puanlar Daha İyidir.
| Cinebench 2024 (Daha Yüksek Daha İyidir) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15.263 | 4.006 | 5.644 |
GPU PI
GPUPI 3.3.3, GPU'lar ve CPU'lar aracılığıyla donanım hızlandırmayı kullanarak milyarlarca ondalık basamağa kadar π (pi) hesaplamak için tasarlanmış hafif kıyaslama yardımcı programının bir sürümüdür. Hem merkezi hem de grafik işlem birimlerini içeren OpenCL ve CUDA'nın hesaplama gücünden yararlanır. Üç GPU'da da yalnızca CUDA'yı çalıştırdık ve buradaki sayılar, azaltma süresi eklenmemiş hesaplama süresidir. Daha Düşük Daha İyidir.
| GPU PI Hesaplama Süresi saniye cinsinden (Daha Düşük Daha İyidir) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3.732s | 19.799s | 7.504s |
| GPUPI v3.3 – 32B | 244.380s | 1.210.801s | 486.231s |
Önceki sonuçlar yalnızca kartların tek bir yinelemesine bakarken, Dell PowerEdge T560 içinde 5x NVIDIA L4 dağıtımına da bakma şansımız oldu.
| GPU PI Hesaplama Süresi saniye cinsinden (Daha Düşük Daha İyidir) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) 5x NVIDIA L4 ile |
|---|---|
| GPUPI v3.3 – 1B | 0sn 850ms |
| GPUPI v3.3 – 32B | 50sn 361ms |
Octanebench
OctaneBench, V-Ray'e benzer RTX desteğine sahip başka bir 3D oluşturucu olan OctaneRender için bir kıyaslama yardımcı programıdır.
| Octane (Daha Yüksek Daha İyidir) | ||||
| Sahne | Çekirdek | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| İç Mekan | Bilgi kanalları | 15.59 | 4.49 | 6.39 |
| Doğrudan aydınlatma | 50.85 | 14.32 | 21.76 | |
| Yol izleme | 64.02 | 18.46 | 25.76 | |
| Fikir | Bilgi kanalları | 9.30 | 2.77 | 3.93 |
| Doğrudan aydınlatma | 39.34 | 11.53 | 16.79 | |
| Yol izleme | 48.24 | 14.21 | 20.32 | |
| ATV | Bilgi kanalları | 24.38 | 6.83 | 9.50 |
| Doğrudan aydınlatma | 54.86 | 16.05 | 21.98 | |
| Yol izleme | 68.98 | 20.06 | 27.50 | |
| Kutu | Bilgi kanalları | 12.89 | 3.88 | 5.42 |
| Doğrudan aydınlatma | 48.80 | 14.59 | 21.36 | |
| Yol izleme | 54.56 | 16.51 | 23.85 | |
| Toplam Puan | 491.83 | 143.71 | 204.56 | |
Geekbench 6 GPU
Geekbench 6, genel sistem performansını ölçen platformlar arası bir kıyaslamadır. Hem CPU hem de GPU kıyaslamaları için test seçenekleri vardır. Daha Yüksek Puanlar Daha İyidir. Yine yalnızca GPU sonuçlarına baktık.
İstediğiniz herhangi bir sistemle karşılaştırmaları Geekbench Tarayıcısı'nda bulabilirsiniz.
| Geekbench 6.1.0 (Daha Yüksek Daha İyidir) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156.224 | 35.835 | 83.046 |
Luxmark
LuxMark, açık kaynaklı 3D oluşturma motoru LuxRender'ı yönetenler tarafından geliştirilen, platformlar arası bir OpenCL kıyaslama aracıdır. Bu araç, 3D modelleme, aydınlatma ve video çalışmalarında GPU performansını inceler. Bu inceleme için en yeni sürüm olan v4alpha0'ı kullandık. LuxMark'ta puan söz konusu olduğunda daha yüksek daha iyidir.
| Luxmark v4.0alpha0 OpenCL GPU'ları (Daha Yüksek Daha İyidir) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Salon Bench | 14.328 | 3.759 | 5.893 |
| Yemek Bench | 5.330 | 1.258 | 2.033 |
GROMACS CUDA
Ayrıca, özellikle CUDA için derlenmiş bir moleküler dinamik yazılımı olan GROMACS'ı da temin ettik. Bu özel derleme, hesaplama simülasyonlarını hızlandırmak için gerekli olan 5 NVIDIA L4 GPU'nun paralel işleme yeteneklerinden yararlanmak içindi.
Süreç, NVIDIA'nın CUDA derleyicisi nvcc'nin yanı sıra, ikili dosyaların sunucunun mimarisine uygun şekilde ayarlanmasını sağlamak için uygun optimizasyon bayraklarının birçok yinelemesini içeriyordu. GROMACS derlemesine CUDA desteğinin dahil edilmesi, yazılımın GPU donanımıyla doğrudan etkileşim kurmasını sağlar, bu da karmaşık simülasyonlar için hesaplama sürelerini önemli ölçüde iyileştirebilir.
Test: Gromacs'ta Özel Protein Etkileşimi
Çeşitli Discord topluluğumuzdan, belirli bir protein etkileşimi çalışması için özel olarak ayarlanmış parametreler ve yapılar içeren topluluk tarafından sağlanan bir girdi dosyası kullanarak, bir moleküler dinamik simülasyonu başlattık. Sonuçlar dikkat çekiciydi—sistem günde 170.268 nanosaniye simülasyon hızına ulaştı.
| GPU | Sistem | ns/gün | çekirdek süresi (s) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163.763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209.692,3 |
| 5x NVIDIA L4 | Dell T560 w/ 2x Intel Xeon Gold 6448Y | 170.268 | 608.912,7 |
Daha Fazla Yapay Zeka
Sandy Yang/Global Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web Sitesi: www.qianxingdata.com/www.storagesserver.com
İş Odak Noktası:
BT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimiyle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık yapıyoruz.
"Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak" Güvenilir BT Ürün Hizmet Sağlayıcınız!



