Google, Google Cloud Next'te sekizinci nesil AI hızlandırıcılarını tanıttı: eğitim için TPU v8t "Sunfish" ve çıkarım için TPU v8i "Zebrafish" ile yeni Virgo veri merkezi yapısı. Ajansal yapay zeka çağı için özel olarak tasarlanan bu çipler, büyük uzman karışımı (MoE) model eğitimi ve uygun maliyetli fiyatlandırma ile düşük gecikme süreli token hizmeti için optimize edilmiştir. Aynı ana bilgisayar platformunu ve ara bağlantı yapısını paylaşan v8t ve v8i, bellek, SRAM, topoloji ve donanım uzmanlığı açısından farklılık gösterir.
Bir v8t süperpod, 2 PB HBM ile 9.600 yongayı destekler ve 121 EFLOPS FP4 bilgi işlem sunar; bu, önceki Ironwood neslinin performansını neredeyse üç katına çıkarır. v8i, 288 GB HBM ve 384 MB çip üzerinde SRAM ile 1.152 çipe ölçeklenebilir ve Ironwood'a göre %80 daha iyi çıkarım maliyet verimliliği sunar. Virgo yapısı, 134.000'den fazla v8t yongasını birbirine bağlayarak, hızlandırıcı başına 4 kat daha yüksek verim ve %40 daha düşük gecikme süresiyle 47 Pb/sn engellemesiz bant genişliği sağlar.
Temel TPU Mimarisi ile GPU Karşılaştırması
TPU'lar, büyük matris çarpma birimleri (MXU'lar), yazılımla yönetilen SRAM ve önceden derleme ile karakterize edilen özel ASIC'lerdir. GPU'nun dinamik küçük çekirdek planlamasından farklı olarak TPU'lar, yoğun matris iş yüklerinde daha yüksek FLOPS kullanımı için önbellek titreşimini ve çarpıtma planlama yükünü ortadan kaldıran sistolik dizilerle deterministik veri akışı özelliğine sahiptir. Ancak TPU'lar dinamik şekillerle, düzensiz seyreklikle ve karmaşık grafik ağlarıyla mücadele ederken aynı zamanda JAX ve XLA'nın hakim olduğu daha dar yazılım ekosistemi desteği de sunuyor.
Seyreklik desteğindeki yapısal farklılık, TPU'ları ve GPU'ları açıkça birbirinden ayırıyor. NVIDIA Tensör Çekirdekleri, talimat düzeyinde sıkıştırma yoluyla 2:4 yapılandırılmış seyrekliği doğal olarak destekler. Buna karşılık, TPU sistolik dizileri katı bir kilit adımında çalışır ve boru hattı duraklamaları veya ekstra dekompresyon donanımı olmadan sıfır atlamayı verimsiz hale getirir. AWS Trainium2, dizi verimini korumak için özel seyrek sıkıştırıcılara sahip bir orta yolu benimser.
TPU'lar, tabloların yerleştirilmesi ve MoE yönlendirmesi için düzensiz toplama-dağıtım görevlerini yerine getirmek üzere SparseCores'u entegre eder. Bu uzmanlaşmış çekirdekler, standart MXU'ların verimli bir şekilde işleyemediği öneri iş yüklerini ve uzman token gönderimini kapsayarak sıralama, permütasyon ve veri yeniden düzenleme konusunda uzmandır.
TPU v8t “Güneş Balığı”: Eğitim Hızlandırıcı
V8t eğitim çipi 216 GB HBM3e bellek ve 128 MB SRAM ile donatılmıştır. Yerel FP4 hassasiyeti, tek çipli hesaplamayı 12,6 PFLOPS'a çıkararak döngü başına verimi iki katına çıkarır. Büyük ölçekli eğitimlerde halka tabanlı kolektif iletişimler için ideal olan 3D torus ara bağlantısını ve yükseltilmiş 19,2 Tb/s ICI bant genişliğini korur.
Devralınan SparseCore'lar MoE'nin düzensiz hepsine veri aktarımını optimize eder. İki kritik yükseltme, büyük ölçekli darboğazları ortadan kaldırır: TPUDirect RDMA ve TPUDirect Depolama, doğrudan TPU bellek erişimini etkinleştirmek için ana bilgisayar CPU'sunu atlayarak 10 kat daha hızlı I/O verimi sağlar. Ek olarak v8t, ana bilgisayar işlemcileri olarak Google'ın Arm tabanlı Axion CPU'larını benimseyerek ana bilgisayar titreşimini izole eder ve senkronize çoklu çip eğitimi için ön işleme kararlılığını artırır.
TPU v8i “Zebrafish”: Çıkarım Hızlandırıcı
Bellek bant genişliğine bağlı çıkarım iş yükleri için tasarlanan v8i, düşük gecikme süreli jeton oluşturmaya öncelik verir. Çip üzerinde KV önbelleğini önbelleğe almak ve tekrarlanan HBM okumayı azaltmak için Ironwood'un üç katı olan 384 MB SRAM'e sahiptir. İki TensorCore ve 288 GB HBM3e ile 10,1 PFLOPS FP4 bilgi işlemine ulaşır ve daha yüksek sürekli kullanım için kısa toplu çıkarım görevlerini üst üste getirir.
SparseCores'un yerini alan özel Collectives Acceleration Engine (CAE), çip üzerinde senkronizasyon gecikmesini 5 kata kadar azaltarak sık sık yapılan küçük toplu toplu işlemleri optimize eder. v8i, Dragonfly tabanlı Boardfly topolojisi için 3D torus'u terk ederek maksimum çipten çipe atlama sayısını 16'dan 7'ye düşürür ve MoE'nin hepsine gecikmesini %50 azaltır.
Başak ve Jüpiter Yapı Hiyerarşisi
Başak, doğu-batı yapay zeka trafiği için aşırı aboneliği ortadan kaldırmak üzere iki katmanlı, engellemeyen bir mimariyi benimseyerek veri merkezi içi ölçeklendirme yapısı olarak hizmet eder. MEMS optik anahtarlarla desteklenen bu cihaz, milisaniye düzeyinde arıza yeniden yönlendirmeye olanak tanır ve v8t süperpodları için %97 iyi çıktı sağlar. Google'ın uzun mesafeli çapraz veri merkezleri yapısı Jüpiter ile birlikte katmanlı ara bağlantı sistemi, toplam 1,7 ZFLOPS FP4 hesaplamalı tek bir mantıksal kümede bir milyonun üzerinde TPU yongasını destekler.
Performans, TCO ve Pazar Konumu
Yüksek verim ve istikrarlı Model FLOP Kullanımı (MFU), TPU'lara etkileyici maliyet avantajları sağlar. %40 MFU'da TPU eğitim maliyetleri NVIDIA GB300'e göre %62 daha düşüktür. Donanım karşılaştırmasında, v8t yoğun FP4 performansı GB200 ile GB300 arasında yer alırken Google, NVIDIA'nın 72 GPU'lu NVLink alanını çok aşan 9.600 çipli tek bölmeyle büyük ölçekli kümelemeye hakim durumda.
İleriye baktığımızda, NVIDIA Vera Rubin, Rubin Ultra ve Kyber, TPU'nun 2026'dan 2027'ye kadar olan performans farkını daraltacak. TPU'nun zayıf yönleri arasında çip başına daha küçük HBM, eksik donanım seyrekliği ve sınırlı ekosistem uyumluluğu yer alıyor. Bununla birlikte Google, MoE iş yükleri için büyük kümeleme, deterministik gecikme ve maliyet verimliliği konularındaki gücünü koruyor.
Google, hem TPU hem de NVIDIA GPU altyapısını genişletiyor. Meta, 2027'den itibaren milyarlarca dolarlık bir TPU benimseme anlaşması planlıyor. Ajans çağı için optimize edilmiş bir çift çip nesli olan TPU v8, Google'ın, büyük ölçekli yapay zeka dağıtımında NVIDIA Grace-Blackwell'e karşı rekabet gücünü güvence altına alıyor.
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Küresel Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web sitesi: www.qianxingdata.com/www.storagesserver.com
İş Odağı:
BİT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimimizle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık yapıyoruz.
“Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak”Güvenilir BİT Ürün Servis Sağlayıcınız!
Sandy Yang/Küresel Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web sitesi: www.qianxingdata.com/www.storagesserver.com
İş Odağı:
BİT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimimizle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık yapıyoruz.
“Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak”Güvenilir BİT Ürün Servis Sağlayıcınız!



