logo
Ana sayfa Haberler

hakkında şirket haberleri Lightbits ve ScaleFlux, KV Önbelleği hızlandırmasında 100x ila 280x gösterdi

Sertifika
Çin Beijing Qianxing Jietong Technology Co., Ltd. Sertifikalar
Çin Beijing Qianxing Jietong Technology Co., Ltd. Sertifikalar
Müşteri yorumları
Beijing Qianxing Jietong Technology Co., Ltd'nin satış personeli çok profesyonel ve sabırlıdır. Hızlı bir şekilde teklif verebilirler. Ürünlerin kalitesi ve paketlemesi de çok iyi. İşbirliğimiz çok düzgün.

—— 《Festfing DV》LLC

Acilen intel CPU ve Toshiba SSD ararken, Pekin Qianxing Jietong Technology Co., Ltd'den Sandy bana çok yardım etti ve ihtiyacım olan ürünleri hızla aldı. Onu gerçekten takdir ediyorum.

—— kedi yavrusu

Beijing Qianxing Jietong Technology Co., Ltd'den Sandy, bir sunucu satın aldığımda bana yapılandırma hatalarını zamanında hatırlatabilen çok dikkatli bir satıcıdır. Mühendisler de oldukça profesyonel ve test sürecini hızla tamamlayabiliyorlar.

—— Strelkin Mihail Vladimiroviç

Beijing Qianxing Jietong ile çalışmaktan çok memnunuz. Ürün kalitesi mükemmel ve teslimat her zaman zamanında yapılıyor. Satış ekibi profesyonel, sabırlı ve tüm sorularımızda çok yardımcı oluyor. Destekleri için gerçekten minnettarız ve uzun vadeli bir ortaklık için sabırsızlanıyoruz. Şiddetle tavsiye edilir!

—— Ahmad Navid

MikroTik RB3011 zaten kullanılmıştı, ama çok iyi durumdaydı ve her şey mükemmel şekilde çalışıyor.Ve tüm endişelerim hızlıca ele alındı.- Çok güvenilir bir tedarikçi. - Çok tavsiye ederim.

—— Geran Colesio

Ben sohbet şimdi
şirket Haberler
Lightbits ve ScaleFlux, KV Önbelleği hızlandırmasında 100x ila 280x gösterdi
Lightbits Labs ve ScaleFlux, LightInferra önbellek yazılımını kullanarak ScaleFlux hesaplamalı depolama SSD'lerinden veri okuyarak KV önbellek iş yükleri için 100 ila 280 kat performans artışı elde etti.

İki şirket, FarmGPU veri merkezi ortamında konuşlandırılan GPU'lara KV önbellek verileri sağladı ve bu atılımı Nvidia'nın yaklaşan GTC konferansında sergileyecek. KV önbelleği, token vektörlerini bir GPU'nun yüksek bant genişlikli belleğinde (HBM) depolar. HBM kapasitesi tükendiğinde, KV önbellek veri bloklarının yeniden hesaplanması gerekir - bu işlem zaman alır ve yapay zeka eğitim ve çıkarım hızlarını düşürür. Yapay zeka iş yükleri ölçeklendikçe ve vektör üretmek için kullanılan token sayısı keskin bir şekilde arttıkça bu yavaşlama özellikle belirgin hale gelir.

KV önbellek yazılımı, önbellek katmanını mantıksal olarak dışarı doğru genişletir: önce x86 CPU'ya ve GPU sunucusundaki DRAM'ine, ardından aynı x86 sistemindeki yerel NVMe sürücülerine ve daha da dışarıdaki harici NVMe SSD'lere. Bu katmanlı genişletme, token vektörlerini yeniden hesaplama ihtiyacını ortadan kaldırır. NVMe SSD'ler doğal olarak HBM veya DRAM'den daha yüksek erişim gecikmesine sahip olsa da, önceden hesaplanmış token vektörlerini almak, on binlercesini sıfırdan yeniden hesaplamaktan çok daha hızlıdır. Lightbits ve ScaleFlux, çözümlerinin SSD'lerden KV önbellek verilerinin alınmasını önemli ölçüde hızlandırdığını iddia ediyor.

Lightbits Labs'ta Yapay Zeka Mimarisi Direktörü Arthur Rasmusson, şunları söyledi: "Çıkarım belleğini reaktif bir önbellekten akıllı, akışlı bir veri katmanına dönüştürüyoruz."

Nasıl?


"Yalnızca önemli olan verileri önceden getirerek ve ihtiyaç duyulmadan önce yüksek hızlı RDMA üzerinden GPU'lara teslim ederek, geleneksel olarak uzun bağlam performansını sınırlayan duraklamaları ortadan kaldırıyoruz. Sonuç, daha düşük İlk Token'a Kadar Süre (TTFT), gerçek dünya yükü altında daha kararlı verim ve önemli ölçüde daha yüksek etkili GPU kullanımıdır."

ScaleFlux'ta Çözüm Mimarisi ve Teknik Ortaklıklar Kıdemli Direktörü Keith McKay, şunları yorumladı: "GTC'de gösterdiğimiz şey, daha akıllı veri yerleşimi ve kalıcı dikkat durumu yönetiminin, bağlam pencereleri büyüdükçe çıkarım sistemlerinin duyarlı kalmasına nasıl yardımcı olabileceğinin erken bir bakışıdır. Bu, gerçek operatörlerle birlikte şekillendirmek istediğimiz bir işbirliğidir."

Hem Lightbits hem de ScaleFlux, bulut ve altyapı operatörlerini yazılımlarını ve SSD'lerini benimsemeye teşvik etmeyi, maliyetli GPU boşta kalma süresini ortadan kaldırmayı hedefliyor.

Önce ScaleFlux'un katkısını inceleyelim, ardından daha gelişmiş Lightbits yazılım katmanına geçelim.

ScaleFlux, donanım tabanlı Yazma Azaltma Teknolojisi (WRT) ile donatılmış NVMe SSD'ler ve Hesaplamalı Depolama Sürücüleri (CSD'ler) sağlar. Donanım hızlandırmalı sıkıştırma ve SoC güdümlü meta veri yönetimi ile desteklenen bu sürücüler, fiziksel depolamadan dört kata kadar daha fazla mantıksal kapasite sunarken, ana bilgisayar sistemleri için tamamen şeffaf kalır. Şirket, yapay zeka veri altyapısını yoğun, düşük gecikmeli, güç verimli sistemlerle yeniden tanımlamak için çalışan ve geleneksel dosya tabanlı yapay zeka depolamasının 10 katı yoğunluk ve yalnızca onda biri güç tüketimi sunan Open Flash Platform (OFP) konsorsiyumunun bir üyesidir.

Bu depolama sürücülerinin üzerine inşa eden Lightbits, GPU'ların ihtiyaç duymasından önce KV Önbellek verilerinin akıllı önceden getirilmesini ekleyerek, yetersiz KV kapasitesi veya maliyetli token vektör yeniden hesaplamasından kaynaklanan duraklamaları önler. LightInferra yazılımı, gerekli verileri gerçek talepten önce RDMA hızlarında GPU belleğine çekmek için KV Önbelleği optimize edilmiş önbelleğe alma algoritmalarını kullanır.

Yine, nasıl?


Yazılım, GPU sunucularına gömülü x86 ana bilgisayarında çalışır ve KV Önbellek veri bloklarının erişim modellerini izler. Bu telemetriyi kullanarak, bir sonraki en olası ihtiyaç duyulacak KV bloklarını belirlemek için bir Alt-Doğrusal Seyrek Dikkat Ön Getirme (SLSAP) motoru çalıştırır.

Bu motor, yerelliğe duyarlı karma (LSH) ile istatistiksel yeniden kullanım modellemesini birleştirir - dikkat hesaplamalarındaki geçmiş erişim yerelliğini analiz eder - KV bloklarını puanlar ve önceliklendirir, ardından GPU'lar tarafından istenme olasılığı en yüksek olanları seçer.

Bu seçim süreci, GPU veri erişimindeki doğal seyreklikten yararlanır: çoğu token yalnızca önceki tokenların küçük bir alt kümesiyle anlamlı bir şekilde ilişkilidir. Bu yüksek olasılıklı blokları izole ederek, çözüm GPU'lara geri akıtılması gereken token vektörlerinin hacmini önemli ölçüde azaltır.

İkinci bir algoritma, yeniden kullanım modellerine odaklanır: son tokenlar, anlamsal olarak benzer tokenlar ve RAG veya çok turlu sohbet senaryolarında yaygın olan yapısal desenler sık sık yeniden kullanılır ve buna göre önceliklendirilir.

LightInferra, bu token bloklarını önce x86 sunucusunun DRAM'inden veya gerekirse harici ScaleFlux SSD'lerinden alır, ardından RDMA bağlantıları aracılığıyla GPU'nun HBM'sine önceden yükler.

Lightbits, bu yaklaşımı büyük dil modeli iş yüklerini kullanarak önbelleğe alınmış içeriği sıfırdan yeniden hesaplamaya karşı karşılaştırdı ve İlk Token'a Kadar Süre (TTFT) iyileştirmelerini ölçtü. Bildirilen 100 ila 280 kat hızlandırma rakamları doğrudan bu test sonuçlarından elde edilmiştir.

hakkında en son şirket haberleri Lightbits ve ScaleFlux, KV Önbelleği hızlandırmasında 100x ila 280x gösterdi  0

Elbette, Lightbits-ScaleFlux KV Önbellek hızlandırma

şemasını DDN, Hammerspace, VAST Data, WEKA ve diğerlerinin KV Önbellek hızlandırıcılarıyla karşılaştıran kıyaslama sonuçlarını görmek isteriz, ancak bunlar

mevcut değil.


LightInferra-ScaleFlux'un model boyutu arttıkça önbellek yeniden oluşturma TTFT üzerinde giderek iyileştiğini gösteren grafikler var. Örneğin;

Tüm ilgili kıyaslama verileri, öncelikli olarak bilgisayar bilimi profesyonelleri için uyarlanmış log-ölçekli grafiklerde sunulmaktadır, ancak basit dil, gerçek dünya etkisini kavramayı çok daha kolay hale getirir: "Sonuç, bağlam 100 bin token'dan 1 milyona ve ötesine ölçeklenirken sürdürülen İlk Token'a Kadar Süre (TTFT) performansıdır."


hakkında en son şirket haberleri Lightbits ve ScaleFlux, KV Önbelleği hızlandırmasında 100x ila 280x gösterdi  1


FarmGPU'dan Jonmichael Hands'in de belirttiği gibi, 400 bin token'lık bir konuşma devam ettiğinde ve sistemin tüm KV önbelleğini sıfırdan yeniden oluşturması gerektiğinde, bu sıfır token üretimiyle iki tam dakikalık GPU çalışma süresi anlamına gelir. LightInferra, ekonomik modeli tamamen değiştirir - aynı iş yükü ilk token'ını yarım saniyenin altında üretir, bu da kullanılamayan bir ürün katmanını karlı bir hale getirir.
Lightbits ve ScaleFlux, bu ortak çözümü, yüzlerce hatta binlerce eşzamanlı yapay zeka modeli iş yükünü çalıştıran büyük GPU podlarının bulunduğu yeni nesil neocloud GPU çiftlikleri için özel olarak tasarladı. Bu iş yüklerinin neredeyse her biri, GPU'nun yüksek bant genişlikli belleğindeki (HBM) KV önbellek kapasitesinin sınırına ulaşacaktır.

Geleneksel kurulumlarda, ekipler iki maliyetli seçenekle karşı karşıya kalır: genel harici depolamadan yavaş token vektörleri almak veya bu vektörleri sıfırdan yeniden hesaplamanın çok daha zaman alıcı süreci - her ikisi de GPU'ları saatlerce boş bırakır. LightInferra ve ScaleFlux kombinasyonu, bu yıkıcı endüstri acı noktasını tamamen ortadan kaldırır.

FarmGPU CEO'su Jonmichael Hands şunları ekledi: "Lightbits'ten gelen hızlı ağ depolama, uzun bağlam çıkarımı için zengin yeni kullanım durumlarının kilidini açıyor. Yönetilen hizmetimizi ScaleFlux NVMe sürücülerinde çalışan Lightbits'in yüksek performanslı depolamasıyla eşleştirerek, ilk token'a kadar geçen süreyi kısaltabilir ve GPU kullanımını artırabiliriz, bu da çıkarım iş yükleri için toplam sahip olma maliyetini (TCO) önemli ölçüde düşürür."

Beijing Qianxing Jietong Technology Co., Ltd.

Sandy Yang/Global Strateji Direktörü
WhatsApp / WeChat: +86 13426366826
E-posta: yangyd@qianxingdata.com
Web sitesi:
www.qianxingdata.com/www.storagesserver.comİş Odak Noktası:

BT Ürün Dağıtımı/Sistem Entegrasyonu ve Hizmetleri/Altyapı Çözümleri
20 yılı aşkın BT dağıtım deneyimiyle, güvenilir ürünler ve profesyonel hizmetler sunmak için önde gelen küresel markalarla ortaklık yapıyoruz.
"Akıllı Bir Dünya İnşa Etmek İçin Teknolojiyi Kullanmak" Güvenilir BT Ürün Hizmet Sağlayıcınız!
Pub Zaman : 2026-03-18 11:34:46 >> haber listesi
İletişim bilgileri
Beijing Qianxing Jietong Technology Co., Ltd.

İlgili kişi: Ms. Sandy Yang

Tel: 13426366826

Sorgunuzu doğrudan bize gönderin (0 / 3000)