deepseek-ai/DeepGEMM

Cuda ⭐ 7.1k 🍴 935 🔥 +438 this week

Orijinal Aciklama

DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling

📄 MIT

Lisans

Açık Issue

3 ay önce

Son Commit

İzleyici

🤖 AI Analizi (Turkce)

DeepGEMM, NVIDIA GPU'ler için optimize edilmiş, yüksek performanslı bir tensor çekirdek kütüphanesidir. Temel olarak, büyük dil modellerinin ana hesaplama primiitiflerini bir araya getirerek, temiz ve verimli FP8 GEMM çekirdekleri sağlar. Kütüphane, çalışma zamanında hafif bir Just-In-Time (JIT) modülü aracılığıyla derlenir, bu nedenle kurulum sırasında CUDA derlemesi gerekmez.

🎯 Hedef Kitle: NVIDIA GPU'leri ve CUDA kullanarak derin öğrenme modelleri geliştiren yazılımcılar ve araştırmacılar

TEMEL OZELLIKLER

FP8, FP4, BF16 GEMM çekirdekleri
Fused MoE ile örtüşen iletişim (Mega MoE)
MQA scoring for the lightning indexer
HyperConnection (HC)
Çalışma zamanında JIT derlemesi
CUTLASS ve CuTe konseptlerinden esinlenen, ancak ağır bağımlılıklarından kaçınılan temiz ve erişilebilir tasarım

💡 Kullanım Örneği

Bir derin öğrenme araştırmacısı, büyük bir dil modelini eğitmek için DeepGEMM'yi kullanarak yüksek performanslı FP8 GEMM çekirdeklerini elde edebilir. Örneğin, bir Transformers tabanlı modelin eğitiminde, DeepGEMM'nin optimize edilmiş GEMM çekirdekleri kullanarak, eğitim süresini önemli ölçüde azaltabilir.