← Ana Sayfa

deepseek-ai/DeepGEMM

Cuda ⭐ 7.1k 🍴 935 🔥 +438 this week

Orijinal Aciklama

DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling

📄 MIT
Lisans
71
Açık Issue
1 ay önce
Son Commit
64
İzleyici

🤖 AI Analizi (Turkce)

DeepGEMM, NVIDIA GPU'ler için optimize edilmiş, yüksek performanslı bir tensor çekirdek kütüphanesidir. Temel olarak, büyük dil modellerinin ana hesaplama primiitiflerini bir araya getirerek, temiz ve verimli FP8 GEMM çekirdekleri sağlar. Kütüphane, çalışma zamanında hafif bir Just-In-Time (JIT) modülü aracılığıyla derlenir, bu nedenle kurulum sırasında CUDA derlemesi gerekmez.

🎯 Hedef Kitle: NVIDIA GPU'leri ve CUDA kullanarak derin öğrenme modelleri geliştiren yazılımcılar ve araştırmacılar

TEMEL OZELLIKLER

  • FP8, FP4, BF16 GEMM çekirdekleri
  • Fused MoE ile örtüşen iletişim (Mega MoE)
  • MQA scoring for the lightning indexer
  • HyperConnection (HC)
  • Çalışma zamanında JIT derlemesi
  • CUTLASS ve CuTe konseptlerinden esinlenen, ancak ağır bağımlılıklarından kaçınılan temiz ve erişilebilir tasarım

💡 Kullanım Örneği

Bir derin öğrenme araştırmacısı, büyük bir dil modelini eğitmek için DeepGEMM'yi kullanarak yüksek performanslı FP8 GEMM çekirdeklerini elde edebilir. Örneğin, bir Transformers tabanlı modelin eğitiminde, DeepGEMM'nin optimize edilmiş GEMM çekirdekleri kullanarak, eğitim süresini önemli ölçüde azaltabilir.

📊 Trend Gecmisi

2026-04-27 Haftalik #9 ⭐ 7.1k
2026-04-26 Haftalik #12 ⭐ 7.0k
2026-04-25 Haftalik #10 ⭐ 7.0k
2026-04-21 Gunluk #6 ⭐ 6.9k
2026-04-19 Gunluk #10 ⭐ 6.6k

🔗 Benzer Projeler

deepseek-ai/DeepEP

DeepEP: an efficient expert-parallel communication library

Cuda9.5k
deepseek-ai/DeepEP

DeepEP: an efficient expert-parallel communication library

Cuda9.4k
GitHub'da Gor →

💬 Yorumlar