DeepSeek, DeepGEMM 오픈 소스 공개: 깨끗하고 효율적인 FP8 GEMM 커널
DeepGEMM은 FP8 행렬 곱셈을 위한 CUDA 기반의 라이브러리로, NVIDIA Hopper 텐서 코어를 지원합니다. 이 라이브러리는 JIT 모듈을 사용해 런타임에 커널을 컴파일하며, CUTLASS와 CuTe의 개념을 일부 차용했습니다. 성능은 전문가 수준의 라이브러리와 견줄 만하며, 최적화 기여를 환영합니다.