02月26日,星期三 10:30
火讯财经讯,2月26日消息,DeepSeek在其开源周(OpenSourceWeek)第三天推出DeepGEMM,一个支持FP8GEMM的CUDA库,可用于稠密矩阵计算和混合专家(MoE)架构,优化V3/R1模型的训练和推理。 DeepGEMM关键特性: •超高性能:在HopperGPU上实现1350+FP8TFLOPS •极简依赖:无繁重依赖,代码简洁如教程 •JIT即时编译:无需预编译,运行时自动优化 •核心代码仅约300行,但在大多数矩阵尺寸下性能超越专家级优化内核 •支持稠密布局和两种MoE布局