摩尔线程支持 DeepSeek 开源周“全家桶”

人阅读 2025-03-02 11:57:39

3 月 2 日消息，DeepSeek 开源周正式收官，摩尔线程智能科技（北京）股份有限公司昨日晚发文宣布，在短时间内成功实现对 DeepSeek 各个开源项目的全面支持，涵盖 FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer 文件系统（3FS）。

附摩尔线程支持 DeepSeek 开源周“全家桶”代码合集如下：

FlashMLA

FlashMLA 是一款高效的 MLA（Multi-Head Latent Attention）推理内核开源仓库，旨在加速 MLA 机制的计算，特别适用于 DeepSeek 系列模型（如 DeepSeek-V2、V3 和 R1）。

摩尔线程基于全新 MUSA Compute Capability 3.1 计算架构，可提供原生 FP8 计算能力，同时升级了高性能线性代数模板库 MUTLASS，快速支持了 FlashMLA。借助 MUTLASS 0.2.0，摩尔线程发布开源仓库 MT-FlashMLA，能够快速对 DeepSeek FlashMLA 进行兼容部署。

MT-FlashMLA 开源地址：

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3 地址：

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP

DeepEP 是一个用于 MoE（混合专家）模型训练和推理的开源 EP（expert parallelism，专家并行）通信库，主要适用于大模型训练，特别是需要 EP 的集群训练。它通过优化通信信道的使用率，显著提升了训练效率。摩尔线程基于 MUSA Compute Capability 3.1 全功能 GPU，第一时间适配了 DeepEP，支持以下特性：

高效优化的 All-to-All 通信，支持 dispatch & combine

支持 MTLink GPU（MUSA Compute Capability 3.1）节点内通信

训练及推理预填充阶段的高吞吐量计算核心

推理解码阶段的低延迟计算核心

原生支持 FP8 数据分发

灵活控制 GPU 资源，实现计算与通信的高效重叠

MT-DeepEP 开源地址：

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM

DeepGEMM 是一个支持密集矩阵与混合专家（MoE）矩阵乘法的 FP8 GEMM 库，为 V3 / R1 的训练与推理提供强大动力。这个开源仓库基于高性能通用矩阵乘法（GEMM）的 C 模板库进行开发。摩尔线程基于 MUTLASS 在全新 GPU 架构上优化实现了 FP8 矩阵乘法，支持 DeepGEMM 的相应功能。

MUTLASS FP8 GEMM 地址：

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe

DualPipe 是 DeepSeek-V3 提出的双向流水线并行算法，通过前向计算与后向计算阶段的计算与通信完全重叠，显著减少了“流水线气泡”（设备空闲等待）。与传统流水线并行相比，DualPipe 采用双向数据流设计，使数据从两端相向处理，大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架 Torch-MUSA（已开源）和 MUSA 软件栈全方位的兼容性，实现了对 DualPipe 这一算法的高效支持。MT-DualPipe 可以完整接入摩尔线程 MT-Megatron 框架和 MT-TransformerEngine 框架（即将开源），实现 DeepSeek V3 训练流程的完整复现。

MT-DualPipe 开源地址：

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA 开源地址：

https://github.com/MooreThreads/Torch_MUSA

3FS

Fire-Flyer 文件系统（3FS）是一种利用现代 SSD 和 RDMA 网络的全部带宽的并行文件系统，可以把固态硬盘的带宽性能利用到极致，在 V3 和 R1 的训练与推理过程中，3FS 成为关键支撑，以应对 AI 训练和推理工作负载的挑战。

摩尔线程在一天内迅速完成了高性能分布式文件系统 3FS 的搭建，并高效开发了存储插件，成功实现与夸娥智算集群的无缝集成，为 AI 训练、AI 推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver 地址：

https://github.com/MooreThreads/csi-driver-3fs

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

大数据

5G

LoRa

NB-IoT

ML/机器学习

区块链

云计算

雾计算

机器人

边缘计算

智能家居

智能安防

智能工业

智能医疗

智能农业

智慧城市

智能交通

智能环保

车联网

移动互联

业界新闻

企业要闻

产业政策

AI智能

摩尔线程支持 DeepSeek 开源周“全家桶”

FlashMLA

DeepEP

DeepGEMM

DualPipe

3FS

栏目文章

最近发表

标签列表

Powered By LOT物联网 闽ICP备2024036174号-1

摩尔线程支持 DeepSeek 开源周“全家桶”

FlashMLA

DeepEP

DeepGEMM

DualPipe

3FS

热门推荐

栏目文章

最近发表

标签列表

Powered By LOT物联网 闽ICP备2024036174号-1

Powered By LOT物联网闽ICP备2024036174号-1