DeepSeek开源周:发布双向管道并行与专家负载均衡技术
2月27日,DeepSeek“开源周”已进入第4天,今日公开了一项针对优化并行策略的项目。该项目旨在通过改进计算与通信之间的协同效率,进一步提升模型训练和推理的性能。
此次开源的内容包括以下三项:
1. DualPipe:这是一种专为V3/R1训练设计的双向管道并行算法,能够实现计算与通信阶段的高效重叠,同时减少流水线中的空闲时间(即流水线气泡)。通过这种方式,DualPipe显著提高了训练过程中的资源利用率。
2. 专家并行负载均衡器(EPLB):在专家并行(EP)架构中,不同专家模块会被分配到不同的GPU上运行。然而,由于各专家模块的工作负载可能随任务需求而变化,因此保持GPU间的负载均衡至关重要。为此,项目采用了冗余专家策略,对高负载的专家模块进行复制,并通过启发式方法将其合理分配到不同的GPU上,从而实现负载均衡。此外,为了减少节点间的通信开销,项目还尝试将属于同一组的专家模块尽可能部署在同一节点上。这一策略的具体实现已被开源在`eplb.py`文件中,开发者可以通过该工具计算出平衡的专家复制与放置方案。需要注意的是,专家负载的预测方法并未包含在本次开源范围内,但通常可以采用移动平均法等常见手段进行估算。
3. V3/R1计算-通信重叠分析:项目团队公开了来自训练和推理框架的分析数据,详细展示了计算与通信重叠策略的实现细节及其优化效果。这些数据有助于研究社区深入了解并进一步改进相关技术。
以下为具体项目的介绍链接:
- DualPipe:该算法首次提出于深度搜索-V3技术报告,其核心思想是通过双向流水线机制实现正向与反向计算阶段的完全重叠,从而提高整体效率。
- 专家并行负载均衡器(EPLB):这一工具不仅解决了专家并行架构中的负载均衡问题,还通过优化专家模块的部署策略,有效降低了节点间的通信成本。
通过此次开源,项目团队希望为社区提供更多实用的技术参考,推动相关领域的进一步发展。