字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

人阅读 2025-03-10 17:58:10

感谢网友某咸鱼的小号的线索投递！

3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。

注意到，早前豆包团队发布了新一代稀疏架构 UltraMem，将模型推理成本砍掉 83%，此次，又开源了 COMET，向模型训练成本出手。

目前，COMET 核心代码已开源，并计划兼容 Triton 等编译生态。

论文链接：https://arxiv.org/pdf/2502.19811

开源地址：https://github.com/bytedance/flux

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

大数据