AMD:已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 彻底改变 AI 开发
1 月 25 日消息,AMD 宣布,已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,该模型经过 SGLang 强化,针对 Al 推理进行了优化。
查询发现,AMD 早在去年 12 月 26 日就在 Github 上公布了支持 DeepSeek-V3 模型的 SGLang v0.4.1。
AMD 表示, DeepSeek V3 是目前最强的开源 LLM,甚至超过了 GPT-4o。AMD 还透露,SGLang 和 DeepSeek 团队通力合作,使 DeepSeek V3 FP8 从首发当天就能在英伟达和 AMD GPU 上运行。此外,AMD 还感谢了美团搜索与推荐算法平台团队以及 DataCrunch 提供 GPU 资源。
据介绍,DeepSeek-V3 模型是一个强大的混合专家 (MoE) 语言模型,总参数量为 671B,每个 token 激活 37B 参数。
为了实现高效推理和高经济效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构。
此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多标记预测训练目标以实现更强劲的性能。
DeepSeek-V3 使开发人员能够使用高级模型,利用内存能力同时处理文本和视觉数据,让开发人员可以广泛获取先进功能,并为其提供更多功能。
AMD Instinct GPU 加速器和 DeepSeek-V3
AMD 表示,ROCm 中广泛的 FP8 支持可显著改善运行 AI 模型的过程,尤其是在推理方面。它有助于解决诸如内存瓶颈和与更多读写格式相关的高延迟问题等关键问题,使平台能够在相同的硬件限制下处理更大的模型或批处理,从而带来更高效的训练和推理过程。
此外,FP8 降低精度计算可以减少数据传输和计算中的延迟。AMD ROCm 扩展了其生态系统中对 FP8 的支持,从而能够在各个方面(从框架到库)改善性能和效率。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。