华为、中国移动联合发布超大规模集群 AI 存储解决方案,哈尔滨万卡超大规模智算集群已部署 150PB
9 月 26 日消息,华为官方宣布,中国移动集团首席专家、研究院网络与 IT 技术研究所所长张昊在华为全联接大会 2024 期间与华为数据存储产品线副总裁谢强强共同发布了智算中心超大规模集群 AI 存储解决方案。
张昊表示,近年来,大模型技术正在快速向更大规模、更强能力发展,大模型技术发展趋势总体仍然遵循 Scaling Law,参数已迈进万亿甚至十万亿规模,从单模态走向多模态;OpenAI、字节跳动、中国移动、Meta 等国内外大型科技公司正积极投建万卡 / 超万卡集群智算中心,建设一批万卡、超万卡集群成为新基建的“暴力美学”。但是随着大模型规模越来越大,尤其是万卡集群处理海量非结构化数据时,传统存储系统面临高吞吐性能、多协议处理、数据管理效率等多方面挑战。
对此,中国移动在哈尔滨万卡超大规模智算集群首次大规模部署了基于华为 OceanStor AI 存储的多协议融合存储,存储集群可得容量达 150PB,依托“并行客户端、高密全闪介质、冷热数据自动分级、GSE 全调度以太网”的高性能融合存储系统,大幅提升大模型训练效率。
参考此前报道,国内运营商最大单集群智算中心 —— 中国移动智算中心(哈尔滨)于 8 月 30 日建设完成并正式投产使用。该智算中心具有单集群算力规模最大、国产化网络设备组网规模最大等特点。单集群智算中心把所有 AI 加速卡打造成 1 个集群,用以支持千万亿级参数的大模型进行训练。
相关阅读:
《国内运营商最大单集群智算中心在哈尔滨投用,可训练万亿参数大模型》