512颗GPU、10万亿参数!阿里达摩院发布全球大AI预训练模型能耗仅为1%
日前,阿里巴巴达摩院公布了多模态大模型M6的最新发展,其参数已从万亿跃升至10万亿,成为全球最大的AI预训练模型。
作为一个通用的AI模型,M6具有多模态,多任务能力,尤其擅长设计,写作,问答,在电子商务,制造业,文艺,科研等领域有着广泛的应用前景。
与传统AI相比,大模型拥有数百倍的Neuron 数量,认知,创造力也占优,一般认为是未来的基本模型。
可是,大模型的计算成本相当高,例如,训练1750亿参数语言大模型GPT—3所需的能耗可以使汽车在地球和月球之间来回行驶。
今年5月,达摩院M6团队通过专家并行策略和优化技术,将万亿级模型能耗降低80%以上,效率提升近11倍。
10月,M6再次突破行业极限,使用512个GPU,10天内训练出10万亿个可用级别的模型与去年发布的大型车型GPT—3相比,M6实现了同样的参数规模,但能耗仅为1%
另一方面,当AI大模型扩展到1000亿甚至更多参数的超大规模时,很难放在一台机器上。因此达摩院在阿里巴巴云PAI自研Whale框架上搭建了MoE模型,最终通过更细粒度的CPU卸载技术,将10万亿个参数放入512 GPU:
自研鲸鱼框架:
自主开发的Whale分布式深度学习训练框架,为数据并行,模型并行,流水线并行,混合并行等多种并行模型设计了统一的架构,让用户只需增加几行API调用就能实现丰富的分布式并行策略。。
专家并行策略:
在鲸鱼架构中实现专家混合的并行策略它在扩展模型容量,提高模型效果的基础上,FLOPs不显著增加每秒浮点运算次数,从而实现高效训练大规模模型的目的
CPU卸载创新技术:
在自主开发的分布式框架Whale中,通过更细粒度的CPU卸载解决了放下有限资源极限规模的问题,通过灵活选择卸载的模型层,进一步提高了GPU利用率。
此外,针对训练效率的问题,M6团队设计了伪到实机制,即利用训练好的共享参数模型对大模型进行初始化,进一步将收敛效率提高7倍,解决了大模型训练速度慢的问题。
如果没有这个机制,只需要6%就能在预训练中达到同样的损失与之前的万亿模型相比,训练样本量仅为40%
作为国内首个商业化的大型多模态模型,M6已经应用于40多个场景,日通话量上亿。
今年大机型首次支持双11,应用包括但不限于:
——M6为犀牛智慧品牌设计的服装已在淘宝上线,
—凭借流畅的写作技巧,M6正在为天猫虚拟主播写剧本,
——依托多模态理解能力,M6正在提升淘宝,支付宝等平台的搜索和内容认知准确率。
未来,M6将积极探索与科学应用相结合,通过AI为科学充分利用大模型的潜力,加强M6与国产芯片的软硬件融合研究。同时,M6实现了业内最高的低碳高效,用512个GPU在10天内训练出一个可用的10万亿模型。
目前达摩院和阿里巴巴云已经推出M6服务平台,为大模型的培训和应用提供完整的工具,首次让大模型实现开箱即用,算法人员和普通用户都可以轻松使用该平台。