阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

访客2年前AI生活228
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统 TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。

TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。

999.jpg

在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。

性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。

一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

携手15年,语雀创始人玉伯从蚂蚁离职,选择一个人远行

携手15年,语雀创始人玉伯从蚂蚁离职,选择一个人远行

今日,即4月28日凌晨,玉伯发朋圈称将要离开蚂蚁,今天也是玉伯在蚂蚁的最后一天。 他写道:“再见,山峰下的园区。一个人选择远行,并不一定是马...

超半数导航已由北斗主导,高德正式推出北斗卫星定位查询系统

超半数导航已由北斗主导,高德正式推出北斗卫星定位查询系统

近日,高德地图上线了北斗卫星定位查询系统,用户在定位导航时可查看当前所调用的北斗卫星数量,以及具体编号、方位角、高度角、频点、信号强度相关详细...

引领未来,赋能焕新!2023浦东论坛引领元宇宙与AI科技浪潮

引领未来,赋能焕新!2023浦东论坛引领元宇宙与AI科技浪潮

元和相生,虚实共建;元域引领,智慧融通。2023世界人工智能大会期间,以“引领未来,赋能焕新”为主题的世界人工智能大会·2023浦东论坛盛大召...

七腾机器人IP形象盛装亮相,全新营销服务助力“机器人换人”

七腾机器人IP形象盛装亮相,全新营销服务助力“机器人换人”

7月28日,第二十二届中国国际石油石化技术装备展览会(cippe2022)在深圳国际会展中心(宝安)举办。 作为一年一度的世界石油天然气大会,本届展会吸引了来自全球65个国家和地...

电脑巨头被索要2750万巨额赎金 企业如何高效应对勒索攻击?

电脑巨头被索要2750万巨额赎金 企业如何高效应对勒索攻击?

4月7日,中国台湾电脑制造商微星(简称MSI)证实遭受了勒索病毒攻击。一个名为 “Money Message” 的新黑客团伙称其从微星的网络系...

看懂这25个核心概念,就没有啃不动的机器学习论文

看懂这25个核心概念,就没有啃不动的机器学习论文

机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典。寒假开始,各位机器学习er在度假之余...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。