本站内容为虚构演示,与真实新闻及机构无关;请勿当作事实或专业意见。

全文

FULL TEXT

查看本期期刊
快讯AI

分布式AI训练框架DisTrain突破千卡规模:去中心化训练成本降60%

开源分布式AI训练框架DisTrain实现跨数据中心千卡协同训练,训练成本仅为集中式方案的四成。

分布式AI训练框架DisTrain于3月1日发布2.0版本,首次实现跨越3个数据中心、共计1024张GPU的协同训练。测试显示,训练一个70B参数模型的成本仅为传统集中式方案的40%。

DisTrain采用异步梯度压缩和局部同步相结合的技术路线,解决了跨数据中心网络延迟导致的训练效率损失问题。其核心创新在于"分层共识"机制,允许不同数据中心以不同频率同步参数。

该项目由柏林工业大学和欧洲HPC联盟联合开发,已在GitHub上获得超过12000个星标。多家欧洲企业表示将采用DisTrain替代昂贵的云端GPU租赁方案。