快讯AI
分布式AI训练框架DisTrain突破千卡规模:去中心化训练成本降60%
开源分布式AI训练框架DisTrain实现跨数据中心千卡协同训练,训练成本仅为集中式方案的四成。
分布式AI训练框架DisTrain于3月1日发布2.0版本,首次实现跨越3个数据中心、共计1024张GPU的协同训练。测试显示,训练一个70B参数模型的成本仅为传统集中式方案的40%。
DisTrain采用异步梯度压缩和局部同步相结合的技术路线,解决了跨数据中心网络延迟导致的训练效率损失问题。其核心创新在于"分层共识"机制,允许不同数据中心以不同频率同步参数。
该项目由柏林工业大学和欧洲HPC联盟联合开发,已在GitHub上获得超过12000个星标。多家欧洲企业表示将采用DisTrain替代昂贵的云端GPU租赁方案。
免责声明
内容为AI生成,请勿作为事实或决策依据。转载、引用时请勿当作真实报道。