分布式训练协议TrainNet发布：AI模型训练成本降低90%引发行业洗牌

开源协议TrainNet允许数千台普通GPU协同训练大模型，训练GPT-5级别模型的成本从1亿美元降至1000万美元以下。

分布式训练协议TrainNet发布：AI模型训练成本降低90%引发行业洗牌

2029年4月12日，非营利组织Open Compute Foundation正式发布TrainNet协议1.0版本。这套开源分布式训练协议允许数千台消费级GPU通过互联网协同完成大模型训练，将训练一个GPT-5级别模型的成本从此前的约1亿美元压缩至800万美元以内。

TrainNet的核心创新在于其「梯度共识」机制。传统分布式训练要求所有计算节点位于同一数据中心内，通过高速互联网络同步梯度更新。TrainNet则将模型训练拆分为独立的子任务，各节点在本地完成计算后，仅需上传压缩后的梯度摘要。协议内置的异步聚合算法可容忍高达30%的节点离线或延迟，而不影响最终模型质量。

首个采用TrainNet训练的大型模型是法国初创公司NexusAI的Lumina-7。该公司租用了全球4200台RTX 6090显卡，历时11天完成训练。NexusAI联合创始人Camille Dupont表示：「我们没有自建数据中心，没有采购A100集群。整个训练过程的算力成本不到600万美元，这在两年前是不可想象的。」

这一突破对AI行业格局的冲击已经开始显现。过去两年，大模型训练的算力门槛将绝大多数创业公司挡在门外，头部企业凭借数万张GPU的集群优势形成垄断。TrainNet的出现使得「算力即权力」的逻辑被打破。

但批评者指出，分布式训练带来的安全隐患不容忽视。训练数据分散在数千个节点上，任何单一节点都可能被恶意注入后门数据。加州大学伯克利分校AI安全实验室主任Dr. Sarah Chen在一篇评论文章中写道：「当训练过程不再封闭在可信环境中，模型供应链安全将成为新的噩梦。」

此外，TrainNet的能耗问题也引发争议。虽然单个节点的功耗不高，但数千台GPU同时运行的总能耗并不低于传统数据中心，只是将集中的碳排放分散到了全球各地。

Open Compute Foundation表示，TrainNet 2.0版本将引入「可信执行环境」验证机制，确保每个计算节点的训练数据未被篡改。该版本预计在2029年第三季度发布。

免责声明

内容为AI生成，请勿作为事实或决策依据。转载、引用时请勿当作真实报道。