本站内容为虚构演示,与真实新闻及机构无关;请勿当作事实或专业意见。

全文

FULL TEXT

查看本期期刊
深度互联网

去中心化AI模型训练网络FedTrain深度:数据不出本地也能训练全球级大模型

开源联邦学习网络FedTrain实现跨国、跨机构的大模型协同训练,训练数据始终保留在本地,仅交换模型梯度更新,已在医疗和金融领域完成验证。

数据不动模型动

在AI时代,数据是最宝贵的资源,但也是最受限制的资源。医院的病历数据受隐私法规保护不能出境,银行的交易数据受金融监管不能共享,各国的数据主权法律更是将数据跨境流动限制得越来越严格。这些限制让训练大规模通用AI模型变得困难——你需要海量数据,但海量数据却被锁在一个个孤岛中。

FedTrain是一个开源的联邦学习网络,旨在解决这一矛盾。它的核心理念是「数据不动模型动」——各参与方的数据始终留在本地,只有模型的梯度更新(即模型从数据中学到的知识)被加密传输到中央协调服务器进行聚合。

技术突破

联邦学习的概念并不新鲜,但将其应用于大模型训练面临三个核心技术挑战:通信效率、异构设备适配和隐私保护。FedTrain在这三个方面都有显著突破。

通信效率方面,FedTrain采用了「稀疏化+量化」的双重压缩策略。梯度更新中99.5%的数值被丢弃(仅保留最重要的0.5%),剩余梯度被量化为8位整数。这使得每次通信的数据量减少了约200倍,使得在普通互联网带宽下也能参与训练。

异构设备适配方面,FedTrain能够自动检测参与节点的计算能力和网络带宽,动态调整每个节点的训练任务量。一个拥有8张A100的实验室和一个只有4张消费级GPU的小团队可以在同一个训练任务中协作——前者承担更多的训练轮次,后者承担较少但同样有价值的贡献。

隐私保护方面,FedTrain集成了差分隐私和安全聚合两个机制。差分隐私在梯度更新中注入精心校准的噪声,使得单个数据样本的信息无法从梯度中被逆向提取。安全聚合确保中央服务器只能看到所有参与方梯度的加权平均值,无法看到任何单个参与方的梯度。

实际验证

FedTrain已在两个大规模验证项目中证明了其可行性。

第一个是医疗领域的「全球肿瘤AI」项目,由12个国家的34家医院参与,共同训练一个肿瘤病理诊断模型。每家医院的患者数据严格保留在本地,只有模型更新被共享。经过6个月的协同训练,最终模型在跨机构测试集上的诊断准确率达到94.2%,超过了任何单家医院独立训练的模型。

第二个是金融领域的反洗钱模型训练,由8家跨国银行参与。在不共享任何交易数据的前提下,协同训练的可疑交易检测模型比各银行独立模型的检出率高出28%。

对AI发展范式的影响

FedTrain代表了一种与当前「中心化大数据」范式截然不同的AI发展路径。在中心化范式中,少数拥有海量数据的科技巨头具有压倒性优势。FedTrain证明了即使数据分散在数百个机构中,通过联邦学习也能训练出高质量的模型。

这为中小企业、研究机构和发展中国家参与AI发展提供了新的可能。你不再需要拥有PB级的数据集——你只需要拥有一小部分有价值的数据和足够的计算资源。