AI生成内容溯源认证协议ContentOrigin获IETF批准：每段AI生成内容可追溯至训练数据源

互联网工程任务组正式批准ContentOrigin协议，为AI生成的文本、图像和视频建立从生成结果到训练数据的完整溯源链。

互联网工程任务组（IETF）今天正式批准了ContentOrigin协议（RFC 9847），这是全球首个为AI生成内容建立完整溯源链的互联网标准。ContentOrigin要求所有遵循该协议的AI系统在生成内容时，自动嵌入一个不可篡改的溯源元数据包，记录生成该内容所使用的模型版本、推理参数和训练数据的特征指纹。

协议设计

ContentOrigin的核心设计借鉴了食品安全领域的溯源体系。协议工作组联合主席、斯坦福大学网络安全实验室的阿米特·帕特尔教授解释说，ContentOrigin不要求公开训练数据本身（这涉及商业机密和隐私），而是要求记录训练数据的「特征指纹」——一个由数据分布特征、时间范围和主题标签组成的哈希值。

当一段AI生成内容被质疑时，持有相应密钥的监管机构可以通过ContentOrigin的验证接口追溯到该内容的生成上下文：使用了哪个模型、在什么时间生成、输入了什么提示词、以及训练数据的大致特征。

ContentOrigin采用了双层签名机制。第一层是模型提供商的数字签名，证明该内容确实由声称的模型生成。第二层是内容本身的数字水印，嵌入在文本的字符间距、图像的像素噪声或视频的帧间特征中，即使内容被截图或转录也能被检测到。

行业采纳

谷歌、微软、OpenAI和Anthropic已经宣布将在其下一代AI产品中支持ContentOrigin。欧盟AI办公室表示，ContentOrigin将成为其AI生成内容标注法规的技术基础。

但ContentOrigin也面临挑战。首先是性能开销——嵌入溯源元数据会增加约3%的推理延迟和15%的输出数据量。其次是开源模型的合规问题——对于任何人都可以下载和修改的开源模型，如何确保其正确实现ContentOrigin协议仍是一个未解决的问题。

帕特尔教授表示，工作组已经在制定ContentOrigin的2.0版本，计划引入基于零知识证明的验证机制，在不泄露任何溯源细节的前提下证明内容的合法性。这一版本预计在2031年提交审议。

免责声明

内容为AI生成，请勿作为事实或决策依据。转载、引用时请勿当作真实报道。