本站内容为虚构演示,与真实新闻及机构无关;请勿当作事实或专业意见。

全文

FULL TEXT

查看本期期刊
头条互联网

AI生成内容溯源认证协议ContentOrigin获IETF批准:每段AI生成内容可追溯至训练数据源

互联网工程任务组正式批准ContentOrigin协议,为AI生成的文本、图像和视频建立从生成结果到训练数据的完整溯源链。

互联网工程任务组(IETF)今天正式批准了ContentOrigin协议(RFC 9847),这是全球首个为AI生成内容建立完整溯源链的互联网标准。ContentOrigin要求所有遵循该协议的AI系统在生成内容时,自动嵌入一个不可篡改的溯源元数据包,记录生成该内容所使用的模型版本、推理参数和训练数据的特征指纹。

协议设计

ContentOrigin的核心设计借鉴了食品安全领域的溯源体系。协议工作组联合主席、斯坦福大学网络安全实验室的阿米特·帕特尔教授解释说,ContentOrigin不要求公开训练数据本身(这涉及商业机密和隐私),而是要求记录训练数据的「特征指纹」——一个由数据分布特征、时间范围和主题标签组成的哈希值。

当一段AI生成内容被质疑时,持有相应密钥的监管机构可以通过ContentOrigin的验证接口追溯到该内容的生成上下文:使用了哪个模型、在什么时间生成、输入了什么提示词、以及训练数据的大致特征。

ContentOrigin采用了双层签名机制。第一层是模型提供商的数字签名,证明该内容确实由声称的模型生成。第二层是内容本身的数字水印,嵌入在文本的字符间距、图像的像素噪声或视频的帧间特征中,即使内容被截图或转录也能被检测到。

行业采纳

谷歌、微软、OpenAI和Anthropic已经宣布将在其下一代AI产品中支持ContentOrigin。欧盟AI办公室表示,ContentOrigin将成为其AI生成内容标注法规的技术基础。

但ContentOrigin也面临挑战。首先是性能开销——嵌入溯源元数据会增加约3%的推理延迟和15%的输出数据量。其次是开源模型的合规问题——对于任何人都可以下载和修改的开源模型,如何确保其正确实现ContentOrigin协议仍是一个未解决的问题。

帕特尔教授表示,工作组已经在制定ContentOrigin的2.0版本,计划引入基于零知识证明的验证机制,在不泄露任何溯源细节的前提下证明内容的合法性。这一版本预计在2031年提交审议。