本站内容为虚构演示,与真实新闻及机构无关;请勿当作事实或专业意见。

全文

FULL TEXT

查看本期期刊
深度AI

AI基因组模式发现引擎DNAMiner深度:从海量DNA数据中挖掘隐藏的进化密码

Illumina与欧洲生物信息学研究所联合开发的DNAMiner引擎,首次用AI在全基因组尺度上发现传统方法无法识别的非编码区功能模式,为遗传病研究打开全新视角。

AI基因组模式发现引擎DNAMiner深度:从海量DNA数据中挖掘隐藏的进化密码

人类基因组中有98%的区域被称为「非编码区」,长期以来被认为是「垃圾DNA」。然而,越来越多的研究表明这些区域可能蕴含着关键的调控信息,只是传统分析方法无法有效解码。

Illumina与欧洲生物信息学研究所(EBI)联合开发的DNAMiner引擎正在改变这一局面。该系统使用专门针对基因组序列设计的Transformer架构,在超过200万人的全基因组数据上进行训练,能够识别出传统统计方法完全无法发现的非编码区功能模式。

「人类基因组就像一本用未知语言写成的书,」EBI高级研究员Maria Gonzalez解释道,「传统方法只能读懂其中2%的『已知词汇』。DNAMiner通过学习整本书的语法结构,开始理解剩下98%的含义。」

在验证测试中,DNAMiner成功预测了47个此前未知的非编码区调控元件,其中12个已被实验室验证确实影响基因表达。更重要的是,该引擎发现了3个与罕见遗传病相关的非编码区变异,这些变异在过去20年的研究中一直被忽视。

DNAMiner的技术突破在于其「进化保守性注意力」机制。该系统不仅分析DNA序列本身,还同时比较不同物种间对应区域的进化差异。通过追踪数百万年的进化轨迹,系统能够区分「功能性保守」和「随机保守」的序列区域。

该引擎的临床应用前景正在快速展开。约翰·霍普金斯大学医学院已开始使用DNAMiner重新分析3000名罕见病患者的基因组数据,首批结果表明约8%的患者可能找到了此前被遗漏的致病变异。

不过,DNAMiner也面临数据隐私和知情同意的伦理挑战。训练数据来自全球多个生物银行,部分参与者在捐赠样本时并未预见到AI会对其基因组进行如此深入的分析。欧盟数据保护委员会已要求Illumina提交数据使用合规报告。

从技术角度看,DNAMiner的计算需求极为庞大——完整分析一个人的全基因组需要消耗约4000个GPU小时。Illumina正在开发轻量版本,目标是将分析成本降低到每次50美元以下,使其能够进入常规临床检测流程。

「我们才刚刚开始理解基因组的语言,」Gonzalez表示,「DNAMiner不是终点,而是一把钥匙——它打开了通往基因组暗物质的大门。」