急性青光眼治疗专科医院

首页 » 常识 » 问答 » 机器学习改进基因组发现,谷歌健康GitH
TUhjnbcbe - 2025/7/12 17:57:00

全基因组关联研究(Genome-WideAssociationStudy,GWAS)是了解遗传变异和性状之间关系的一个关键方法。GWAS结果可用于通过识别与感兴趣的疾病密切相关的基因来识别和确定潜在治疗目标的优先级,还可用于建立多基因风险评分(PolygenicRiskScore,PRS),根据个体中存在的变异的综合影响预测疾病倾向。准确测量个体的特征(称为表型)对GWAS至关重要,但专家标记可能成本高昂、耗时且可变。随着深度学习的发展,从高维数据中提取医学相关特征成为可能。

近日,来自谷歌健康(GoogleHealth)的研究团队提出使用机器学习(ML)模型对医学成像数据进行分类用于改进GWAS。研究发现的新关联提高了PRS的准确性,并以青光眼为例,解剖眼部特征的改善与人类疾病有关。并在GitHub发布了模型训练代码和详细的文档。将该方法扩展到大规模生物库中的其他表型和数据模式,可进一步扩展我们对疾病病因的理解并改进遗传风险建模。

该研究于6月1日以《基于大规模机器学习的表型显著改善了视神经头形态的基因组发现》「」为题发表在《美国人类遗传学》()杂志上。

GWAS是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。

青光眼是一种由渐进性视网膜神经节细胞变性引起的视神经病变,是全球不可逆失明的主要原因,影响着全球超过万人。此外,青光眼是最具遗传性的常见人类疾病之一,遗传性估计为70%。

识别与眼部解剖特征相关的遗传变异

先前的研究表明,ML模型可以识别眼部疾病、皮肤疾病和异常乳房X光检查结果,准确度接近或超过领域专家的最新方法。因为识别疾病是表型分析的一个子集,谷歌健康的研究人员推断ML模型可以广泛用于提高GWAS表型分析的速度和质量。

现在,研究人员提出训练ML模型以自动对大型队列进行表型以进行基因组发现。提出的范式有两个阶段:在模型训练阶段,使用专家标记样本数据库(不需要基因组数据)来训练和验证表型预测模型;在模型应用阶段,模型应用于生物库数据以预测感兴趣的表型,然后分析基因组关联。这种范式有四个优点:

模型应用具有可扩展性和高效性。

单个模型可以同时预测多个表型。

该模型可以回顾性地应用于现有数据,从而产生新的表型或更准确的对现有表型的预测。

可以整合多条证据来预测单个表型,如果手动执行,这将非常昂贵。

研究人员选择了一个模型,该模型使用眼底图像来准确预测患者是否应该转诊进行青光眼评估。该模型使用眼底图像来预测视盘(视神经连接到视网膜的区域)和视杯(视盘中心的白色区域)的直径。这两个解剖特征的直径比——垂直杯盘比(verticalcup-to-discratio,VCDR),是青光眼的重要内表型。

研究人员应用该模型来预测英国生物样本库(UKBiobank,UKB)的所有眼底图像中的VCDR,这是世界上最大的数据集,可供全世界研究人员用于公共利益的健康相关研究,包含约,个假名个体的广泛表型和遗传数据(UKB的去标识化标准)。然后在这个数据集中执行了GWAS来识别与VCDR的基于模型的预测相关的遗传变异。

具体步骤:研究人员使用81,个非UKB、眼科医生标记的眼底图像开发了一个ML模型,预测图像分级、VCDR和可参考的青光眼风险。使用该模型从,张眼底图像中预测了65,名欧洲血统的UKB参与者的VCDR。然后,对基于ML的VCDR表型(以下称为基于ML的GWAS)进行了GWAS,并将结果与之前的VCDRGWAS进行了比较,包括最近的VCDRGWAS使用来自专家标记的UKB眼底图像的表型。研究表明基于ML的表型比专家表型VCDR测量更准确,且更有效地获得,识别与已知VCDR生物学有可能联系的新遗传关联,并产生更准确的多基因风险评分来预测独立人群中的VCDR。

基于ML的GWAS发现了93个新位点

基于ML的GWAS确定了个与VCDR相关的不同基因组区域。研究人员将这些结果与同一UKB的另一组进行的VCDRGWAS数据(年,Craig等人将所有图像标记为VCDR)进行了比较。基于ML的GWAS复制了Craig等人发现的65个关联中的62个,这表明该模型准确地预测了UKB图像中的VCDR。此外,基于ML的GWAS发现了93个新的关联。

本研究中发现的几个VCDR相关基因位点与眼压(intraocularpressure,IOP)相关。且发现的几个VCDR相关基因位点包含参与神经元和突触生物学的基因,因此可能是通过对视网膜和视神经的直接影响而不是通过IOP来影响VCDR。

新的VCDR相关基因位点上的几个基因含有导致严重孟德尔眼科疾病的突变。首次报告了这些基因的常见变异,这些变异与群体水平的VCDR变异相关。三个新基因位点位于ADAMTSL3(rs)、PITX2(rs)和FOXC1(rs),所有这些都与综合征性眼前节发育不全有关,进而导致眼压升高和继发性青光眼。

基于ML的GWAS改进了多基因模型预测

为了验证基于ML的GWAS中发现的新关联具有生物学相关性,研究人员使用Craig等人开发的独立PRS和基于ML的GWAS结果,并测试了它们在UKB的一个子集以及一个完全独立的队列(EPIC-Norfolk)中预测人类专家标记的VCDR的能力。在两个数据集中,基于ML的GWAS开发的PRS比专家标记方法构建的PRS具有更强的预测能力,表明基于ML的方法发现的新关联影响VCDR生物学,并表明该模型表型准确性(即更准确的VCDR测量)的提高可转化为更强大的GWAS。

然后使用来自UKB的基于ML的VCDR值来训练弹性网络模型。弹性网络模型分别解释了UKB和EPIC-Norfolk集合中总VCDR变化的14.2%和10.6%。弹性网络模型有更明显的改进,但基于ML的模型仍然明显优于它。

作为第二个验证,「因为VCDR与青光眼密切相关,我们还调查了基于ML的PRS是否与自我报告患有青光眼或有医疗程序代码提示患有青光眼或青光眼治疗的个体相关。我们发现使用我们的模型预测确定的VCDR的PRS也可以预测个体有青光眼迹象的概率。在该队列中,PRS2.5或更多标准差高于平均值的个体患青光眼的可能性是平均水平的3倍以上。我们还观察到,基于ML的表型的VCDRPRS广泛的手动表型产生的VCDRPRS更能预测青光眼。」

为了进一步评估基于ML的弹性网络VCDRPRS对青光眼预测的效用,研究人员对EPIC-Norfolk参与者(n=5,)的原发性开角型青光眼(POAG)(例病例和5,例对照)的状态进行了分类。并将POAG病例细分为HTG(98例)和NTG(77例)。鉴于VCDRPRS丰富了与神经元发育和功能相关的变异,假设PRS与NTG特别相关。以年龄、性别和基于ML的弹性网络VCDRPRS作为预测因子来拟合逻辑回归模型来预测POAG状态。

在EPIC-Norfolk中,基于ML的弹性网络VCDRPRS与POAG,尤其是NTG显著相关。

模型训练代码和详细文档

研究人员在GitHub的GenomicsResearch存储库中发布了模型训练代码和详细文档。

此存储库中存在三个功能:

模型训练

模型推理

数据分析和图形生成

研究人员表示:「ML模型可用于快速对GWAS的大型队列进行表型分析,并且这些模型可以提高此类研究的统计功效。虽然这些例子显示的是视网膜成像预测的眼睛特征,但我们期待探索这个概念如何普遍适用于其他疾病和数据类型。」

1
查看完整版本: 机器学习改进基因组发现,谷歌健康GitH