欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

腾讯AI研究成果入选Nature子刊,预测精度为记录更新-量子位,

2023-04-11 10:05:37 栏目 : 移动互联 围观 : 0次

蛋白质相互作用(PPI)可以说是人体最重要的分子事件之一,关系到人体的生长发育、新陈代谢,是疾病治疗干预的重要来源,PPI失调可导致癌症等疾病的发生,因此该领域也是医药行业关注的研究热点。

为了更好地预测和解读PPI,深入挖掘相关分子信息,2023年3月,腾讯AI Lab联合香港科技大学、中国科学院大学相关团队,将深度学习领域的分层图学习技术引入PPI研究我们提出了一个双视图分层学习模型(HIGH-PPI),证明它在PPI研究中具有更高的预测精度和更好的解释性。研究成果在著名的国际学术期刊《自然-通讯》(Nature Communications)上发表。

人类蛋白质组学数据分析显示,人类PPI网络涉及约65万个相关接触位点。要处理这种尺度的数据,人工智能的效率明显高于人类,相关技术的引入更为高效,能准确帮助人们找到重要信息,促进靶向药物的开发和癌症等疾病的治疗。

该研究是腾讯AI Lab对PPI分层问题建模的首次尝试,得到评委的高度评价,被视为生物信息领域的潜在创新贡献,文章也得到学界的认可,入选《自然-通讯年度编辑精选文章合集。

引入深度学习技术,首次提出模拟自然PPI层次结构的模型,为了高效、低成本地绘制人类蛋白质相互作用组,近年来,研究领域越来越多地采用包括深度学习引入在内的计算方法自动预测PPI迄今为止,还没有出现模拟自然PPI分层结构的模型。

在HIGHPPI模型中,AI Lab研究小组创建了一个包括蛋白质的外表面图和蛋白质的内表面图的层次图。顶视图描述了蛋白质之间的相互作用,每个蛋白质是节点,蛋白质之间的相互作用是图的边。底视图描述了每个蛋白质内部的信息,重要的氨基酸或残基的组合是图的节点,与物理位置相邻的残基在边上相连。

图1:蛋白质结构和网络结构对于PPI的准确预测都是重要的。(a)蛋白质序列通常可以提供关于PPI的详细信息,但是PPI的预测精度也可能降低,例如与不具有序列相似性的两个蛋白质(SERPINA1,3、相同的蛋白质(ELANE、可能在相同的作用界面处产生PPI。(b)将含有网络结构信息的PPI、蛋白质划分为不同的社区,社区内蛋白质间存在密集的相互作用,社区间通常只存在微小的连接,(c)HIGHPPI具有双视图层次,俯视图包含网络结构信息下图包括蛋白质结构信息。

到目前为止,业界学者大多关注PPI的外部层次(相互作用组学)和内部层次(蛋白质组学),没有考虑PPI本身的层次结构。

HIGHPPI模型受生物学家研究方法的启发,利用两个工程图神经网络(GNN)从两个角度分别学习。通过具体案例和统计实验发现,在端到端模型中,两个层次之间存在相互增益关系,缺少任何一个层次的结构信息都会损害机器学习模型的性能。

图2:HIGHPPI(红色)与四种主流型号GNNPPI、PIPR、DrugVQA和RFPPI进行比较。(a)PPI预测精度率召回率曲线,(b)PPI网络扰动下的模型鲁棒性试验,(c)分布外场景下的模型泛化性试验,(d)各PPI类别下的精度试验。

据介绍,模型的体系结构设计主要有两个层面的考虑:

首先,蛋白质序列信息在蛋白质组学水平上通常可以提供关于PPI的详细信息,但在预测PPI方面精度较低。例如,两种蛋白质SERPINA1、SERPINA3分别在与蛋白质相同的局部位置相互作用,SERPINA1、3之间的结构相似性高,但序列相似性低(参照图1a)在这种情况下,结构信息对于预测PPI是重要的,仅通过序列信息难以使模型进行正确的预测。

其次,在相互作用组学水平上,模型关注PPI网络结构,倾向于将蛋白质分割成不同的社区,社区内的蛋白质之间有密集的相互作用,社区之间通常只有很少的连接(见图1b)以前的研究证明,预测PPI网络结构属性缺失的链路,可以发现未知的PPI。

图3:蛋白内窥图提供增益。(a)蛋白质3D信息的导入显著提高了预测性能,在保证输入信息相同的前提下,图结构(Graph)相对于循环神经网络(RNN)和卷积神经网络(CNN)具有明显的优势,与(b)基线(蓝色虚线)相比在使用相同的输入信息进行训练之后,图结构数据显示出对蛋白质结构误差的高容忍度,并且图结构数据具有更高的可解释性,例如(c)准确识别蛋白质中的对接位点和(d)对残基的属性重要性进行评分。

图4:交互组学信息的应用。(a)PPI网络节点度(左)和社区属性(右)分别与PPI预测结果F1得分的高相关性,(b)不同链路预测方法的F1得分,有效链路预测方法都有高度还原PPI网络结构属性的倾向,(c)PPI网络的示意图每个节点的面积代表其度值,连接两个仅检测到两个外部边的社区(左),实际计算结果表明其他链路预测方法产生错误的链路,这可能在破坏社区划分(中)和恢复节点度方面存在缺陷(右)

预测精度、可解释性大大提高,为后续实验提供了训练和评价的指导,该研究使用了STRING数据库中的人类PPI数据集,包括1690种蛋白质和7624个PPI。

相比之下,HIGH-PPI的表现超过了四个行业内现有的预测模型,与排名第二的GN-PPI相比提高了4.42%。为了模拟数据在实际应用中的可靠性,对PPI网络进行了随机扰动,并对其性能指标进行了测试。实验证明,当测试组中存在70%的未知蛋白质时,HIGH-PPI仍能保持较高的准确度。

机械预测、实验验证,是未来生物、医药研究的重要趋势,为了使后续验证实验更有效率,科学家需要能够充分了解模型的预测结果,这一指标被称为模型的可解释性。例如,假设HIGHPPI预测某些蛋白质对存在催化相互作用,但识别出与催化剂无关的重要部位,那么很难相信模型的决定。

该研究比较了模型学习预测的蛋白质功能域和实际数据,证明HIGH-PPI模型具有较好的解释性,可为后续的湿实验验证(实验室生化实验)提供可靠的指导。例如,如果HIGHPPI认为某些催化剂位点是重要的,则可以针对某些位点设计相应的验证实验。

展开剩余内容

分享到:

猜你喜欢

热门标签