财新传媒

清华学者在《自然》子刊提出新算法 用于精准预测药物标靶

2017年09月20日 12:08 来源于 财新网
可以听文章啦!
智能算法如何助力新药发现?

  整理 | 常春藤

  在知识高度专业化的今天,不同学科的交叉合作,会带来令人意想不到的发现。

  9月18日,清华大学交叉信息学院曾坚阳课题组、药学院陈立功课题组与美国伊利诺伊大学香槟分校彭健教授研究组合作,开展的关于大规模异构网络中药物—标靶相互作用预测的论文发表在《自然•通讯》(Nature Communications)杂志上。

33
清华大学和伊利诺伊大学香槟分校学者在《自然》子刊提出新算法,用于精准预测药物靶标,论文共同第一作者为交叉信息研究院计算机科学实验班(姚班)2012级本科生罗宇男(目前在美国伊利诺伊大学香槟分校攻读博士学位)、药学院博士生赵心彬以及药学院2012级本科生周镜天(目前在美国加州大学圣地亚哥分校攻读博士学位)。

  在这项研究中,研究者提出了一套新颖的预测药物—标靶相互作用的机器学习算法,预测并发现了新的药物—标靶基因相互作用关系,并且得到了湿实验验证。该工作对大规模生物数据整合及预测、药物开发与重新利用具有很大意义。

  据高盛此前公布的一份报告显示,机器学习和人工智能可显著地推动药物发现和开发过程,每年可以为药厂减少数以百亿计的研发成本。

33
DTINET算法模型的示意图

  虽然大规模基因组、化学和药理数据的出现为药物—标靶相互作用预测提供了新的机会,但如何系统且高效地整合大规模异构数据是当前的研究难点。

  这项研究的通讯作者对《知识分子》表示:

  “此前的算法大多局限在对单一类型数据的处理,没有考虑到生物数据高维度、多噪音等问题。而我们的工作系统地整合了多种类型的异构网络数据,通过压缩特征学习,克服了生物数据高维度、多噪音特性带来的问题,取得了比之前算法更高的预测准确率。”

  在这项研究中,研究者从目前已有的大规模数据库出发,构建了一个涵盖描述标靶基因、药物、药物副作用、疾病等相互作用或者联系的大规模异构网络。其次,在这个异构网络数据的基础上,提出了一个基于网络扩散的药物—靶标相互作用预测的机器学习算法。该算法使用特征学习算法,用低维表示刻画了每一个药物及基因的拓扑性质,从而去除生物数据中的噪音,提取出药物和基因的功能信息,并提升预测的准确性。

  “我们为数据库中的所有药物构建了一个异构网络,网络中的不同节点代表了这些药物,药物之间有边相连,这些边有着不同的含义,比如代表被相连的药物能治疗相同的疾病,或者是具有相同的副作用,或者是具有相似的化学分子结构。同样地,我们为数据库中的标靶蛋白也构建了这样一个网络。我们的算法在构建的异构网络上进行学习”,这项研究的第一作者罗宇男进一步解释到,“该算法主要分为无监督学习和有监督学习两步。在无监督学习步骤中,我们使用一项压缩特征学习技术,它首先利用网络扩散过程整合了异构网络中的不同数据,然后通过一个降维操作去除了原始数据中的噪音,并为网络中的每一种药物或者标靶蛋白都计算出了一个低维的特征向量表示。这些特征向量刻画了药物或者标靶蛋白在网络中的拓扑特征和功能特征。之后我们采用有监督学习的方式,利用已经被发现的药物—标靶作用关系,学习了一个投影矩阵,将药物和标靶蛋白的特征向量都投影到同一个空间下,使得能够发生相互作用的药物和标靶蛋白的特征向量在该空间中位置更为接近。通过利用异构网络,再结合上述整套的算法,我们实现了对药物—标靶作用关系的预测。”

  与现有常见的预测算法比较,该方法在预测准确率上取得了显著的提高。此外,该方法所预测的新相互关系大部分能够从已知的数据库或者近期文献中的新结果获得证实。

33
基于算法,筛选出来的三个小分子药物对两种与炎症有关蛋白的抑制作用

  这项研究还对该方法预测的、且未被之前研究工作所报道的药物—靶标相互作用关系进行了湿实验方面验证,发现该方法预测的存在于Alendronate,Telmisartan和Chlorpropamide这三种药以及PTGS1和PTGS2这两种标靶基因之间的作用关系,确实显现了相互作用现象,能显示它们可能具有抗炎症的功能。

  对不同类型的药物,如小分子药和生物药,该算法的预测精准是否一致?未来是否会有进一步的提升空间?研究者表示:

  “目前,我们的算法主要针对化学小分子药物,不适用于生物药。算法还有继续提升的空间,在算法层面,我们能进一步优化代码设计,提升运算性能,使得该算法更为高效和精确,并成为一个能被研究者和相关从业人员所广泛使用的易用工具;在数据层面,我们的算法有着很好的扩展性,可整合更大规模和更多种类的生物数据,当前生物数据的规模正在不断增大,数据种类也在不断增多,这将为我们的算法提供了更多的训练数据,使得模型预测准确率的可以进一步提升。”

  研究者表示,该算法可快速地在上千个候选化合物中预测出最有可能与给定标靶蛋白发生相互作用的若干种药物,极大地减小了搜索的空间,缩减生物实验的成本和时间,加速新药研发的速度。同时该算法也可用于预测已有药物的新用途。

  至于这项研究的下一步工作,曾坚阳和陈立功表示:

  主要是不断优化算法,整合更多不同类型的数据,如基因表达数据和药物敏感性数据等,同时也计划基于算法的预测结果进行不同类型的生物实验,帮助研究者对药物之间的相互关系、药物的作用机制,有一个更全面的理解。

  注:本文图片由作者提供以及来自论文。

  参考文献

  Luo YN et al. A Network Integration Approach for Drug-Target Interaction Prediction and Computational Drug Repositioning from Heterogeneous Information. 2017. Nature Communications. 10.1038/s41467-017-00680-8.

  《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想

知识分子

责任编辑:于达维 | 版面编辑:邱楠添
推广

财新微信