人工智能在药物设计和发现中的应用进展-中联科创

　　1、前言

　　机器学习（Machine Learning，ML）属于人工智能的子领域，它是研究机器能够熟练执行智能任务的过程和实用性，而无需为这些任务明确编程。最近，人工智能系统已经接近人类在一些任务上的表现，如游戏和图像识别，但这些是在非常狭窄和集中的领域。尽管如此，人工智能的各种形式如今已成功地应用于大范围的领域：从机器人、语音翻译和图像分析，再到药物分子设计的应用。

　　在药物发现中，最好的人工智能不一定是能够自主设计一种新药的单一人工智能，而是一种或多种不同的人工智能，能够在整个药物发现过程中更好地理解和设计新的输入，从靶点选择、命中识别、引导优化到临床前研究，最后到临床试验。

　　人工智能在药物发现中能起着关键作用，特别是人工神经网络，如深度神经网络或循环网络，驱动着这一领域的发展。在性质或活性预测方面的许多应用，如物理化学和ADMET性质，定量结构-性质关系（QSPR）或定量结构-活性关系（QSAR）等技术支撑着这方面的应用。人工智能推动生物活性分子朝着期望的特性发展，结合合成计划和易合成的可行性，计算机自动发现药物的可能性越来越大。

　　2、介绍

　　人工智能包括机器学习等技术是为学习和预测新特性建立的，尤其是人工神经网络，如深度神经网络（deep neural netwroks, DNNs）或递归神经网络（recurrent neural networks, RNNs），推动了人工智能的发展。

中联科创人工智能研究开发

　　自20世纪60年代以来，药物化学就开始使用人工智能应用于新化合物的设计，其中有标记训练数据集的训练模型被广泛应用于分子设计中。定量构效关系（QSAR）方法广泛用于预测化学结构的性质，如logp、溶解度和生物活性。相反，不依赖于标签的无监督机器学习也在医学和化学中使用，例如层次聚类、算法和主成分分析等用于分析大分子库。

　　药物化学研究中，当深度学习体系结构在性能预测方面显示出好结果时，新型人工智能技术受到了广泛关注。在Merck Kaggle和NIH Tox21挑战中，与基础机器学习方法相比，深度神经网络显示出更好的预测性。

　　3、人工智能应用于化合物属性预测

　　在药物发现中，临床候选化合物分子必须满足一组不同的标准。除了对生物靶的有效效力外，该化合物应对不针对的靶标具有相当的选择性，并且具有良好的物理化学和ADMET特性（吸收、分布、代谢、排泄和毒性特性）。因此，化合物优化是一个多维度的挑战。在多维优化过程中，采用了大量的硅预测方法，特别是一些机器学习技术已经被成功应用，例如支持向量机器（support vector machines, SVM）、随机森林（Random Forests, RF）或贝叶斯学习。

　　属性预测机器学习中的一个重要方面是可以访问大型数据集，这是应用人工智能的先决条件。在制药工业中，化合物优化过程中收集了许多不同性质的大数据集，这种有针对目标和反目标的大型数据集可用于不同的化学系列，并系统地用于训练机器学习模型，以驱动化合物优化。

　　其中一个例子就是对不同激酶活性的预测。不同激酶项目中的选择性分析能产生更大的数据集，这些数据集被系统地用于模型生成。为了对QSAR进行分析，二元贝叶斯QSAR模型是从92种不同激酶上的130000个化合物大数据矩阵生成的。这些模型应用于新的化合物，以产生亲和指纹，用于训练和预测数据点相对较少新激酶生物活性的模型。

　　在公共领域，大型数据集可用于推导机器学习模型，以预测跨目标活性。这些模型可应用于药物再利用和现有药物新靶点的确定。使用相似系综(SEA, Similarity Ensemble Approach)方法证明了化合物再利用的成功应用。SEA是一种基于相似性的方法，将每个靶点的配体相互对比，以观察相似性相对于随机分布的重要性。

　　在Kaggle竞争的成功刺激下，深度神经网络被用于许多属性预测。深度神经网络属于人工神经网络的一类，它是受大脑启发的系统，有多个节点（神经元），像大脑中的神经元一样可以相互连接。来自不同节点的信号被转换并联到下一层的神经元（图1）。输入层和输出层之间的层称为隐藏层，在神经网络训练过程中，对不同节点的权值和偏差进行调整。与浅层体系结构相比，深度神经网络使用的隐藏层和节点数量要多得多。因此，在神经网络的训练过程中，必须拟合大量的参数。为了解决过度拟合问题，如退出或使用校正线性单元来解决消失梯度问题，需要增加计算能力和大量算法改进。

　　DNNs已用于许多属性预测的实例中。与其它机器学习方法比较，DNNs具有更好的性能，如在生物活性预测、ADMET特性和物理化学参数。在Kaggle竞争中，与使用二维拓扑描述符的随机森林方法相比，15个分析中的13个DNN表现出更好的性能。

　　在另一项研究中，使用了ChEMBL的广泛数据集，其中包括超过5000种不同的分析，以及使用扩展连接指纹（ECFP4）近750000种化合物。DNNs表现出优于用于比较ROC曲线下面积的其他几种机器的学习方法。

　　Lenselik等对ChEMBL的数据集进行了大型基准研究，得出了类似的结论，即DNN方法的性能更好。在这项研究中，时间验证被用于性能比较，其中训练和测试数据根据发布日期进行分割。在时间验证中，性能度量明显小于随机分割方法，这可能更接近真实的预测。

　　Korotcov等将DNN与其他机器学习算法进行比较，得出生物活性、溶解性和ADME特性等不同的端点。在该研究中，使用了功能类别指纹（fcfp6）的指纹。DNN的性能优于SVM方法，后者又优于其他测试的机器学习技术。

　　深度学习也被用于毒性预测。Tox21竞争的结果表明，DNN对12个不同的毒性终点具有良好的预测性。研究表明，DNN能够提取分子特征，这些特征被认为与已知的毒理成分有关，说明这样的网络似乎可以在不同的隐藏层中学习更多抽象的代表物。图2给出了网络检测到的这些特性的示例。虽然从DNN中衍生出来相关的结构元素是有希望的，但所示的片段显然太普通，不适合在毒理学领域没有专门知识的情况下用于药物发现。此外，训练数据集的组成对模型的预测性和适用性领域以及网络学习有很大影响。DeepTox管道使用不同模型的集合，但由DNN预测主导，它在12个有毒终点中有9个优于其他机器学习方法。

　　另一个预测有毒性终点的例子已被用于预测药物性肝损伤（DILI）。对475种化合物进行了网络学习，并对198种化合物进行了性能测试。药物肝毒性预测具有良好的统计参数，准确率为86.9%，敏感性为82.5%，特异性为92.9%，AUC为0.995。利用PAdel和Mold中的分子描述符，结合线平分法，利用UG-RNN结构编码方法得到了分子描述。在UG-RNN方法中，描述符是从捕获无向图的化学结构中推导出来的。重原子表示为节点，键表示边。该图被输入到递归神经网络中(RNNs)(Fig 3)。

　　利用神经网络进行分子结构编码是化学信息学领域的一个新发展。尽管迄今为止描述的大多数例子都使用经典描述符，但越来越多的神经网络选择化学描述符，其思想是神经网络能够学习那个最适合的代表性实际问题。

　　图卷积（Graph Convolutional Models）模型源自圆形指纹的概念。信息是通过添加来自远距离原子的信息，它们是沿着一定的键距离生长而得到的。这些迭代是对每个原子进行的，最后合并成一个固定长度的向量，这个向量进入一个神经网络进行属性预测。在图卷积模型中，分子描述层是可微网络的一部分（图3）。

　　QSAR和机器学习模型尽管可以使用多个端点，但通常针对一个端点进行训练。DNNs提供了将多个端点的预测系统并结合多任务学习的可能性。多任务学习可以提高预测质量，这一点已被多项研究所证实。

　　被观察到关于最佳性能的结论依赖于时间或随机分裂类型的验证，仅仅添加大量的数据并不能保证对预测性产生积极的影响。虽然多任务学习似乎对各种不同的数据集有有益的影响，但也有一些端点的预测性下降。研究表明在多任务学习中，一些信息是从其他端点“借用”来的，从而改善预测。当一个终点训练数据中的化合物与第二个终点的测试数据中化合物相似时，可以观察到一个改进的r2，并且活性是相关的（正的或负的）。如果活性不相关，则观察到r2下降的趋势。如果两个端点之间的分子彼此不同，多任务学习不会对r2产生显著影响。

　　Bajorath等人使用一组大约100000种化合物，针对53个不同的靶标开发了一个模型预测小组。总体而言，它实现了良好的预测性。有趣的是，DNNs和其他机器学习技术之间的比较并没有产生深度学习方法的任何优越性。

　　深度学习已经被广泛地验证为许多不同的数据集和学习任务。在许多比较中，与成熟的机器学习技术相比，DNNs显示出了优越性。最近，大规模不同方法的比较也证明了这一点，其中，DNNs的性能被描述为与体外试验相当。然而，许多研究都是回顾性地进行以证明深度学习体系结构在性能预测中的适用性，通常使用像ChEMBL这样的公共数据集建立的机器学习算法进行比较。在ChEMBL中，生物数据通常只对一个靶标可用，从而形成稀疏的矩阵，使得跨目标学习成为一个重大挑战。因此，DNNs明显优于其他机器学习方法，特别是对许多其他机器学习方法，训练和参数优化的要求较低。

　　4、人工智能应用于新化合物分子设计

　　在没有参考化合物时，从头设计开发新的活性分子需要约25年。由于人工智能领域的发展，从头设计化合物最近出现有一些新的进展。一种有趣的方法是变分自动编码器（图4），它由两个神经网络、编码器网络和解码器网络组成。编码器网络将由SMILES表示定义的化学结构转换为一个实值连续向量作为潜在空间。解码器能将来自该潜在空间的矢量转换为化学结构。

　　这一特性被用于寻找潜在空间的最优解决方案，并通过解码网络将这些向量反向转化为真实分子结构。对于大多数反编译，一个分子占主导地位，但存在细微的结构修改的可能性较小。使用潜在空间代表来训练基于QED药物相似性评分和合成可及性评分SAS的模型。可以得到一条具有改进目标性质的分子路径。在另一份文章中，将这种变分自动编码器的性能与对抗性自动编码器进行了比较。对抗式自动编码器由产生新型化学结构的生成模型组成。

　　第二个识别性的对抗模型被训练来区分真实分子和生成分子，而生成模型试图欺骗识别性分子。在生成模式下，对抗式自动编码器比变分式自动编码器产生的结构更为有效。结合硅片模型，可以得到新的结构，预测对多巴胺受体2型有活性。

　　递归神经网络（RNNs）已成功地应用于化合物新设计中。最初，它们是在自然语言处理领域建立的。RNN以顺序信息作为输入，由于SMILES字符串以字母序列编码化学结构，RNNs已被用于生成化学结构。为了训练神经网络SMILES字符串的语法，RNNs接受了从现有的化合物集合中提取的一大组化合物的训练，如ChEMBL或商用化合物。研究表明，RNNs能够产生大量有效的SMILES字符串。同样的方法也成功地用于新的肽结构的生成。强化学习模式成功地应用于使生成的化合物偏向所需的性质。

　　转移学习被用作为另一种策略来生成具有所需生物活性的新化学结构。第一步，网络被用来训练成一个拥有大的训练集来学习SMILES语法。第二步，继续使用具有所需活性的化合物进行训练。此外，很少有在训练阶段产生的新化合物能偏向于被活性分子占据的化学空间。

　　5、人工智能应用于化合物分子合成计划

　　有机合成是小分子药物发现计划的关键阶段。新的分子被合成，以沿着化合物优化路径前进，并识别具有改进的分子。在某些情况下，合成挑战限制了设计分子可被利用的空间。因此，合成计划是药物发现的关键步骤。开发了许多计算方法来协助合成计划，有几个方面：用一组给定的先导化合物预测一个反应的结果，预测一个化学反应的产量以及逆向合成计划。逆向合成计划主要由基于知识的系统控制，这些系统基于专家派生的规则或自动从反应数据库中提取的规则。

　　近年来，已有许多基于机器学习的前向合成预测方法。前向合成预测提供了逆向合成分析的合成路线排序。在一种方法中，量子化学描述符与人工编码规则和机器学习相结合，以预测反应及其产物。该方法最近被扩展到预测多步反应。在另一种方法中，用从Reaxys中提取的数百万个反应训练了一个深度神经网络。该网络表现优于用于比较的专家系统。对于自动导出的8720个模板规则的反应，报告有78%准确度。

　　人工智能也用于逆向合成分析。刘等使用了一个基于序列到序列的逆合成反应预测模型。反应物和产物由RNNs的SMILES字符串编码，并在编码器-解码器体系结构中相互耦合。该训练集涵盖了10种广泛的反应类型，如C-C键形成、还原、氧化、杂原子烷基化等，包括来自美国专利文献的50000个反应。该技术的总体性能与基于规则的专家系统相当，但在不同的反应类别上观察到了很大的差异。在不同的方法中，推荐系统被用来识别生成期望产物的反应物。然而在验证中获得的AUCs表明该系统需要进一步改进。

　　三个深度神经网络与蒙特卡罗树搜索相结合，用于逆向合成预测，取得了良好的性能。从整个Reaxys数据库中提取训练和测试数据集，并及时进行分割。对于2015年后合成的497种不同分子的试验，提出了超过80%的正确合成路线。

　　6、结论与展望

　　人工智能近年来备受关注，并已成功进入药物发现领域。许多机器学习方法，如QSAR方法、SVMs或随机森林法，都是药物发现过程中建立起来的。基于神经网络的新算法，如深度神经网络，为属性预测提供了进一步的改进，这在许多比较深学习与经典机器学习的基准研究中已经显现出来。这些新算法在许多不同应用中的适用性已经得到证明，包括物理化学性质、生物活性和毒性等。

　　多任务学习的一些好处也得到了证明，其中相关属性的预测受益于联合学习。未来的改进可以通过学习一种适应当前化学的代表性问题来实现。首先，我们已经努力从这些问题中识别相关的化学特征，也指出了这些算法的一个主要挑战，即它们的“黑匣子”特征。从深层神经网络中提取某些化合物是非常困难的，如果人工智能越来越多地引导合成这些资源，这就变得很相关了。

　　人工智能在药物发现中的应用得益于开源实现，它提供了对软件库的访问，允许实现复杂的神经网络。因此，像TensorFlow或Keras这样的开放源码库经常被用于在药物发现中实现不同的神经网络结构。此外，Deepchem库提供了一个围绕TensorFlow的包装器，它简化了化学结构的处理。

　　近年来，人工智能系统的应用范围大大扩大，包括从头设计或逆合成分析，预示我们将在有大型数据集可用的领域看到越来越多的应用。随着在这些不同领域的进展，我们可以预料到越来越多的计算机将用于自动药物发现。尤其是机器人技术的巨大进步将加速这一进展。然而，人工智能还远未达到完美。具有良好理论背景的其他技术仍然很重要。特别是，由于它们受益于计算能力的提高，因此可以用更精确的方法模拟更大的系统。