综述：适体中的人工智能——目标结合预测

原文地址：https://doi.org/10.3390/ijms22073605

综述了人工智能管道/方法的进展，包括基于结构的方法和基于机器/深度学习的方法，用于预测适配体与目标的结合能力

回顾了适配体的二级和三级结构预测方法、分子对接以及适配体与靶标结合的分子动力学模拟方法。

这一综述有助于高通量和更少费力的计算机方法在适配体选择和表征中的开发和应用。

介绍

一些研究人员使用计算方法来选择适配体候选物，因为它们方便且成本低。这些方法旨在通过结构信息预测适体对靶标的亲和力

已经提出了许多在线服务器，如RNAfold和RNAComposer，用于预测RNA/DNA的二级结构和三维（3D）结构

机器/深度学习方法不需要适体的结构信息，因此能够有效地探索更大量的实验数据。此外，使用更大的训练数据集可以提高机器/深度学习方法的性能

因此，基于这些优势，本文讨论了在适体亲和性预测中使用机器/深度学习算法的前景。

基于结构信息的适体亲和性预测

通过计算方法选择适配体的典型建模工作流

首先，通过其序列预测适体的二级结构。
其次，二级结构采用三级结构的预测和优化。
随后，进行刚性或柔性分子对接以预测适配体-靶复合物的结构。
最后，进行了分子动力学模拟，以评估适体-靶结合模式的稳定性。

适配体的二级结构预测

适配体二级结构是三级结构的抽象形式，在适配体和靶分子之间的结合中起着关键作用。例如，通过形成二级结构，如G-四链体、发夹环和T结，可以提高结合亲和力

RNAfold 选择RNAfold来预测四环素适体
Mfold 选择了四种ssDNA适体来抑制血管紧张素II的活性
RNAstructure 利用RNA结构预测抗17β-雌二醇的DNA适体和适体的二级结构
Vfold2D 使用Vfold2D程序从序列中预测抗人类免疫缺陷病毒-1逆转录酶（HIV-1RT）适配体的二级结构
CentroidFold CentroidFold web服务器用于预测靶向血管生成素-2的RNA适配体的二级结构

当前用于二级结构预测的在线服务器可分为两大类：基于自由能量的方法和基于序列对齐的方法

配体的3D结构预测

RNA适配体的结构预测

适配体可以与其靶蛋白形成复合物，以实现不同的生物学功能。由于3D结构决定了生物分子的功能，因此适配体的精确3D建模非常重要。目前，主要用于RNA 3D结构预测的四个在线网络服务器RNAComposer、3dRNA、Vfold3D和SimRNA已被用于RNA适体的结构构建。

这四个在线网络服务器可分为两类：片段方法（RNAComposer、3dRNA和Vfold3D）和基于能量的方法（SimRNA）

输入数据包括RNA序列和RNA二级结构（用点括号表示）

使用RNAComposer、3dRNA、Vfold3D和SimRNA在线服务器预测了适体的3D结构。均方根偏差（RMSD）是原子间平均距离的度量，通过将PDB数据库中适配体的预测结构与真实3D结构对齐，来比较这些服务器的精度。

还比较了与靶蛋白对接的适配体的预测结构和确定结构之间结合能的变化。选择适配体2LUN及其靶蛋白（炭疽杆菌核糖体蛋白S8）作为参考组。使用Vfold3D、SimRNA、RNAcomposer和3dRNA预测的3D结构来检查与所确定的适体结构的结合能的变化。从PDB数据库（ID 4PDB）下载目标蛋白的3D结构，并将蛋白与适体的结合位点设置为LYS54、GLN80、ALA114、SER130和GLY147。分子对接是使用ZDock（Discovery Studio）完成的，它可以使用以下公式计算结合能值：binding_energy=complex_energy–（protein_energy+ligand_energy）。

DNA适体的结构预测

RNA的3D结构预测方法通常用于DNA结构预测。

RNAComposer可用于生成RNA的3D结构，然后转化为DNA结构。例如，Iman等人介绍了预测DNA适体3D结构的工作流程。工作流程可分为四个主要步骤。

首先，使用Mfold在线web服务器预测DNA适体的二级结构。
其次，使用Assemble2/Chimera软件构建3D RNA。
第三，使用VMD软件将3D RNA结构翻译为3D DNA结构。
最后，使用VMD软件细化DNA适体的3D结构。

对接分子

对接是预测蛋白质和配体的主要结合模式和结合位点的关键工具。对于分子对接工具，有两个主要步骤：首先，搜索蛋白质和配体之间的所有潜在结合位；其次，提供评分函数来评估这些结合姿势

在分子对接工具中，ZDOCK、MDockPP、AutoDock、AutoDock-Vina和DOCK已在适配体设计中显示出成功的结果。

分子动力学(MD)

分子对接后，需要进行MD模拟，以评估蛋白质-适体复合物的稳定性并确定结合能

典型的MD过程包含描述原子相互作用和模型物理的初始分子构型，运行模拟，并记录轨迹观察结果

目前，MD在许多软件包中可用，如AMBER和GROMACS。蛋白质-适配体复合物的结合能可以通过从复合物能量中减去蛋白质能量和配体能量之和来简单计算。Shcherbinin等人研究并设计了针对细胞色素p450的适配体。GROMACS 4.0程序用于对针对人凝血酶的DNA适配体进行MD模拟

G-Quadruplex（G4）适配体的结构预测

G4是由特定的富含鸟嘌呤的寡核苷酸形成的非经典核酸结构。G4的主要成分是鸟嘌呤四分体，这是一种由四个鸟嘌呤组成的环状平面排列，通过Hoogsteen氢键相连。此外，G4中心的阳离子可以进一步稳定G4结构。富含鸟嘌呤的适体能够在生理条件下折叠成稳定的G4结构，并识别不同的蛋白质。

G4结构适配体已被用作治疗和诊断工具，如抗凝剂和抗癌剂

通过机器/深度学习预测适体亲和性

基于结构的方法不适合或不能同时扫描和预测大量序列对一个目标的亲和力。机器/深度学习方法可以直接有效地用于预测下一代测序数据中的大量序列。此外，机器/深度学习方法可以提供更准确的亲和性预测。

适体预测中的机器学习

机器学习（ML）方法可分为基于特征的方法和基于相似性的方法。基于特征的方法使用描述符来生成特征向量，而基于相似度的方法使用“关联有罪”规则。基于候选体之间的相似性来预测适体候选体与其靶标之间的结合亲和力。相似性通常通过基于序列或结构的特征的聚类分析来评估

基于序列的聚类

序列聚类工具通过识别SELEX池中不同适体的实际序列（A/T/G/Cs）之间的相似性来发现密切相关的序列。将适配体视为简单的序列字符串，因此利用了先前开发的高效字符串比较算法。

AptaCluster可以基于局部敏感哈希（LSH）方法计算适体序列之间的相似性，该方法可以比较维数减少的序列。FASTAptamer和PATTERNITY Seq都使用Levenshtein距离来聚类序列。Levenshtein距离是通过计算将一个单词转换为另一个单词所需的插入/删除/替换的最小数量来确定的。通过仅使用A/T/G/C字符串来表示适配体，这些序列聚类模型能够实现分析大型SELEX数据集的高速。然而，这些模型的准确性是一个缺点，因为没有考虑对确定适配体结合亲和力至关重要的结构信息

基于结构的聚类

基于结构的聚类模型试图基于共享的结构基序和信息来聚类适体，并基于与具有已知目标亲和力的适体的相似性来预测结合亲和力

AptaTrace和APTANI是两个模型，均基于其结构基序对适配体进行聚类

AptaTrace试图将在适配体库中观察到的每个结构基序与其对富集水平的影响联系起来。此外，在每一轮选择中，可以预测每个适体的特定结构，然后通过结构富集对候选体进行排序

APTANI是一种基于AptaMotif算法的工具，用于分析SELEX数据。AptaMotif是一种基于集成的方法，可有效地从SELEX衍生的适配体中提取结构基序

SMART-Aptamer用于通过多层次结构分析和无监督机器学习识别高结合亲和力适配体。该模型在考虑整体二级结构的同时，使用了基序发现和基于聚类的策略。

RaptRanker使用聚类、评分和排序方法来识别具有高结合亲和力的适配体。首先，确定数据集中的特定序列，并使用核苷酸序列和二级结构特征对特定序列的所有子序列进行聚类。然后，为了识别具有高结合亲和力的适体，将平均基序富集（AME）分数应用于每个特定序列，并基于子序列簇的频率计算。这些模型可以结合领域知识并捕获关于适配体结合的结构信息；由于需要预测二级结构，它们往往需要更长的运行时间

这些工具基于聚类，可能偏向于与已经观察到的序列高度相似的适配体。因此，这些模型限制了优化SELEX结果的能力

基于特征的机器学习

监督机器学习包括从标记的训练数据学习函数，该函数可以预测未标记数据的结果

李的团队提出了一种方法，将来自适配体及其靶蛋白的特征整合到适配体碱基中。他们使用最大相关性最小冗余（mRMR）方法和增量特征选择（IFS）方法来选择特征，然后开发了一个随机森林模型。

Zhu等人提出了一种集成策略，以预测适体-蛋白质相互作用，该策略基于来自适体和目标蛋白质的序列特征。应用稀疏自动编码器来表征目标蛋白序列的特征。然后，应用梯度增强决策树（GBDT）和增量特征选择（IFS）方法获得序列特征的最优组合。最后，基于三个子支持向量机（SVM）分类器构建了预测模型

这些模型是经验型和知识型的，需要广泛的培训。而且，这些具有序列数据的浅层机器学习模型通常无法完全学习关键特征（如距离相关性），导致预测不准确。

适体预测中的深度学习

深度学习模型可能比机器学习模型具有更好的性能，因为它们在不需要特征工程的情况下学习特征，因此可以模拟长距离和多体原子交互。输入数据的表示和深度学习架构是深度学习应用中的两个主要方面。

根据输入数据，目前的研究可以分为基于序列的模型和基于结构的模型，以预测适体-靶结合亲和力

适体研究中广泛使用的深度学习架构基于循环神经网络（RNN）、卷积神经网络（CNN）或通用回归神经网络（GRNN）。

基于RNN的模型通常与适体序列一起使用，因为它们可以处理测序信息作为深度网络中的输入。GRNN与径向基函数神经网络略有不同，该方法是每个训练样本代表径向基神经元的平均值。基于CNN的模型可以通过一系列具有滤波器、池和完全连接层的卷积层来训练和测试输入数据，因此它们通常用于基于结构信息来预测结合能力

Michael等人通过应用适配体对小分子柔红霉素的条件变分自动编码（CVAE）模型来预测适配体结合亲和力，CAVE模型使用基于RNN的双向长短期存储网络（LSTM）作为编码器，使用一系列并行前馈网络作为解码器。该模型可以捕捉适体序列的复杂关系，以预测具有高亲和力的新适体序列，而无需推断结构数据

Yu等人开发了基于GRNN的定量结构-活性关系（QSAR），以预测适配体与流感病毒之间的结合亲和力。通过GRNN模型计算分子描述符，以从适体序列中提取结构特征

这些研究证明了通过深度学习模型计算适体结合亲和力以及预测具有更高亲和力的新适体候选体的可行性

论文阅读：Artificial Intelligence in Aptamer–Target Binding Prediction