论文阅读 | Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA

蛋白质-RNA 和蛋白质-DNA 复合物在生物学中发挥着关键作用。尽管蛋白质结构预测方面最近取得了相当大的进展,但与已知复合物没有同源性的蛋白质-核酸复合物的结构预测在很大程度上是一个尚未解决的问题。在这里,我们扩展了 RoseTTAFold 机器学习蛋白质结构预测方法,以额外预测核酸和蛋白质-核酸复合物。我们开发了一个经过训练的网络 RoseTTAFoldNA,它可以快速生成三维结构模型,并对蛋白质 DNA 和蛋白质-RNA 复合物进行置信估计。在这里,我们表明,置信预测的准确性比当前最先进的方法要高得多。 RoseTTAFoldNA 应该广泛用于模拟天然存在的蛋白质-核酸复合物的结构,以及设计序列特异性 RNA 和 DNA 结合蛋白。

目前蛋白质-核酸复合物结构预测的方法包括分别构建蛋白质和核酸 (NA) 成分的模型,然后使用计算对接计算构建复合物。对于预测蛋白质成分,RoseTTAFold和 AlphaFold 等机器学习引导的方法非常准确,而 RNA 结构预测则结合使用了蒙特卡洛采样方法以及深度学习方法。尽管在预测单个成分方面取得了进展,但蛋白质-核酸复合物结构的预测仍然远远落后于单独的蛋白质结构或 RNA 结构的预测。

AlphaFold 和 RoseTTAFold 将一个或多个比对的蛋白质序列作为输入,并最终以并行的一维 (1D)、二维 (2D) 和三维 (3D,对于 RoseTTAFold)轨迹连续转换该信息输出三维蛋白质结构。这些深度网络中 10 到 100 秒的数百万个自由参数是通过对蛋白质数据库 (PDB) 中已知结构的大量蛋白质进行训练来学习的。 AlphaFold 和 RoseTTAFold 不仅可以生成蛋白质单体的准确模型,还可以生成蛋白质复合物的准确模型,通过数百次迭代的连续转换来建模折叠和结合。

鉴于蛋白质折叠和 RNA 折叠之间以及蛋白质-蛋白质结合和蛋白质-核酸结合之间的总体相似性,我们推断 AlphaFold 和 RoseTTAFold 的概念和技术可以扩展到核酸和蛋白质结构的预测 -仅从序列信息中提取核酸复合物。我们着手将 RoseTTAFold 推广到蛋白质之外的核酸模型,并通过对 PDB 中的结构进行训练来学习一般蛋白质-核酸系统所需的许多新参数。一开始的一个主要问题是 PDB 中是否有足够的核酸和蛋白质-核酸结构来训练准确且通用的模型; AlphaFold 成功的关键是 PDB 中数十万个蛋白质结构,但核酸结构和复合物却少了一个数量级。核酸相对于蛋白质的灵活性也可能使前者的预测变得更加困难。

我们的新模型 RoseTTAFoldNA 使用与 RoseTTAFold 相同的数据进行训练,并使用 PDB 中的所有 RNA、蛋白质-RNA 和蛋白质 DNA 复合物进行了增强。使用比任何训练集示例更新的核酸复合物,我们评估了其预测无同源物的蛋白质-核酸复合物结构的能力。我们还评估了模型对模型准确性的自我评估,并将我们的预测与 AlphaFold 和计算蛋白质-DNA 对接的组合进行比较。

Results

Rose TTAFold NA ( RFNA )的体系结构如图1所示。它基于RoseTTAFold的三轨结构,同时细化了生物分子系统的三种表示:序列( 1D ),残基对距离( 2D )和直角坐标( 3D )。除了几个改进以提高性能外,我们扩展了网络的所有三个轨道,以支持除蛋白质外的核酸。Rose TTAFold中的1D轨道22个标记,对应于20个氨基酸,一个21:”未知”的氨基酸或间隙标记和一个22:能够进行蛋白质设计的mask标记;为此,我们又增加了10个标记,分别对应于4个DNA核苷酸、4个RNA核苷酸、未知DNA和未知RNA

图1 | Rose TTAFold NA的体系结构概述。Rose TTAFold NA的三轨结构同时更新了蛋白质-核酸复合物的序列( 1D )、残基对( 2D )和结构( 3D )表示。红色区域强调了核酸掺入所必需的关键变化:1D轨迹的输入包括额外的NA标记,2D轨迹的输入代表模板蛋白- NA和NA – NA的距离(和方向),3D轨迹的输入代表模板或回收的NA坐标。最后,3D轨道和结构精修模块(右上)可以从一个坐标框架(代表磷酸基团)和一组10个扭转角( 6个骨架、3个核糖环和1个核苷)建立全原子核酸模型。在这个图中,\(d_{ij}\)是模板残基间的距离,SE ( 3 )是指三维的特殊欧几里得群。

Rose TTAFold中的二维轨迹建立了一个蛋白质或蛋白质组装体中所有氨基酸对之间相互作用的表示;我们将2D轨道推广到模拟核酸碱基之间以及碱基与氨基酸之间的相互作用。Rose TTAFold中的3D轨道表示每个氨基酸在由3个主链原子( N、CA和C)定义的框架中的位置和方向,最多可以有4个chi ngles来构建侧链。对于Rose TTAFold NA,我们将其扩展为包含每个核苷酸的表示,使用用于描述磷酸基团( P、OP1和OP2)的位置和方向的坐标框架,以及能够建立核苷酸中所有原子的10个扭转角。Rose TTAFoldNA由36个这样的3轨道层组成,之后又增加了4个结构精修层,共计6 700万个参数。

我们使用蛋白质单体、蛋白质复合物、RNA单体、RNA二聚体、蛋白质- RNA复合物和蛋白质- DNA复合物的组合来训练这个端到端的蛋白质- NA结构预测网络,其中蛋白质和含NA结构的比例为60 / 40 (见method)。除DNA双螺旋外的多链组装体被断裂成两对相互作用的链。对于每个输入的结构或复合物,使用序列相似性搜索来生成相关蛋白质和核酸分子的多序列比对( MSAs )。

  • 损失函数

通过最小化由定义在所有蛋白质和核酸原子上的全原子框架对齐点误差( Frame Aligned Point Error,FAPE ) loss的泛化( Method )组成的损失函数,以及评估掩蔽序列片段的恢复残基-残基(无论是氨基酸还是核苷酸)相互作用几何和误差预测精度的额外贡献来优化网络参数。

将分子中的所有原子,对于每个局部frame分别做重叠操作(笔者认为相当于是使得residue对应的刚体三角形重合),再对每个原子计算距离并设置上限 \(min(d_{ij},d_{clamp})\) ,加和取平均即可得到FAPE。

为了尽量弥补PDB (遵循基于序列相似性的聚类以减少冗余,有1632个RNA簇和1556个蛋白质-核酸复合物簇相比 , 128个所有蛋白质簇)中包含核酸结构数量少得多的不足,我们还将伦纳德-Jones形式的物理信息(LJ势)和氢键能作为输入特征加入到最终的精修层中,并作为微调过程中损失函数的一部分。在训练过程中,保留10 %的簇用于模型验证。

LJ势(Lennard-Jones potential)是一种用于描述分子间相互作用的势能函数,广泛应用于物理和化学领域。LJ势的基本形式包括两个主要部分:吸引力和排斥力。吸引力部分通常表示为 \(u(r)=\frac{A}{r^{12}}\)​,而排斥力部分表示为\(u(r)=\frac{B}{r^{6}}\)​,其中 r 是分子间的距离,A 和 B 是常数。

我们使用2020年5月之前确定的结构来训练模型,并使用此后求解的RNA和蛋白质- NA结构作为额外的独立验证集。对于验证集,复合物没有被分解成相互作用对,并被完全处理为完整的复合物。对于含有多条蛋白链的复合物,生成成对MSAs,如前所述。由于GPU内存限制,对于验证集,我们排除了总氨基酸和核苷酸超过1,000的复合物,这导致验证集包含520例( 98簇)具有单个RNA链,224例( 116簇)具有单个蛋白质分子加单个RNA链( 62 / 28簇)或DNA双链( 162 / 88簇)的复合物,以及161例具有多个蛋白质链或超过单个RNA链或DNA双链的复合物。

预测蛋白- NA复合物

RoseTTAFoldNA对224个单体蛋白- NA复合物的结果总结如图2所示,显示为116个簇。预测相当准确,平均局部距离差异检验( lDDT )为0.73,29 %的模型lDDT > 0.8 ( 19 % ,见图2a),约45 %的模型包含超过一半的蛋白质与NA (自然接触的比例, FNAT > 0.5 , 35 %的团簇,图2c)的天然接触。Rose TTAFoldNA与Rose TTAFold和Alpha Fold一样,不仅输出预测的结构,还输出预测的模型置信度,正如预期的那样,该方法正确地识别了哪些结构模型是准确的。

图2 |蛋白质-核酸结构预测. a ~ c,对来自验证集的32个蛋白质- NA簇代表和2020年5月以来发布的84个蛋白质- NA结构的结果汇总. a,预测精度( true lDDT为原生结构)与预测置信度(模型预测的lDDT)的散点图表明模型正确地识别了不准确的预测. b,模型似乎具有良好的泛化性,在蛋白质- NA训练集中有序列同源物和无序列同源物的结构之间没有明显的性能差异. c,预测中重演的天然界面接触散点图( FNAT )与训练数据的序列相似性.通过CAPRI指标,总共有35 %的预测被评为”可接受”或更好,并且有78 %的预测具有高置信度的(平均界面PAE < 10 )。d – g。训练集中没有同源物的蛋白质- NA复合物的四个例子:BpuJ1核酸内切酶与修饰的同源DNA ( d , PBD ID : 5hlt)21结合;肿瘤抗原p53与同源DNA的结合具有诱导匹配序列特异性( e , PDB ID : 3q05)22;Smp B结合到转移-信使RNA ( f , PDB ID : 1p6v)23的tRNA – like结构域;并且一个端粒酶逆转录酶与该酶的RNA组分( g , PDB ID : 4o26)24结合。

虽然只有38 %的复合物( 28 %)被预测到具有高置信度的(平均界面预测对齐误差, PAE < 10),但其中81 %的( 78 %)正确地模拟了蛋白质- NA界面( CAPRI指标”可接受”或更好15)。在与训练蛋白质- NA结构没有可检测序列相似性的33个簇上,准确率与(平均lDDT = 0.68 , 24 %的模型lDDT > 0.8 , 42 %的模型FNAT > 0.5)相似,并且模型仍然能够正确识别准确的预测-该子集的24 %的预测具有高置信度,其中根据CAPRI度量,所有8个都具有可接受的接口。训练集中没有序列同源物的结构的四个预测结果如图2d – g所示。包括核酸内切酶Bpu J1、肿瘤抗原p53、与t RNA样RNA结构域结合的Smp B、端粒酶逆转录酶成分等。这些预测的不准确性可以在柔性末端区域(图2e , g),DNA双螺旋相对于界面的轻微倾斜(图2e )和RNA三级结构(图2f , g)中发现,但界面显然是正确的。

在Rose TTAFold NA不能产生准确预测的情况下,最常见的原因是单个亚基的预测不佳,通常是大的多结构域蛋白、大的RNA ( > 100 nt )和小的单链核酸。当亚基预测准确时,最常见的失效模式是模型要么识别正确的结合取向,要么识别正确的界面残基,而不是两者兼而有之。其余界面完全不正确的情况往往只涉及略过的接触或严重扭曲的DNA。可能是不同的训练计划可以减少这些误差,但更可能是由于这些机制中的训练数据有限。扩展数据图1举例说明。


扩展数据图1 |蛋白质-核酸结构预测的失效模式。( a-d )代表性预测的比较显示,在没有样本集同源物的情况下,预测的常见失效模式。左边是沉积模型,右边是预测模型。( A )个别子单元预测准确性差,导致整体复杂( pdb ID : 6XMF)不正确的例子。这种情况代表了50 %的检查失败,通常是由非常大或非常小的单链核酸( > 100或< 20个核苷酸)、大的多结构域蛋白或严重扭曲的双链DNA造成的。( B )子单元预测精度合理,相对定向正确但界面细节错误( pdb ID : 7A9X)的例子。这样的情况占检查失败的20 %,也可能是由于小的单链核酸或单体结构的轻微偏差造成的。( C )亚基预测准确性高,骨架-骨架结合模式正确,但在DNA ( pdb ID : 4J2X)上的错误位点预测界面的例子。这样的案例占所考察失败案例的10 %。( D )两个亚基预测正确但相对取向和界面不正确的( pdb ID : 7LH9)的例子。这种情况代表了20 %的检查失败,可能是由于扭曲或非双链DNA结构或单体结构的微小偏差造成的。

Rose TTAFold NA预测不局限于只有单个蛋白亚基的复合物。图3总结了Rose TTAFold NA对161个多亚基蛋白- NA复合物的性能,其中大部分是与核酸双链结合的同源二聚体蛋白。其性能与单体蛋白-核酸复合物相似,平均lDDT = 0.72,30 %的情况下> 0.8lDDT,并且置信度和准确性之间具有良好的一致性(图3a )。图3b – d展示了3个例子,展示了模型预测复杂结构的能力,以及蛋白质结合引起的DNA “弯曲” (图3e )。图3f,g展示了另一个例子,蛋白质结构域的相对定位仅仅是通过共同预测这些复合物来实现的。这种影响无法通过先生成独立组件的模型,然后将它们严格对接的方法来预测。

图3 |多链蛋白质-核酸复合物的建模。a,对161个具有多条蛋白质链或多条核酸链/双链的蛋白质- NA复合物的预测模型精度与实际模型精度的散点图表明,模型准确地估计了误差。b-d,f,训练集中没有同源物的成功预测的例子,显示为沉积模型(左)和预测(右)。其中包括病毒染色质锚定蛋白KSHV LANA ( c , PDB ID : 4uzb)25,两个二聚体螺旋-转角-螺旋转录因子( b , PDB ID : 3u3w ; panel D , PDB ID : 4jcy)26,27和一个复制起始解旋复合物( f , PDB ID : 3vw4)28。E,g,example表示d ( e )和f ( g )所示的相同复合物对同一蛋白质或DNA双链体单独(左)和与另一组分(右)的不同预测构象。

Method

训练和验证数据处理

训练中使用的蛋白质和蛋白质复合物数据与训练RoseTTAFold2时使用的数据相同。除此之外,还增加了RNA和蛋白质-核酸复合物的数据。为了构建该数据集,我们收集了所有经过核磁共振、晶体学或冷冻电镜解析的分辨率优于4.5 Å的PDB。考虑2020年4月30日或之前发表的所有PDB结构构建数据集,并进行收集:

  • 所有RNA单链和所有RNA双链。通过寻找使至少10个氢键形成的RNA链对来定义双链。
  • 所有相互作用的蛋白质-核酸对。通过统计蛋白质的Cα与任意(非氢)核酸原子之间7个Å的接触次数来定义相互作用对;如果有超过16个这样的接触,则认为该对是相互作用的。如果DNA或RNA链至少形成10个氢键,则包括该核酸双链。

为了建模,使用了全长序列。所有的非标准碱基/氨基酸都转化为仅有骨架的”未知”残基类型。数据集大小为7,396个RNA链和23,583个复合物。然后使用\(1 × 10 ^{- 3}\)的hhblits对蛋白质和80 %的RNA分子的序列一致性进行聚类,产生1,632个非冗余的RNA簇和1,556个非冗余的蛋白质- NA簇。然后将这些聚类划分为训练集和验证集,并为训练集选择聚类;将包含验证集簇中任意成员( NA或蛋白质)的实例分配到验证集中。这导致在验证集中有199个蛋白- NA簇和116个RNA簇。

然后对训练集和验证集中的所有蛋白质和RNA序列建立多序列比对( MSAs )。蛋白质MSAs的生成方法与Rose TTAFold相同,使用hhblits在连续的E值截断值( \(1 × 10^{ – 30}\)、\(1 × 10 ^{ – 10}\)、\(1 × 10 ^{ – 6}\)、\(1 × 10^{ -3}\))处生成,当MSA包含超过10000个> 50 %覆盖率的独特序列时停止。RNA MSAs使用rMSA的缩减版本生成(去除二级结构预测的https://github.com/pylelab/rMSA) :使用blastn在三个数据库( RNAcentral17 , rfam18和nt )上搜索序列)首先识别hits,然后使用nhmmer对hits进行重排序。我们再次使用连续的E值截断值( \(1 × 10^{-8}\) ,\(1 × 10^{ -7}\) ,\( 1 × 10^{ -6} \), \(1 × 10^{ -3}\) , \(1 × 10^{ -2}\) , \(1 × 10^{ -1}\)),当MSA包含超过10000个独特的序列且覆盖率> 50 %时停止。

最后,为了提高蛋白质- DNA相互作用的可推广性,我们在训练过程中增加了几种”随机化”输入的方式。由于许多蛋白质- DNA复合物的晶体结构都涉及到中间具有结合基序的短DNA链,因此模型的初始版本具有强烈的偏好于在任何提供的序列的中间结合。为了解决这个问题,我们在所有天然结构的两端添加了0 – 6个核苷酸的随机填充:( 1 )含有双链DNA;( 2 )使至少3个碱基特异性接触(使用截断距离为3.4 Å)。由此得到580个蛋白质- DNA复合物。这些增加的残基不包括在损失计算中,而是存在于预测的结构中。此外,我们还对这些相同的580个复合体进行了负向训练;将与结合蛋白形成碱基特异性接触的所有DNA碱基随机突变为(维持Watson – Crick碱基配对),训练模型使蛋白质和DNA相距较远的(通过偏向6维的” distogram “损失,将其所有的概率质量放在最终的bin中)移动。

测试集数据处理

对于一个独立的测试集,我们采取了2020年5月1日或更晚发布到PDB的所有结构。选择标准和预处理与训练和验证数据相同,但有两个例外:( 1 )只考虑少于1,000个残基和核苷酸长度的复合物;( 2 )对于包含多个独特蛋白质链的复合物,通过将来自同一生物的序列合并成单个组合序列(根据前期工作14)来创建配对的MSA。我们得到91例一个蛋白质分子加一个RNA链或DNA双链的复合物,43例一个RNA链的复合物,106例多个蛋白质链或多个RNA链或DNA双链的复合物。

核苷酸的所有原子生成

遵循AlphaFold对氨基酸的处理,在预测结构时,模型将每个核苷酸表示为一个刚性框架(具有旋转和平移性)和一组内部扭转角。对于核酸来说,这个框架对应于磷酸基团( O-P-O)的方向,与N – C α – C作为氨基酸框架的方式相同。一组十个扭转描述了所有侧链原子的位置,代表了核苷酸中的可旋转键:六个骨架( α、β、γ、δ、ε、ζ),一个侧链( χ )和三个控制核糖’ pucker ‘ ( ν 0、ν 1、ν 2)的附加角度。当所有原子模型作为损失计算的一部分生成时,它们从磷酸基团沿着连接它们的扭转链向外运动学折叠。

Loss functions

模型采用类似Rose TTAFold的损失函数进行训练,其中我们取加权和:


\(loss = w_{seq} × seq + w_{6D} × 6D + w_{str} × str + w_{tors} × tors + w_{err} × err\)


其中,seq为掩蔽氨基酸恢复损失(对核苷酸序列不施加任何掩蔽);6D是六维的’ distogram ‘ loss;Str是结构损失,由网络所有40个结构层的平均骨架FAPE损失5加上最终模型的所有原子FAPE损失组成;Tors是40个结构层上平均的扭转预测损失;Err是pLDDT预测中的损失;而w项是损失函数中各个分量上的权重。

从如何对氨基酸实施FAPE损失出发,以一种直接的方式将FAPE损失扩展到核酸中。对于骨架FAPE丢失,将核酸骨架中的磷酸基团( O-P-O)作为核苷酸”框架”处理。对于核酸所有原子的FAPE损失,我们构造了三原子框架,分别对应于十个”可旋转的扭曲” (见上文),其中框架由定义扭曲的两个键合原子加上一个额外的键合原子组成,更接近于键合图中的磷酸基团。这十个框架与所有原子的交叉积被用来计算FAPE损失。

使用上述损失函数进行训练后,进行一个额外的”微调”阶段,即在损失函数中添加额外的能量项,以确保合理的模型几何:

\(loss_{finetune} = loss + w_{LJ} × LJ + w_{hbond} × hbond +w_{geom} × geom + w_{pairerr} × pairerr\)

上式中,LJ和hbond分别为最终结构(用原子数归一化)的伦纳德- Jones和氢键能,采用相应的Rosetta能量项重新实现13;Geom是一个在连接残基/核苷酸的肽键或磷酸二酯键周围强加理想键长和键角的术语;pairerr为预测的残基对误差5。几何项的函数形式与Rose TTAFold2完全相同,为线性惩罚项,其”平底”为± 3 ° / 0.02Å,偏离理想值。

Model training

该网络分两个阶段进行训练,分别为初始训练期和微调期。其中,输入结构分为5个池:( 1 )蛋白质结构,( 2 ) ‘蒸馏’的蛋白质结构(由高置信度的AlphaFold预测组成),( 3 )蛋白质复合物,( 4 )蛋白质- NA复合物和( 5 ) RNA结构。以等概率(在以后的训练中,蛋白NA的频率提高到25 % , RNA的频率降低到15 %)从这些池中分别采样进行训练。对于包含”复合体”的两个池,在训练中使用了相等数量的正例和负例。负例由非结合蛋白或蛋白- NA对组成;结构损失仅对每个组件单独惩罚,而6D损失则倾向于将负绑定实例放在相距较远的地方。

大于256个残基/核苷酸长度的例子被”裁剪”到256个残基长度。对于纯蛋白质数据,这些作物是连续序列;对于核酸和核酸-蛋白质复合物来说,复种要稍微复杂一些。构建了一个图,其中连续的残基/核苷酸具有权重为1的边,Watson – Crick碱基配对的核苷酸具有权重为0,蛋白质- NA碱基距离12Å( C α到P)较近的具有权重为0的边。在阴性情况下,将单个随机蛋白- NA边赋予权重0。然后使用从随机选择的蛋白质- NA边开始的最小权重图遍历,将模型裁剪到256个残基/核苷酸。对于RNA – only模型,我们使用了相同的策略,尽管起始点是一个随机的核苷酸。

训练在64个GPU上并行进行。整个训练使用64个批次,学习率为0.001,每5 000步衰减一次。采用以下权重:\(w_{seq} = 3.0\),\(w_{6d} = 1.0\),\(w_{str} = 10.0\),\(w_{tors} = 10.0\)和\(w_{err} = 0.1\)。采用Adam优化器,L2正则化(系数= 0 . 01)。

按照~\(1 × 10^5\)的优化步骤,进行微调训练。这里我们将crop规模增加到384,有效batch规模增加到128,学习率降低到~\( 5 × 10 ^{- 4}\)。我们使用了权重\(w_{geom} = 0.1\),\(w_{LJ} = 0.02\),\(w_{hbond} = 0.05\)和\(w_{pairerr} = 0.1\)的额外损失项,并优化了额外的30000个最小化步骤。总的来说,训练大约需要4周。

蛋白质-核酸对接

从RFNA的训练集中没有同源物的蛋白质-核酸复合物中,我们选择了8个蛋白质- DNA复合物和6个蛋白质- RNA复合物作为测试案例进行对接。使用AlphaFold5预测蛋白质单体结构,使用相同的MSAs进行RFNA预测,并从模型1 – 5中选择平均预测lDDT最高的预测。使用DeepFoldRNA按照默认的说明进行RNA组分的预测。使用x3DNA生成的DNA双链为B -型螺旋。使用Hdock web server进行对接,仅使用无模板对接,避免直接与原始沉积模型进行拟合。对于RFNA,评估了前3个码头的结构和界面精度。我们承认,更仔细的DNA建模和对接工作流程可以产生更准确的模型,但对于RFNA也是如此。

结合和非结合DNA序列数据集

我们从Cis – BP数据库19中获得了转录因子DNA结合谱的实验数据。我们使用了1509个蛋白质,其中蛋白质序列的实验构建和DNA 8mer E – score是可用的。从每个蛋白质的8mer E – score中,我们选择前3个最富集的DNA序列作为”结合”,3个随机负富集的DNA序列作为”非结合”。我们使用RFNA对蛋白质和DNA进行了联合预测,并根据界面上的平均PAE对模型进行了评估。

75 次浏览

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用 * 标注