|
马上注册,结交更多好友,下载更多分子模拟资源。
您需要 登录 才可以下载或查看,没有帐号?我想注册
x
同源模建的方法与结果分析
Version 1.0.2-------------------------------------------------------
序言:作为一个以实验为主的生化工作者来说,很多时候可以通过分子生物学手段获取自己需要的目的基因,并在各种表达载体和宿主中进行对应蛋白的表达,随后对于这些蛋白的特性进行研究,这也是一般酶学研究的特定套路。而近十几年来,人们开始思考是否能够将特性与蛋白质的三级结构进行关联,从分子水平理解蛋白质与底物之间的相互作用呢?于是类似于蛋白结构模建、分子对接、分子动力学模拟、量化计算等多种手段相继被创造以及应用。在这些方法中,同源模建无疑是最基础也是最重要的一个步骤,因为其质量的好坏直接决定了后续工作是否可信。因此,本文打算就同源模建的基本原理、常用软件及服务器以及结果分析与改进提供一些个人的经验,并希望各位朋友能够给予批评指正。
1. 同源模建的原理及应用限制
两点基本原理:
1.一个蛋白质的结构由其氨基酸序列唯一的决定。知道其一级序列,至少在理论上足以获取其结构
2. 结构在进化中更稳定,变化比序列层面的变化要缓慢许多。
应用限制:模板蛋白和目标蛋白的序列一致性需要大于30%,且越大建模准确性越有保障。
了解了基本的原理,我们需要知道在实际操作中,同源模建都需要怎么样进行。
同源模建的过程从实践中可分为以下7个步骤:
1. 模板识别和初始比对
在序列一致性比较高的时候,可以通过简单的序列比对程序如BLAST获取目标蛋白的结构(将比对的数据库选择为PDB数据库)。
2. 比对结果的校正
用以上的方法确定一个或多个建模模板后,应该采用更为精确的方法已取得更优的比对结果。有时在序列一致性较低的区域比对两条序列可能会具有困难,这个时候,我们可以采取其他同源蛋白序列一起参与比对来找到解决的办法。
3. 主链生成
比对完成后,就可以开始实际的建模过程了,相对与后面几步来说,主链建模时最没有难度的一步了,因为大部分软件都是通过简单的拷贝模板蛋白的主链坐标来实现这一目的的。
4. 环区建模
这一部分主要是目标蛋白和模板蛋白的比对结果中存在缺口的部分如何处理的问题。第一种解决的方式是略去模板蛋白存在的残基,留下一个必须补上的缺口。另一种情况是将主链截断,插入缺少的残基。
5. 侧链建模
当我们比较结构相似的蛋白质中保守残基的侧链构象时,我们会发现他们的侧链构象通常会比较相似。这就告诉我们如果加保守残基的侧链构象完整的拷贝到模建蛋白上时,在某些时候比先拷贝主链构象之后,再预测侧链构象来的可靠。但是这一经验规则在实际运用中仅在两者序列一致性较高,并且保守残基之间形成接触的情况下才能实现。因此,在现有的测序中,都是构造各种可能的构象体,并利用基于能量的函数打分来实现侧链构象的选择的。
6. 模型优化
模型优化其实是一个比较复杂的问题,其质量依赖于高精确性的预测侧链构象体,而为了达到这种目的,我们需要正确的主链,这一步骤实际又依赖于侧链构象体正确的堆积。因此,这一优化过程是迭代直至收敛的过程。需要注意的是,对于结构进行能量优化需要十分谨慎。因此偏离正确结构的途径比指向正确结构的途径多很多。在优化中的每一步可以排除一些大的误差,但是也会引入很多小的误差,这些小的误差经过多步积累,就有可能使你的结果更加偏离正确的结构。
7. 模型验证
所有的模型都包含误差,误差的多少主要依赖于两方面的内容:
1.序列一致性的高低,越低的话引入误差的可能性就越大。
2. 模板蛋白中的误差:如果这种误差是局域性的,尤其是远离活性位点的,对于你最后进行分子对接等研究室几乎没有影响的。如果是蛋白整体的,则需要小心处理。
2. 常用软件、服务器
2.1常用服务器:
①SWISS-MODEL: 网址http://swissmodel.expasy.org/
SWISS-MODEL可能是目前非专业人士应用最为广泛的一个在线建模服务器了。其常见的模式可分为:
1. Automated mode:自动模式,可以称为是最傻瓜的方式了
进去之后只需要填上你的email以及在底下的框框内输入你所想模建的蛋白序列,再点击submit modeling request即可,底下还有高级选项,支持自定义模板蛋白的pdb以及chain,或者自己上传模板文件,简而言之,真是非常易于操作。这种方法适用于PDB数据库中存在高度同源的蛋白结构时的建模(蛋白序列一致性最好大于80%,个人经验)
2. Alignment mode:比对模式
基本的操作和自动模式类似,但是其序列提交的时候可以提交目标蛋白与模板蛋白的序列比对结果(FASTA,MSF,ClustalW等格式),如下所示:
这种模式比较适合目标蛋白与模板蛋白具有较高的相似性,但是利用自动模式未必能找到最合适模板的情况,或者使用者有目的的使用特定的模板蛋白(比如具有更为相似的活性位点结果,而不是更为相似的整体结构)
3. Project mode:项目模式
项目模式主要是针对于目标蛋白和模板蛋白序列的相似性不高,两者的三级结构相似程度难以直接通过序列比对获得,需要人工插入调节(借助蛋白结构编辑软件deepview),这个模式能够交互式的提高前面两种模式的模型质量(通过将前两种模式模建出的蛋白进行人为调整)。属于针对比较困难(序列一致性较低)的建模的一种有效途径。
② I-TASSAR: http://zhanglab.ccmb.med.umich.edu/I-TASSER/ (貌似被墙了?)
*也可以下载本地安装包
个人使用评价:根据结果质量检验,貌似在用过的自动建模的软件里是结果最好的了~不过缺点是给结果时间比较长。
③ HOMER: http://protein.cribi.unipd.it/homer/
个人使用评价:这个软件需要序列蛋白与模板蛋白的结构比对文件上传(FASTA格式),可对模建的蛋白进行loop区优化以及侧链优化。尚未深入的研究~
④ CPHmodels 3.2 Server: http://www.cbs.dtu.dk/services/CPHmodels/
个人使用评价:貌似没有任何特色,只需要一条蛋白序列既可以完成自动建模。
2.2 常用软件:
① Modeller:
说到同源模建,不得不提其中大名鼎鼎的modeller, 要是做同源模建的娃们没有听过modeller, 实在是不好意思说自己玩转了同源模建的。哈哈
该软件由Sali lab开发,目前最新的版本是9.11,可在win下和linux运行,需要对应版本的python (<3.0)。
该软件好在什么地方呢?主要是可以自己控制的地方特别多,但这个也给新手带来了不少困扰,比如究竟在特定的场合用什么参数等等。(本人将在自己以后的学习过程中继续分享对这个软件的学习心得,真的是挺有意思的)
可实现的功能包括:多聚体建模,二硫键建模,杂原子建模(配体、辅酶等)。。。。。
具体的运算流程稍后补充:
其最成熟的GUI为 easymodeller,最新版本为4.0。使用方法稍后补充。。。。
3. 同源模建结果评价与改进策略
在我们通过各种软件构建出一个蛋白的同源模型后,我们如何评价这一模型是否准确?如果不准确如何进行进一步的修饰能使其更好的应用于我们的后续模拟中呢?这些问题将在本节得以讨论
3.1 同源模建结果的评价
本人最常使用的结构检测方法来源于UCLA-DOE的SAVES服务器,其网址为:http://services.mbi.ucla.edu/SAVES/
提供的检测工具包括5种方法:
PROCHECK: 该程序可以给出特定蛋白质模型的一系列立体化学参数,并且能以直观的彩图输出部分结果。该方法的原理主要是通过对蛋白质数据库中高分辨的蛋白晶体结构的参数进行整理,作为标准参数。将输入蛋白结构所具有的参数与标准参数进行对比,如果两者差异显著,则说明输入的蛋白结构存在明显问题。其输出的结果包括:拉氏图,主链的键长与键角,二级结构图,平面侧链与水平面之间的背离程度等。
WHATCHECK:包含大量的检测项,可以针对给定的蛋白结构与正常结构之间的差异,产生一个非常长而且详细的报告。
ERRAT: 计算0.35 nm范围之内,不同原子类型对之间形成的非键相互作用的数目。原子按照C、N、O/S进行分类,所以有六种不同的相互作用类型:CC、CN、CO、 NN、 NO、 OO。如果这些相互作用类型出现的频率与正常值相比有较大的区别,蛋白质模型的质量就值得怀疑了~通常使用9个氨基酸长度的滑行窗口用于获得每一个窗口的相互作用频率。类似的分析方法可以用于定位局部有问题的区域。
Verify_3D:
PROVE: 该程序可以比较给定结构的原子体积与预先计算好的一系列标准体积之间的差别。体积的计算方法采用Voronoi polyhedra几何模型,通过在原子及其邻近原子间放置一个个分散的平面来定义每一个原子占据的空间。
以下以我研究的一个酶C-C键水解酶BphD的模型进行实例讲解:
背景:首先利用BLAST进行蛋白一致性搜索,找出最合适的蛋白模板,经确定为2OG1,以此蛋白结构为模板,利用modeller进行模建,得到我们的BphD的初始结构,提交到SAVES服务器进行处理:
1. PROCHECK结果:本部分主要需要的是拉氏图,在第一行中可以点击ps格式、PDF格式以及JPG格式进行下载,我下载了个PDF文件,大家可以看看下面的截图:
这个服务器最好的一点就是可以提供处于各个区域的氨基酸残基占总数的百分比。拉氏图的结果主要分成4个区域:核心区域,允许区,大致允许区以及禁阻区。从图中可以看到大部分的氨基酸残基均位于核心区域 (95.9%),落在允许区和大致允许区的各有1个残基,而处于禁阻区的只有残基Ser112。通过我们对这个蛋白本身的了解可知,Ser112为该水解酶的催化三联体,其模板蛋白的Ser112同样处于禁阻区。
接下来我们看看ERRAT的结果,该结果中Overall quality factor值越高越好,一般高解析度的晶体结构该值可以达到95,而对于解析度一般的来说该值只能到91%左右。本例中的ERRAT值为89.928,已经比较接近低解析度的晶体结构了,但是应该还有继续改进的空间。在图中存在的两条误差限表示的是位于其线以上的区域有多大的可能性是有问题的区域。根据这一结果,可以看出从残基120-150之间是一个需要高度注意的区域,另一个需要注意的区域是250-255。从BphD的PDB结构来看这两段主要是loop区,本身具有较大的弹性,因此再接下来的过程中可能需要重点关注这一段结构的优化。
其他的参数如verify_3D等数值较好,在本例中未详细给出,将在下一个修改版中放出
首先,我们考虑采用计算量较少的chiron服务器对模建结构的clash进行处理。其结果给出原始蛋白结构中存在的结构间的冲突以及其修正后的结果与原始结构的叠合结果。
接下来我们利用SAVES对于经过处理的蛋白结构进行评价:
首先从拉氏图来看,两者的差别不大。
而从ERRAT图中我们可以看到250-255这段区域的结构明显改善,但是135-140这个区域的结构似乎变得更为糟糕。
这时候,俺们就需要考虑利用MD对整个结构进行进一步的松弛,以去除不合适的clash。
以下我们可以考虑利用Gromacs对蛋白结构进行能量最小化。待补充
-------------------------------------------------------------------------------------更新计划
1. 补充原理方面的知识
2. 增加不同建模软件针对同一目标序列的建模结果评价(包括运行时间、建模质量分析等)
3. 补充各种难度的模建实例
|
评分
-
查看全部评分
|