Modeller 学习记录（三）

lrf1980 发表于 2014-11-15 08:11:56

本帖最后由 lrf1980 于 2014-11-15 12:27 编辑

当我们把需要做比较的蛋白质code挑好，我们就可以来做compare了。这个比较简单，还是先贴例子中的脚本。
from modeller import *

env = environ()
aln = alignment(env)
for (pdb, chain) in (('1b8p', 'A'), ('1bdm', 'A'), ('1civ', 'A'),
                  ('5mdh', 'A'), ('7mdh', 'A'), ('1smk', 'A')):
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
把你自己选中的蛋白质文件填进去，（‘蛋白质code’， ‘用来比对的链’），如果
build_profile生成的是*b,说明是用该蛋白质的B链做比对，这里也做相应的更改。
m = model(env, file=pdb, model_segment=('FIRST:'+chain, 'LAST:'+chain))
aln.append_model(m, atom_files=pdb, align_codes=pdb+chain)
aln.malign()
aln.malign3d()
aln.compare_structures()
aln.id_table(matrix_file='family.mat')
env.dendrogram(matrix_file='family.mat', cluster_cut=-1.0)

compare完了之后生成的事compare.log文件。basic example 的compare.log的部分内容。进化树结果（我自己这么叫它）
Weighted pair-group average clustering based on a distance matrix:

                                       .----------------------- 1b8pA @1.9 39.0000
                                       |
                              .-------------------------------- 1bdmA @1.8 50.5000
                              |
                           .------------------------------------ 5mdhA @2.4 55.3750
                           |
                           |                            .--- 1civA @2.8 13.0000
                           |                            |
   .---------------------------------------------------------- 7mdhA @2.4 83.2500
   |
   .------------------------------------------------------------ 1smkA @2.5

   +----+----+----+----+----+----+----+----+----+----+----+----+
86.0600 73.4150 60.7700 48.1250 35.4800 22.8350 10.1900
      79.7375 67.0925 54.4475 41.8025 29.1575 16.5125

我花了好长时间来理解这张表，也在论坛里发过帖子问怎么看懂这张表。现在也不是很清楚，但基本的理解如下（不保证对哦）：
1. 横坐标那一串数字，是进化树尺度上的一个差异度坐标，我们比较一下7mdha和1smka，7mdha 后面的数字83.2500，在坐标上对应的位置刚好是它跟1smka中间分支的位置。也就是说从进化的角度看，这两个蛋白质的差异性高达83.25%，同理，1civa和7mdha差异度只有13.00%。所以如果我们用pymol去align这两个蛋白质，它们的重合度应该蛮高的。在我自己的例子中，有好几个差异度为0.0000的，我在pymol align它们，基本完全重叠在一起。
2. @后面的数字就是该蛋白质晶体结构的解析分辨率。

那我们从build_profile.log 和这个compare.log文件的信息里找出我们的模版呢？我不是行家，所以说不上哪个最好，下面是我的标准：
1.我们尽量从build_profile.log里选那个相似度尽量高，E值尽量低的。因为这个相似度是蛋白质模拟的根本。相似度小于30%的蛋白质模拟，准确性是很难把握的，需要非常专业的知识和经验。
2. 在相似度和E值差不多的时候，选分辨率高的来做模版。
3. 对compare.log里面，我自己一直有一个疑惑，如果差异度比较大的几个蛋白质跟我们的目标蛋白相似度比较接近（这个好像有点绕口），我们如何来选择用哪个，或者哪几个做模版？有了解的同志们欢迎提供线索和建议啊。我自己在做多模版建模时，习惯多包涵几个差异度大的蛋白进去。不知道是否合理？
4. 当我们选好了我们需要的蛋白质模版，这里这些模版只能称为潜在模版，因为还需要经过比对才能最后确定用哪个和哪几个来建模。

川大-灰太狼 发表于 2014-11-16 13:57:27

序列比对这步其实是重点，特别是针对膜蛋白的同源模建！

puzhongji 发表于 2014-11-19 15:07:20

如何选取模板还是没看明白

puzhongji 发表于 2014-11-19 15:07:59

那些数字的意义像是进化树上的距离，就是该点到前一节点的距离

页: [1]

生物分子模拟论坛's Archiver

Modeller 学习记录（三）