lrf1980 发表于 2014-11-15 08:11:56

Modeller 学习记录(三)

本帖最后由 lrf1980 于 2014-11-15 12:27 编辑

当我们把需要做比较的蛋白质code挑好,我们就可以来做compare了。这个比较简单,还是先贴例子中的脚本。
from modeller import *

env = environ()
aln = alignment(env)
for (pdb, chain) in (('1b8p', 'A'), ('1bdm', 'A'), ('1civ', 'A'),
                     ('5mdh', 'A'), ('7mdh', 'A'), ('1smk', 'A')):
----------------------------------
把你自己选中的蛋白质文件填进去,(‘蛋白质code’, ‘用来比对的链’),如果
build_profile生成的是*b,说明是用该蛋白质的B链做比对,这里也做相应的更改。
    m = model(env, file=pdb, model_segment=('FIRST:'+chain, 'LAST:'+chain))
    aln.append_model(m, atom_files=pdb, align_codes=pdb+chain)
aln.malign()
aln.malign3d()
aln.compare_structures()
aln.id_table(matrix_file='family.mat')
env.dendrogram(matrix_file='family.mat', cluster_cut=-1.0)


compare完了之后生成的事compare.log文件。basic example 的compare.log的部分内容。进化树结果(我自己这么叫它)
Weighted pair-group average clustering based on a distance matrix:


                                           .----------------------- 1b8pA @1.9    39.0000
                                           |
                                  .-------------------------------- 1bdmA @1.8    50.5000
                                  |
                              .------------------------------------ 5mdhA @2.4    55.3750
                              |
                              |                              .--- 1civA @2.8    13.0000
                              |                              |
      .---------------------------------------------------------- 7mdhA @2.4    83.2500
      |
      .------------------------------------------------------------ 1smkA @2.5

      +----+----+----+----+----+----+----+----+----+----+----+----+
    86.0600   73.4150   60.7700   48.1250   35.4800   22.8350   10.1900
         79.7375   67.0925   54.4475   41.8025   29.1575   16.5125


我花了好长时间来理解这张表,也在论坛里发过帖子问怎么看懂这张表。现在也不是很清楚,但基本的理解如下(不保证对哦):
1. 横坐标那一串数字,是进化树尺度上的一个差异度坐标,我们比较一下7mdha和1smka,7mdha 后面的数字83.2500,在坐标上对应的位置刚好是它跟1smka中间分支的位置。 也就是说从进化的角度看,这两个蛋白质的差异性高达83.25%,同理,1civa和7mdha差异度只有13.00%。所以如果我们用pymol去align这两个蛋白质,它们的重合度应该蛮高的。在我自己的例子中,有好几个差异度为0.0000的,我在pymol align它们,基本完全重叠在一起。
2. @后面的数字就是该蛋白质晶体结构的解析分辨率。

那我们从build_profile.log 和这个compare.log文件的信息里找出我们的模版呢?我不是行家,所以说不上哪个最好,下面是我的标准:
1.我们尽量从build_profile.log里选那个相似度尽量高,E值尽量低的。因为这个相似度是蛋白质模拟的根本。相似度小于30%的蛋白质模拟,准确性是很难把握的,需要非常专业的知识和经验。
2. 在相似度和E值差不多的时候,选分辨率高的来做模版。
3. 对compare.log里面,我自己一直有一个疑惑,如果差异度比较大的几个蛋白质跟我们的目标蛋白相似度比较接近(这个好像有点绕口),我们如何来选择用哪个,或者哪几个做模版?有了解的同志们欢迎提供线索和建议啊。我自己在做多模版建模时,习惯多包涵几个差异度大的蛋白进去。不知道是否合理?
4. 当我们选好了我们需要的蛋白质模版,这里这些模版只能称为潜在模版,因为还需要经过比对才能最后确定用哪个和哪几个来建模。


川大-灰太狼 发表于 2014-11-16 13:57:27

序列比对这步其实是重点,特别是针对膜蛋白的同源模建!

puzhongji 发表于 2014-11-19 15:07:20

如何选取模板还是没看明白

puzhongji 发表于 2014-11-19 15:07:59

那些数字的意义像是进化树上的距离,就是该点到前一节点的距离
页: [1]
查看完整版本: Modeller 学习记录(三)