Modeller 学习记录(三)
本帖最后由 lrf1980 于 2014-11-15 12:27 编辑当我们把需要做比较的蛋白质code挑好,我们就可以来做compare了。这个比较简单,还是先贴例子中的脚本。
from modeller import *
env = environ()
aln = alignment(env)
for (pdb, chain) in (('1b8p', 'A'), ('1bdm', 'A'), ('1civ', 'A'),
('5mdh', 'A'), ('7mdh', 'A'), ('1smk', 'A')):
----------------------------------
把你自己选中的蛋白质文件填进去,(‘蛋白质code’, ‘用来比对的链’),如果
build_profile生成的是*b,说明是用该蛋白质的B链做比对,这里也做相应的更改。
m = model(env, file=pdb, model_segment=('FIRST:'+chain, 'LAST:'+chain))
aln.append_model(m, atom_files=pdb, align_codes=pdb+chain)
aln.malign()
aln.malign3d()
aln.compare_structures()
aln.id_table(matrix_file='family.mat')
env.dendrogram(matrix_file='family.mat', cluster_cut=-1.0)
compare完了之后生成的事compare.log文件。basic example 的compare.log的部分内容。进化树结果(我自己这么叫它)
Weighted pair-group average clustering based on a distance matrix:
.----------------------- 1b8pA @1.9 39.0000
|
.-------------------------------- 1bdmA @1.8 50.5000
|
.------------------------------------ 5mdhA @2.4 55.3750
|
| .--- 1civA @2.8 13.0000
| |
.---------------------------------------------------------- 7mdhA @2.4 83.2500
|
.------------------------------------------------------------ 1smkA @2.5
+----+----+----+----+----+----+----+----+----+----+----+----+
86.0600 73.4150 60.7700 48.1250 35.4800 22.8350 10.1900
79.7375 67.0925 54.4475 41.8025 29.1575 16.5125
我花了好长时间来理解这张表,也在论坛里发过帖子问怎么看懂这张表。现在也不是很清楚,但基本的理解如下(不保证对哦):
1. 横坐标那一串数字,是进化树尺度上的一个差异度坐标,我们比较一下7mdha和1smka,7mdha 后面的数字83.2500,在坐标上对应的位置刚好是它跟1smka中间分支的位置。 也就是说从进化的角度看,这两个蛋白质的差异性高达83.25%,同理,1civa和7mdha差异度只有13.00%。所以如果我们用pymol去align这两个蛋白质,它们的重合度应该蛮高的。在我自己的例子中,有好几个差异度为0.0000的,我在pymol align它们,基本完全重叠在一起。
2. @后面的数字就是该蛋白质晶体结构的解析分辨率。
那我们从build_profile.log 和这个compare.log文件的信息里找出我们的模版呢?我不是行家,所以说不上哪个最好,下面是我的标准:
1.我们尽量从build_profile.log里选那个相似度尽量高,E值尽量低的。因为这个相似度是蛋白质模拟的根本。相似度小于30%的蛋白质模拟,准确性是很难把握的,需要非常专业的知识和经验。
2. 在相似度和E值差不多的时候,选分辨率高的来做模版。
3. 对compare.log里面,我自己一直有一个疑惑,如果差异度比较大的几个蛋白质跟我们的目标蛋白相似度比较接近(这个好像有点绕口),我们如何来选择用哪个,或者哪几个做模版?有了解的同志们欢迎提供线索和建议啊。我自己在做多模版建模时,习惯多包涵几个差异度大的蛋白进去。不知道是否合理?
4. 当我们选好了我们需要的蛋白质模版,这里这些模版只能称为潜在模版,因为还需要经过比对才能最后确定用哪个和哪几个来建模。
序列比对这步其实是重点,特别是针对膜蛋白的同源模建! 如何选取模板还是没看明白 那些数字的意义像是进化树上的距离,就是该点到前一节点的距离
页:
[1]