Modeller 学习记录(四)
前面三篇基本记录了从安装,准备到收集需要的模版信息工作。这基本上也是做各类建模所必需的工作,而且很一致。从这个地方开始,到最后,不同的建模方式有一些不同。先说单模版建模:对于单模版建模,也是最简单的一个建模方式。从操作上来讲,没有什么很难的地方,依葫芦画瓢就可以。最重要的是判断哪个模版才是适合自己的蛋白质。这个问题就很大,我也是在学习的过程。文献当然是最直接的参考,但是有的时候文献也会带来困惑的地方。因为不同的人很有可能选择不同的模版,或者有更好的模版会被解析出来。所以跟踪文献,确保自己对这个蛋白有足够的了解是一定需要的。
从软件操作出发,我们还是能做一些工作的。前面提到,我们用build_profile.py这个脚本来搜寻相似蛋白质做模版。这个脚本生成三个文件ali, log, prf. 在ali这个文件里,会把所有推荐的蛋白质序列比对的序列列出来。所以当利用了log及compare里面的信息选了几个潜在的蛋白质做模版,去这个文件里看看他们的序列跟目标蛋白的序列匹配情况如何,然后选定一个做单模版建模。建模之前我们需要align模版与目标蛋白的序列,用align2d.py这个脚本
basic example里面的align2d.py:
from modeller import *
env = environ()
aln = alignment(env)
mdl = model(env, file='1bdm', model_segment=('FIRST:A','LAST:A'))
--------------------------------------------
用选定蛋白质code替换1bdm,如果相似度是chain A,就同上,如果是chain b就将上面的A替换成B
--------------------------------------------
aln.append_model(mdl, align_codes='1bdmA', atom_files='1bdm.pdb')
--------------------------------------------
align_codes这里是为了在最后的align文件里做标记的,用自己蛋白质code替换就好,带不带链的标记
其实无所谓的,所以1bdm也可以,只要一致就好。atom_files这个就是填蛋白质文件的名称。所以做
这个步骤时,模版的pdb文件一定要存在在工作目录里。
--------------------------------------------
aln.append(file='TvLDH.ali', align_codes='TvLDH')
--------------------------------------------
用目标蛋白的名称和ali替换相应的部分
--------------------------------------------
aln.align2d()
aln.write(file='TvLDH-1bdmA.ali', alignment_format='PIR')
aln.write(file='TvLDH-1bdmA.pap', alignment_format='PAP')
--------------------------------------------
同上
--------------------------------------------
运行mod9.14 align2d.py就能完成align,然后进行下一步的建模。
这里稍微分享一下我对TvLDH-1bdmA.ali的理解,因为这个可以帮助到后面的包涵配体的建模。照旧
basic example里的TvLDH-1bdmA.ali文件:
>P1;1bdmA
structureX:1bdm.pdb: 0 :A:+318 :A:undefined:undefined:-1.00:-1.00
MKAPVRVAVTGAAGQIGYSLLFRIAAGEMLGKDQPVILQLLEIPQAMKALEGVVMELEDCAFPLLAGLEATDDPD
VAFKDADYALLVGAAPRL---------QVNGKIFTEQGRALAEVAKKDVKVLVVGNPANTNALIAYKNAPGLNPR
NFTAMTRLDHNRAKAQLAKKTGTGVDRIRRMTVWGNHSSIMFPDLFHAEVD----GRPALELVDMEWYEKVFIPT
VAQRGAAIIQARGASSAASAANAAIEHIRDWALGTPEGDWVSMAVPSQ--GEYGIPEGIVYSFPVTAK-DGAYRV
VEGLEINEFARKRMEITAQELLDEMEQVKAL--GLI*
------------------------------------------------
对于这个1bmdA部分,其中的StructureX:1bdm.pdb: 0:, 这个0是表示align时开始的氨基酸在pdb里的序列号。
为什么要讲这个呢,这个ali我们是可以手动修改的。还是这个例子,0就代表序列开始的M,如果我们想删除M
不要它在比对序列里。我们还需要把0修改成1,也就是K所代表的pdb里面氨基酸序列号。不然删除后会有错误
提示,说align跟pdb file不一致。而后面的:A:+318:表示的是用的是chain A做的align,而且align中含有318个
氨基酸,所以当我们修改时如果删除M,除了把0改成1,还需要把318改成317.表示align序列里只包含了317个
氨基酸。这样就能够避免建模出错,一直进行不下去。
------------------------------------------------
>P1;TvLDH
sequence:TvLDH: : : : ::: 0.00: 0.00
MSEAAHVLITGAAGQIGYILSHWIASGELYG-DRQVYLHLLDIPPAMNRLTALTMELEDCAFPHLAGFVATTDPK
AAFKDIDCAFLVASMPLKPGQVRADLISSNSVIFKNTGEYLSKWAKPSVKVLVIGNPDNTNCEIAMLHAKNLKPE
NFSSLSMLDQNRAYYEVASKLGVDVKDVHDIIVWGNHGESMVADLTQATFTKEGKTQKVVDVLDHDYVFDTFFKK
IGHRAWDILEHRGFTSAASPTKAAIQHMKAWLFGTAPGEVLSMGIPVPEGNPYGIKPGVVFSFPCNVDKEGKIHV
VEGFKVNDWLREKLDFTEKDLFHEKEIALNHLAQGG*
页:
[1]