lrf1980 发表于 2014-11-15 07:45:59

Modeller 学习记录(二)

前面讲完了安装及运行,那基本上就到了实际操作,建立自己要做的蛋白质模型了。开始建模型前我做的准备工作:
1. 到salilab网站的tutorial去下载basic modeling example, advanced modeling example。因为我不会python,所以我只能依葫芦画瓢用这些例子里的脚本来做自己的工作。
2. 到uniprot上去找自己要做的蛋白质序列,把需要建模的那段序列的ali文件建好。怎么建?很简单,以葫芦画瓢,下面的例子是example里的ali
>P1;TvLDH
sequence:TvLDH:::::::0.00: 0.00
MSEAAHVLITGAAGQIGYILSHWIASGELYGDRQVYLHLLDIPPAMNRLTALTMELEDCAFPHLAGFVATTDPKA
AFKDIDCAFLVASMPLKPGQVRADLISSNSVIFKNTGEYLSKWAKPSVKVLVIGNPDNTNCEIAMLHAKNLKPEN
FSSLSMLDQNRAYYEVASKLGVDVKDVHDIIVWGNHGESMVADLTQATFTKEGKTQKVVDVLDHDYVFDTFFKKI
GHRAWDILEHRGFTSAASPTKAAIQHMKAWLFGTAPGEVLSMGIPVPEGNPYGIKPGVVFSFPCNVDKEGKIHVV
EGFKVNDWLREKLDFTEKDLFHEKEIALNHLAQGG*

用你的蛋白质序列替换TvLDH的序列,当然也需要用你的蛋白质名称替换TvLDH。然后存成ali后缀格式文件就好。
3. 准备好最新的pdb数据库文件,pir和bin。前面讲过了,这两个文件怎么生成。
4. 建一个以蛋白质文件命名的目录,将所有相关的文件都放这个目录,然后所有的工作都在这个目录里进行。(*.ali, *.pir, *.bin, build_profile.py,及从basic modeling example目录里拷贝过来的各种脚本)

建模开始:
1. build_profile.py的修改,下面贴出原始的build_profile.py文件,从basic example里来的。改动几个地方,就可以用这个来查找相似蛋白质信息。

from modeller import *

log.verbose()
env = environ()

#-- Prepare the input files

#-- Read in the sequence database
sdb = sequence_db(env)
sdb.read(seq_database_file='pdb_95.pir', seq_database_format='PIR',
         chains_list='ALL', minmax_db_seq_len=(30, 4000), clean_sequences=True)
-------------------------------------
我用了pdball.pir来替换这个pdb_95.pir
-------------------------------------
#-- Write the sequence database in binary form
sdb.write(seq_database_file='pdb_95.bin', seq_database_format='BINARY',
          chains_list='ALL')
#-- Now, read in the binary database
sdb.read(seq_database_file='pdb_95.bin', seq_database_format='BINARY',
         chains_list='ALL')
-------------------------------------
同上,我用了pdball.bin来替换这个pdb_95.bin
-------------------------------------

#-- Read in the target sequence/alignment
aln = alignment(env)
aln.append(file='TvLDH.ali', alignment_format='PIR', align_codes='ALL')
-------------------------------------
用自己的蛋白质ali文件替代TvLDH.ali
-------------------------------------
#-- Convert the input sequence/alignment into
#   profile format
prf = aln.to_profile()

#-- Scan sequence database to pick up homologous sequences
prf.build(sdb, matrix_offset=-450, rr_file='${LIB}/blosum62.sim.mat',
          gap_penalties_1d=(-500, -50), n_prof_iterations=1,
          check_profile=False, max_aln_evalue=0.01)

#-- Write out the profile in text format
prf.write(file='build_profile.prf', profile_format='TEXT')

#-- Convert the profile back to alignment format
aln = prf.to_alignment()

#-- Write out the alignment file
aln.write(file='build_profile.ali', alignment_format='PIR')


最后在命令行下运行mod9.14 build_profile.py
完成之后会在目录里生成三个文件:
build_profile.ali
build_profile.log
build_profile.prf

我只用log文件去抓蛋白质相似性信息。其它两个文件不怎么用。抓出下面这部分的信息就可以,主要的目的是为了挑选出相似性高的蛋白质来做进一步的分析。
Dynamically allocated memory at   amaxprofile :      7496268    7320.574   7.149
> 1a5z                     1   190    6900   312   335   28.14    0.85E-08       2   164    75   242    63   229
> 1b8pA                      1   951   29400   327   335   42.50   0.0         3   316   7   331   6   325
> 1bdmA                      1    1058   30700   318   335   44.52   0.0         4   309   1   325   1   310
> 1t2dA                      1    1717    5200   315   335   24.70    0.67E-04       5   238   5   256   4   250
> 1civA                      1    1784   23950   374   335   34.66   0.0         6   325   6   334    33   358
> 2cmd                     1    1858    5900   312   335   27.24    0.17E-05       7   289   7   320   3   303
> 1o6zA                      1    2060    5800   303   335   26.32    0.27E-05       8   278   7   320   3   287
> 1ur5A                      1    3954    4500   299   335   30.67    0.25E-02       9   158    13   191   9   171
> 1guzA                      1    3955    7100   305   335   25.27    0.29E-08      10   265    13   301   8   280
> 1gv0A                      1    3962    5350   301   335   25.53    0.29E-04      11   274    13   323   8   289
> 1hyeA                      1    4405    6800   307   335   29.28    0.14E-07      12   173   7   191   3   183
> 1i0zA                      1    4433    5650   332   335   24.64    0.67E-05      13   207    85   300    94   304
> 1i10A                      1    4435    5600   331   335   26.21    0.87E-05      14   196    85   295    93   298
> 1ldnA                      1    5824    5000   316   335   25.76    0.19E-03      15   214    78   298    73   301
> 6ldh                     1    5831    4600   329   335   23.08    0.17E-02      16   244    47   301    56   302
> 2ldx                     1    5833    5400   331   335   25.83    0.25E-04      17   227    66   306    67   306
> 5ldh                     1    5835    5800   333   335   25.59    0.30E-05      18   207    85   300    94   304
> 9ldtA                      1    5836    6000   331   335   25.94    0.11E-05      19   207    85   301    93   304
> 1llc                     1    5896    5000   321   335   25.82    0.20E-03      20   164    64   239    53   234
> 1lldA                      1    5897    6650   313   335   30.67    0.32E-07      21   216    13   242   9   233
> 5mdhA                      1    6084   32900   333   335   44.41   0.0          22   328   2   332   1   331
> 7mdhA                      1    6085   22600   351   335   33.74   0.0          23   325   6   334    14   339
> 1mldA                      1    6188    6100   313   335   25.93    0.58E-06      24   183   5   198   1   189
> 1oc4A                      1    6736    5450   315   335   27.87    0.18E-04      25   174   5   191   4   186
> 1ojuA                      1    6799    5700   294   335   27.98    0.44E-05      26   218    78   320    68   285
> 1pzgA                      1    7253    6350   327   335   30.00    0.16E-06      27   114    74   191    71   190
> 1smkA                      1    7850    8750   313   335   33.85   0.0          28   188   7   202   4   198
> 1sovA                      1    7980    4700   316   335   26.59    0.94E-03      29   160    81   256    76   248
> 1y6jA                      1   10912    5750   289   335   32.73    0.33E-05      30   109    77   191    58   167


把这部分信息整理,选高相似度及E值尽可能小的蛋白质来做下一步的compare分析。

页: [1]
查看完整版本: Modeller 学习记录(二)