|  | 
 
| 
前面讲完了安装及运行,那基本上就到了实际操作,建立自己要做的蛋白质模型了。开始建模型前我做的准备工作:
x
马上注册,结交更多好友,下载更多分子模拟资源。您需要 登录 才可以下载或查看,没有帐号?我想注册 
    1. 到salilab网站的tutorial去下载basic modeling example, advanced modeling example。因为我不会python,所以我只能依葫芦画瓢用这些例子里的脚本来做自己的工作。
 2. 到uniprot上去找自己要做的蛋白质序列,把需要建模的那段序列的ali文件建好。怎么建?很简单,以葫芦画瓢,下面的例子是example里的ali
 >P1;TvLDH
 sequence:TvLDH:::::::0.00: 0.00
 MSEAAHVLITGAAGQIGYILSHWIASGELYGDRQVYLHLLDIPPAMNRLTALTMELEDCAFPHLAGFVATTDPKA
 AFKDIDCAFLVASMPLKPGQVRADLISSNSVIFKNTGEYLSKWAKPSVKVLVIGNPDNTNCEIAMLHAKNLKPEN
 FSSLSMLDQNRAYYEVASKLGVDVKDVHDIIVWGNHGESMVADLTQATFTKEGKTQKVVDVLDHDYVFDTFFKKI
 GHRAWDILEHRGFTSAASPTKAAIQHMKAWLFGTAPGEVLSMGIPVPEGNPYGIKPGVVFSFPCNVDKEGKIHVV
 EGFKVNDWLREKLDFTEKDLFHEKEIALNHLAQGG*
 
 用你的蛋白质序列替换TvLDH的序列,当然也需要用你的蛋白质名称替换TvLDH。然后存成ali后缀格式文件就好。
 3. 准备好最新的pdb数据库文件,pir和bin。前面讲过了,这两个文件怎么生成。
 4. 建一个以蛋白质文件命名的目录,将所有相关的文件都放这个目录,然后所有的工作都在这个目录里进行。(*.ali, *.pir, *.bin, build_profile.py,及从basic modeling example目录里拷贝过来的各种脚本)
 
 建模开始:
 1. build_profile.py的修改,下面贴出原始的build_profile.py文件,从basic example里来的。改动几个地方,就可以用这个来查找相似蛋白质信息。
 
 from modeller import *
 
 log.verbose()
 env = environ()
 
 #-- Prepare the input files
 
 #-- Read in the sequence database
 sdb = sequence_db(env)
 sdb.read(seq_database_file='pdb_95.pir', seq_database_format='PIR',
 chains_list='ALL', minmax_db_seq_len=(30, 4000), clean_sequences=True)
 -------------------------------------
 我用了pdball.pir来替换这个pdb_95.pir
 -------------------------------------
 #-- Write the sequence database in binary form
 sdb.write(seq_database_file='pdb_95.bin', seq_database_format='BINARY',
 chains_list='ALL')
 #-- Now, read in the binary database
 sdb.read(seq_database_file='pdb_95.bin', seq_database_format='BINARY',
 chains_list='ALL')
 -------------------------------------
 同上,我用了pdball.bin来替换这个pdb_95.bin
 -------------------------------------
 
 #-- Read in the target sequence/alignment
 aln = alignment(env)
 aln.append(file='TvLDH.ali', alignment_format='PIR', align_codes='ALL')
 -------------------------------------
 用自己的蛋白质ali文件替代TvLDH.ali
 -------------------------------------
 #-- Convert the input sequence/alignment into
 #   profile format
 prf = aln.to_profile()
 
 #-- Scan sequence database to pick up homologous sequences
 prf.build(sdb, matrix_offset=-450, rr_file='${LIB}/blosum62.sim.mat',
 gap_penalties_1d=(-500, -50), n_prof_iterations=1,
 check_profile=False, max_aln_evalue=0.01)
 
 #-- Write out the profile in text format
 prf.write(file='build_profile.prf', profile_format='TEXT')
 
 #-- Convert the profile back to alignment format
 aln = prf.to_alignment()
 
 #-- Write out the alignment file
 aln.write(file='build_profile.ali', alignment_format='PIR')
 
 
 最后在命令行下运行mod9.14 build_profile.py
 完成之后会在目录里生成三个文件:
 build_profile.ali
 build_profile.log
 build_profile.prf
 
 我只用log文件去抓蛋白质相似性信息。其它两个文件不怎么用。抓出下面这部分的信息就可以,主要的目的是为了挑选出相似性高的蛋白质来做进一步的分析。
 Dynamically allocated memory at     amaxprofile [B,KiB,MiB]:      7496268    7320.574     7.149
 > 1a5z                       1     190    6900     312     335   28.14    0.85E-08       2   164    75   242    63   229
 > 1b8pA                      1     951   29400     327     335   42.50     0.0           3   316     7   331     6   325
 > 1bdmA                      1    1058   30700     318     335   44.52     0.0           4   309     1   325     1   310
 > 1t2dA                      1    1717    5200     315     335   24.70    0.67E-04       5   238     5   256     4   250
 > 1civA                      1    1784   23950     374     335   34.66     0.0           6   325     6   334    33   358
 > 2cmd                       1    1858    5900     312     335   27.24    0.17E-05       7   289     7   320     3   303
 > 1o6zA                      1    2060    5800     303     335   26.32    0.27E-05       8   278     7   320     3   287
 > 1ur5A                      1    3954    4500     299     335   30.67    0.25E-02       9   158    13   191     9   171
 > 1guzA                      1    3955    7100     305     335   25.27    0.29E-08      10   265    13   301     8   280
 > 1gv0A                      1    3962    5350     301     335   25.53    0.29E-04      11   274    13   323     8   289
 > 1hyeA                      1    4405    6800     307     335   29.28    0.14E-07      12   173     7   191     3   183
 > 1i0zA                      1    4433    5650     332     335   24.64    0.67E-05      13   207    85   300    94   304
 > 1i10A                      1    4435    5600     331     335   26.21    0.87E-05      14   196    85   295    93   298
 > 1ldnA                      1    5824    5000     316     335   25.76    0.19E-03      15   214    78   298    73   301
 > 6ldh                       1    5831    4600     329     335   23.08    0.17E-02      16   244    47   301    56   302
 > 2ldx                       1    5833    5400     331     335   25.83    0.25E-04      17   227    66   306    67   306
 > 5ldh                       1    5835    5800     333     335   25.59    0.30E-05      18   207    85   300    94   304
 > 9ldtA                      1    5836    6000     331     335   25.94    0.11E-05      19   207    85   301    93   304
 > 1llc                       1    5896    5000     321     335   25.82    0.20E-03      20   164    64   239    53   234
 > 1lldA                      1    5897    6650     313     335   30.67    0.32E-07      21   216    13   242     9   233
 > 5mdhA                      1    6084   32900     333     335   44.41     0.0          22   328     2   332     1   331
 > 7mdhA                      1    6085   22600     351     335   33.74     0.0          23   325     6   334    14   339
 > 1mldA                      1    6188    6100     313     335   25.93    0.58E-06      24   183     5   198     1   189
 > 1oc4A                      1    6736    5450     315     335   27.87    0.18E-04      25   174     5   191     4   186
 > 1ojuA                      1    6799    5700     294     335   27.98    0.44E-05      26   218    78   320    68   285
 > 1pzgA                      1    7253    6350     327     335   30.00    0.16E-06      27   114    74   191    71   190
 > 1smkA                      1    7850    8750     313     335   33.85     0.0          28   188     7   202     4   198
 > 1sovA                      1    7980    4700     316     335   26.59    0.94E-03      29   160    81   256    76   248
 > 1y6jA                      1   10912    5750     289     335   32.73    0.33E-05      30   109    77   191    58   167
 
 
 把这部分信息整理,选高相似度及E值尽可能小的蛋白质来做下一步的compare分析。
 
 
 | 
 评分
查看全部评分
 |