mustme 发表于 2015-6-25 18:11:03

Haddock软件的使用方法简介

haddock(当前版本2.0)
主页: http://www.nmr.chem.uu.nl/haddock

主要参考文献:
Cyril Dominguez, Rolf Boelens and Alexandre M.J.J. Bonvin (2003).
HADDOCK: a protein-protein docking approach based on biochemical and/or biophysical
information.
J. Am. Chem. Soc. 125, 1731-1737.
S.J. de Vries, A.D.J. van Dijk, M. Krzeminski, M. van Dijk, A. Thureau, V. Hsu, T. Wassenaar
and A.M.J.J. Bonvin
"HADDOCK versus HADDOCK: New features and performance of HADDOCK2.0 on the CAPRI targets."
Proteins: Struc. Funct. & Bioinformatic 69, 726-733 (2007).
第一篇是原始文献介绍蛋白-蛋白对接的,第二篇是介绍利用Haddock2.0来dock蛋白和DNA分子

讨论组:http://groups.yahoo.com/group/haddock-discuss

获取方法:详细内容参见http://www.nmr.chem.uu.nl/haddock/
学术用户需要填写一个lincense的表格。haddock2.0的安装文件会通过电邮发送(3MB)

安装方法:haddock主要是一些脚本的集合,主要是python脚本和csh脚本,运行的时候需要CNS
具体的安装方法haddock目录中的INSTALLATION都有介绍(make, make install之类),安装之后
需要设置一些环境变量
      我在redhat8.0下安装没有遇到什么问题,不知道在新一点的系统下如何

使用方法:
      haddock在进行蛋白蛋白对接的时候主要使用的是AIR(Ambiguous Interaction Restraints),按
照文献的说法,haddock的使用三步进行蛋白质对接:第一步,两个或多个蛋白质分子的刚性对接。在此过
程中参与对接的蛋白的主侧链都保持原始构象,主要根据AIR和空间位阻来对接。这一步会产生大量的复合
物结构(一般1000个)。第二步,haddock按照一定的评价标准(电荷,能量,接触面积之类的,可以调节
),从前一步所得复合物中选取一定数目(一般200个)进行优化(模拟退火)。在此过程中,根据设定,
蛋白质某些残基的侧链或者主、侧链可以具有一定的柔性。第三步:显式含水优化过程。在此过程中
haddock会给复合物加水分子层(TIP3P)进行优化。
         haddock主页上有比较详细的使用方法,用的时候边看网页边做。

PDB的格式,如果PDB文件里有SEGID字段,需要去除,因为haddock会使用这个字段来标记蛋白分子
。如果dock的分子中有离子或一些比较少见的小分子,还需要自己添加拓扑文件。

AIR:AIR的定义了分子A的XX号残基同分子B的yy号残基间的约束(一般是一对多,即一个A中的残
基对多个B中的残基)。这种模糊性的约束可以有多种方法生成:生物信息学,NMR滴定实验或者完全有haddock随机选择。AIR约束文件需要一定的格式,这个可以在haddock的网页上生成。下面是一个示例:
!
! HADDOCK AIR restraints for 1st molecule
!
!
assign ( resid 22and segid A)
       (
      ( resid 5and segid B)
   or
      ( resid 6and segid B)
   or
      ( resid 7and segid B)
   or
      ( resid 8and segid B)
   or
      ( resid 9and segid B)
   or
      ( resid 10and segid B)
       )2.0 2.0 0.0
!
除了AIR约束之外还可以定义RDC(Residual Dipolar Couplings)、Diffusion anisotropy
restraints(Diffusion Anisotropy Data)之类的约束,这些我也没有用过,具体的内容参见网页。

         运行haddock之前需要编辑一个new.html文件,格式如下:
<html>
<head>
<title>HADDOCK - start</title>
</head>
<body bgcolor=#ffffff>
<h2>Parameters for the start:</h2>
<BR>
<h4><!-- HADDOCK -->
AMBIG_TBL=/home/abonvin/haddock2.0/examples/barnase-barstar/ambig_whiscy.tbl<BR>
HADDOCK_DIR=/home/abonvin/haddock2.0<BR>
N_COMP=2<BR>
PDB_FILE1=/home/abonvin/haddock2.0/examples/barnase-barstar/1a2p_B.pdb<BR>
PDB_FILE2=/home/abonvin/haddock2.0/examples/barnase-barstar/1a19_A.pdb<BR>
PROJECT_DIR=/home/abonvin/haddock2.0/examples/barnase-barstar<BR>
PROT_SEGID_1=A<BR>
PROT_SEGID_2=B<BR>
RUN_NUMBER=1<BR>
submit_save=Save updated parameters<BR>
</h4><!-- HADDOCK -->
</body>
</html>
         这个new.html主要是定义了一些路径参数,即告诉haddock各种约束、PDB文件、project在哪里。这个文件也可以在haddock网页上生成。
设定好了在包含new.html的目录里直接执行haddock2.0就新建立了一个project。
……
……
……
new project /xxxx/xxx/xxx/xxx has been set up.
Now you have to edit run.cns in /xxxx/xxx/xxx/xxx
##############################################################################
Au revoir.
Tot ziens.
Bye bye.
当看到上面的提示则说明顺利的建立了新的project。这一步一般问题不大,如果路径设置不对
haddock也会有提示。

之后就是编辑run.cns(这个文件在run1子目录下)。这是一个80多k的纯文本文件,包含了
haddock对接蛋白的各种参数设定,主要内容如下:(haddock网页上也有关于这个的详细说明)
1. Number of molecules for docking
主要设定对接几个蛋白,据说haddcok可以一次对接好几个蛋白,但是我没有试过
2. Filenames
这里主要检查一下各类约束文件、pdb文件的路径是否正确
3. Definition of the protonation state of histidines
4. Definition of the semi-flexible interface
这里可以定义在对接的第二步优化过程中哪些残基的侧链可以自由移动
5. Definition of fully flexible segments
这里可以定义在对接的第二步优化过程中哪些残基的主、侧链都可以自由移动
6. Symmetry restraints
7. Distance restraints
8. DNA/RNA restraints
9. Dihedral angle restraints
10. Karplus coupling restraints
11. Residual dipolar couplings
12. Diffusion anisotropy restraints
13. Topology and parameters files
6,7,8,9,10和13主要是一些特定的约束,用来使蛋白或DNA/RNA(尤其是后者) 维持一定的构
象。有时候如果不加这些约束,对接过程中蛋白的结构会发生很大的变化
14. Energy and interaction parameters
这里需要设定能量相关的一些参数,如epsilon值(根据haddock的第二篇参考文献,如果是对接蛋
白和DNA分子, epsilon需要设定为78)
15. Number of structures to dock
这里设定对接的每一步中需要计算的结构数
16. DOCKING protocol
这里设定对接的参数,如温度,步长,MD长度,随机数之类的。
17. Solvated docking
这里选择是否在对接的MD中加入溶剂分子
18. Final explicit solvent refinement
这里是对接最后一步优化的相关参数
19. Scoring
这里可以设定haddock计分的公式,即给各种能量参数一定的权重,然后根据这些权重计算出一个
haddock score。这里的设定非常重要,直接影响到对接的结果。因为haddock在对接的每一步都是根据这个
haddock score来评价对接复合物的好坏。
20. Analysis and clustering
这里是haddock自动分析的参数。对于最后的对接结果,haddock会将RMSD小于一定值的结构归为一个cluster
21. Structure quality analysis
haddock可以使用procheck、whatif和prosa软件来分析评价最后的对接符合物,这里是用来设定这些软件的路径
22. Cleaning
这里是设是否自动清除计算的中间文件。一般haddock第一步1000个结构,每个结构有大约3~5个文件,一共3k~5k个文件,会全部在一个目录里。使用自动清理的花haddock只保留一个结构的相关文件作为示例。
23. Parallels jobs
这里定义并行运算的方式以及CNS的路径。haddock主要依靠CNS进行对接的MD运算,所以这里要参考CNS的并行运算设置。

         设定好run.cns文件后直接运行haddock2.0就可以开始进行计算了。这里需要说明的是,如果一切正确(主要是各种文件的格式),haddock会开始第一步对接;如果有文件格式不对,haddock也没有提示,直接停在某一步。
looking for existing files
waterdock false
generating PSF and PDB file of protein A with the command:
xxxxxxxxxxxxxxxx
waiting for the psf files...
比如上面的步骤,一般需要10分钟左右,如果始终停在这种waiting for的状态就需要终止haddock运算,然后到begin子目录下去查找含有out字样的文件,看看里面有没有错误。
Structure    1: running
Structure    2: running
Structure    3: running
Structure    4: running
当出现如上所示的提示时表示haddock已经开始进行对接的MD了,各类文件的格式没有问题。这里还有一个变态的地方是,第一步对接优化中的1000个结构,只要有一个运算出错(如尝试10次都没有产生足够的符合AIR的构象等)haddock就会在第一步对接后直接退出。一般这种情况需要更改以下AIR的设置,如果使用的NMR的结构,也可以改换以下使用的结构model

         haddock对接计算的时间会比较长(20个CPU,intel 2.0G,计算100多残基大小蛋白间的对接需要10~20小时)。运算的数据文件也不小,一般一次运算500MB左右。

         haddock计算结束后需要对结果进行分析,haddock提供一些脚本文件,会对最后得到的对接复合物进行归类,然后分别对每一类结构进行统计。网页上专门有一节介绍这个,很详细。不过如果简单的看一下结果的话只需要运行$HADDOCKTOOLS/ana_clusters.csh [-best #] analysis/cluster.out就可以了(注意:网页上cluster后少了个s,cluster.out文件需要解压缩,haddock运行完后会默认把它压缩了),然后找clusters_haddock-score.txt文件,以下是一个例子:
#Cluster haddock-score sd
file.nam_clust1273.797   83.709
file.nam_clust2377.117   59.464
file.nam_clust3301.988   70.621
file.nam_clust4423.291   41.418
file.nam_clust5447.486   80.763
网页上是这么说的:
The assumption is then that the best (lowest) HADDOCK score structures of the best (lowest) HADDOCK score cluster are the best solution generated by HADDOCK. It is then up to you to confirm that using any kind of information you can get such as for example:
……
haddock score平均值最低的cluster中haddock score最低的对接复合物(有文件会列出每个cluster中所有结构的haddock score)就是最好的结果。不过这个假设有时候还是有些问题的,关键是看haddock score的设定(各类能量参数的权重)和对接相关的约束(AIR之类)。如果这些参数都设定的不错,那么最后会是haddock score平均值最低的cluster包含有最多的结构,也即对接是收敛的。但有时候也会出现多个cluster的haddock score相差很小,包含的结构数目也差不多等之类的情况,这个就需要调试参数了.Haddock讨论组理也经常会有关于关于最后分析时cluster数目、包含结构多少之类的讨论,必要时可以看一下讨论组,具体问题具体对待。

摘自http://simulation.hatui.com/viewthread.php?tid=602

川大-灰太狼 发表于 2015-6-25 22:36:45

欢迎大家转发一些有用的帖子,让大家了解更多的知识。最好是经过自己检验过的,可以加上自己的看法和修正!

smileyujun 发表于 2016-1-15 13:38:35

非常好!

yuanlinchen 发表于 2016-9-4 09:34:25

亲,你安装了这个Haddock了吗?

lusandan 发表于 2016-11-7 10:51:37

在线的HADDOCK怎么用啊,每次传PDB都报错,为什么呀?

lusandan 发表于 2016-11-7 11:10:22

Haddock注册不成功,一直报错,You did not submit a valid signup form. Please check the required fields,有人注册成功过吗?
页: [1]
查看完整版本: Haddock软件的使用方法简介