分子对接软件性能评测
电子消费品网上评测很多,这些评测方便了大家更好的了解产品。对接软件的性能比较文献中虽有所报道,初接触对接的同学估计没兴趣读文献,要不然也不会满世界的找AutoDock 4的中文教程了。本文的目的在于抛砖引玉,提供给大家一个来自文献的、小而多样化的测试集,方便各位同学测试一下自己的对接软件,并把测试结果上传与大家共勉。AutoDock 4基本是分子对接的入门软件,笔者也不例外。AutoDock作为早期的开源软件对于分子对接的历史发展贡献是巨大的,遗憾的是其性能差不多是目前软件中最差的,准确率只有区区的49%,同一个实验室出来的Vina准确率高达78%,是目前开源软件中性能最好的,跟商业软件相比综合性能也不错。此外,AutoDock 4的速度实在是太慢了,比Vina要慢一到两个数量级。选软件跟买手机是一样的,不能光看宣传,情怀就更不靠谱了,最终要看性能。
初接触计算的同学,尤其是物理背景较弱的,难免觉得计算是基于极其深奥的科学理论,于是就正确无比了。估计这也是大部分人选择AutoDock 4的一个原因,毕竟该软件历史悠久,使用的人最多,也就想当然的认为用该软件做出来的结果自然是对的。这是个比较严重的认识误区,计算结果之前必须加上定语computed or predicted以区别实验结果。计算结果只是假设,必须要通过实验验证。既然是假设,其实跟拍脑袋想出来的区别不是很大。对软件算出来的结果要做独立的判断,结合已知的实验结果进行分析。
言归正传,说到评测就需要一个有代表性的测试集。文献上的测试集一般都比较大,刚接触的人一个个做过来也实在太累。所以测试集要小,又要有代表性。一方面方便大家比较不同对接软件的性能,另外也方便刚接触对接的同学练练手。最近JCIM上面发表了一篇文章,采用了24个晶体结构来评价两个对接软件(基于CHARMM的对接软件SEED与Glide)的性能,分别为71%及84%。附件中给出了这24个晶体结构,包括配体小分子的Mol2文件。希望大家能把自己使用的对接软件的评测结果发上来,以便比较并在评测中更好的理解分子对接。LeDock在这24个晶体上面也做了测试,结果是比较令人吃惊的,LeDock的准确率高达96%!LeDock之前在Astex Diversity Set 上测试的准确率达94%。
以下给出我所知的一些分子对接软件的准确性,欢迎大家补充。AutoDock 4 49% Vina 78% Seed 71% Gold 86% Glide 84% LeDock 95%
LeDock的评测采用了Windows版本,蛋白由Lepro模块自动处理,处理后的蛋白文件名为pro.pdb。金属酶的话,金属离子手动从原始的PDB文件复制粘贴到pro.pdb文件内,并且把HETATM改成了ATOM,蛋白文件重新命名为pro.zn.pdb。少数几个蛋白结合位点的极性氢原子(The、Ser或Tyr)做了调整,蛋白文件重新命名为pro.h.pdb。dock.in是对接参数文件。对接结果保存在lig.dok中,可以用PyMol直接打开。
最后简单的谈一下怎么评价对接构象,最好的办法就是尝试去理解为什么对接构象跟晶体一致时打分会比较高,其它跟晶体不一致的构象不合理在什么地方。此外,没有100%准确的软件,针对自己的蛋白靶点,综合评测一下各种软件,选择最合适的。综合性能差的软件也许针对某个特定的靶点(或特定的配体小分子结构)效果不错。实在不行的话,考虑要不要保留水分子。分子对接遇到问题的可以在本帖留言。
LeDock的使用教程包括vmd插件请参阅:http://bioms.org/thread-1227-1-1.htmlLeDock结合口袋的确定包括PyMOL插件请参阅:http://bioms.org/thread-1234-1-1.html
下图是具体的RMSD分析。从结果可以看出,打分最高的对接构象未必跟晶体结构中的构象最接近。综合而言,LeDock的RMSD值更小一些,特别是LeDock最接近构象有84%的RMSD小于1A。
本帖最后由 fireflying 于 2014-9-25 14:21 编辑
iovvoi 发表于 2014-9-20 10:36
THX,你这95%的分母是24? 准确性是RMSD
RMSD<2 A,是目前文献中标准的评判方法,您可以有不同的意见,我很可能也同意你的观点,但还是请您在评论之前先分析一下数据,毕竟数据就在那边。
在JCIM文献中的24个晶体结构上LeDock的成功率是96%,在Astex Diversity Set的85个晶体结构上LeDock的成功率是94%。LeDock针对激酶还专门测试过100个晶体结构,成功率是98%。此外,LeDock在Prospective Application中找到了一打以上的Kinase及Bromodomain的新颖活性结构,其中针对Bromodomain的两个化合物与其蛋白复合物晶体结构中的结合构象跟LeDock预测的完全一致,参见PDB code 4PCE及4PCI。
最后,再重申一下,本文的目的旨在提供一个小而具有一定代表性的测试集,方便网友测试自己在用的分子对接软件,并把结果与大家共享,虽然测试集小,但是这样的比较是apple-to-apple,有比较意义。另外,也方便初接触分子对接的同学在测试中更好地理解分子对接中参数的设置以及蛋白处理的一些问题,甚而包括对接时结晶水的处理。
比较的目的在于对各种软件有个初步全面的了解,至少选择什么软件,如文中所说,个人喜好,野百合也有春天!不同的学术观点是欢迎的,但要摆事实、讲道理。谢谢。
浪模拟 发表于 2014-9-18 16:01
楼主学习与使用对接软件的顺序是什么?
这是个很有趣的问题。我最早使用的是AutoDock 4,用AutoDock 4发表了三篇药物发现工作,即使AutoDock 4的准确率不高,但是的确是可以发现很好的化合物,虚拟筛选得到的最好化合物活性在100-300 nM,已经优化到了细胞内<10 nM的地步,在肿瘤细胞以及癌症小鼠动物模型上效果很好(GI50<20 nM),目前在商业化阶段。使用中也发现,AutoDock 4的参数设置很重要,很多时候结果重新性不太好,另外就是速度太慢,速度跟参数设置相关。
后来用了一次Vina,没有做出好的结果。再后来就是LeDock了,用LeDock目前发了三篇文章。用LeDock筛选出来的化合物跟蛋白的高分辨晶体结构也解出来了,实验结果跟LeDock预测的完全一致(PDB Code 4PCE、4PCI)。
以我个人的经历来说,对接软件就是一个工具,选择性能好的,但是更重要的是选择自己用的舒服用的习惯的,让自己满意的就行,毕竟就是一个工具而已。
楼主学习与使用对接软件的顺序是什么? fireflying 发表于 2014-9-18 17:44
这是个很有趣的问题。我最早使用的是AutoDock 4,用AutoDock 4发表了三篇药物发现工作,即使AutoDock 4的 ...
楼主好强大:handshake,能分享一下这流片文章吗:loveliness: 浪模拟 发表于 2014-9-18 20:06
楼主好强大,能分享一下这流片文章吗
没问题啊,你可以访问我的LinkedIn或Research Gate页面,群里面发链接吧:lol 楼主主要的研究方向,偏重于试验还是偏重于计算? fanc232 发表于 2014-9-19 08:43
楼主主要的研究方向,偏重于试验还是偏重于计算?
计算是基础,但是没有经过实验验证的计算是不会发表的。主要是搞方法开发,然后进行实验验证。所以两者都有。 fireflying 发表于 2014-9-19 14:42
计算是基础,但是没有经过实验验证的计算是不会发表的。主要是搞方法开发,然后进行实验验证。所以两者都 ...
上午没阐述明白...就是说楼主,既要研究计算的软件和原理,还要做生物实验,对吗?我接受的培养模式有点类似,虚拟筛选获得药物后拿生物实验验证啥的。我本科是生物背景,现在只算是会使用软件,但不精通编程和算法,没有开发模拟软件的能力。目前对以后的就业方向非常迷茫。所以想请教一下楼主,这段时间内要注重在哪些方面强化自己。 fireflying 发表于 2014-9-18 21:04
没问题啊,你可以访问我的LinkedIn或Research Gate页面,群里面发链接吧
额, 没有找到,联接直接在这儿给吧,好人楼主 fanc232 发表于 2014-9-19 16:52
上午没阐述明白...就是说楼主,既要研究计算的软件和原理,还要做生物实验,对吗?我接受的培养模式有点 ...
学软件去山东找蓝翔,不能因为天天使用计算机就说自己是搞计算机科学的吧?开个玩笑了。
计算机辅助药物设计跟会不会用软件甚至会不会写软件关系不大。研究方向大致可分为:1)计算方法、算法开发;这个偏理论(structure-based)或者偏化学信息学(ligand-based),不过都要求数学功底扎实以及一定的化学知识,前者还需要一定的物理背景。2)熟悉各种计算方法,针对具体的靶点灵活应用解决实际问题。
软件是算法的体现,有些杂志如Nucleic Acids Research有专刊发表计算软件、数据库方面的工作。不过也有很多软件如RDKit、OpenBabel等是一帮人完全出于兴趣写着玩,不是用来发文章的。