BiosolveIT建超大规模化合物库助力药物发现

川大-灰太狼 · 发表于 2019-4-8 17:43:06

马上注册，结交更多好友，下载更多分子模拟资源。

您需要登录才可以下载或查看，没有帐号？我想注册

x

祝贺分迪科技的合作伙伴——德国BiosolveIT公司——利用组合化学和合成路线知识，已经突破性地把可合成化合物库分子数量提高到了51亿个的超大规模。并且还推出了InfiniSee软件，在普通个人电脑上仅需3分钟即可从51亿超大化合物库中迅速筛选到1000个与目标分子结构相似的新化合物。这一最新成果于2019年3月7日发表在了Drug Discovery Today杂志上。

登录/注册后可看大图

之前，2019年2月6日Nature杂志报道了一篇利用分子对接技术虚拟筛选1.7亿分子，并发现了对D4多巴胺受体和头孢菌素酶(AmpC)具活性的化合物的文章。该论文指出“因为筛选有效药物非常昂贵且效率低下，高通量筛选可以覆盖多达几百万的化合物，但这仅仅是总数（1063个“成药性”分子）的一小点。而在筛选中得到有活性的化合物少于0.5％。所以，在药物发现早期的筛选阶段搜索超大规模的化合物库将是非常有意义的。尽管人们对超大规模化合物库非常感兴趣，但目前仍然无法获得含有数亿或数十亿种不同分子的化合物库。”此外，针对该文章的一篇Nature新闻强调：“虽然Lyu和同事的计算方法很强大，但它确实也有局限性。首先，筛选数据库中的10亿个分子将不可避免耗费巨大的计算资源。云计算和网格计算可以解决这个问题，但不是所有实验室都可以负担得起的。”

登录/注册后可看大图

现在，我们的合作伙伴德国BiosolveIT公司一下成功解决了他们提出的两个问题，直接推动了药物发现的进程。让我们一起来鉴赏一下他们的最新文章吧！

化合物库的下一个巅峰：超越1020规模

Torsten Hoffmann、MarcusGastreich

亮点

1、验证了基于药效团的相似性搜索可生成全新化合物库。

2、使用人工智能方法可以迅速预测化合物的合成。

3、迅速的相似性搜索、SAR探索和骨架跃迁快速产生新的IP。

4、让制药公司可以获得多达1020分子数的可合成化合物库。

5、供应商能够在几周内提供数十亿实体化合物。

最近的创新已经把基于药效团的相似性搜索虚拟化合物库的方法带到了每个药物化学家的指尖。该虚拟化合物库可以达到数十亿分子，这表明化合物库搜索应用的基础理论发生了巨大的模式转变。新的模式智能地将反应知识纳入其核心，以便轻松地从超大规模的虚拟化合物库中提取可合成的相似分子用于商业测活。这些巨大的化合物库使药物化学家能够在很大程度上自由地在知识产权（IP）领域用无与伦比的低成本快速地扩展Hits分子、进行构效关系研究和创新的骨架跃迁。

一、背景

长期以来，计算化学家一直试图通过使用Hits扩展、SAR探索和骨架跃迁等技术来寻找先导化合物的新IP空间。但过去的25年告诉我们，当前的计算方法可能根本无法成功地识别高度创新的相似分子。幸运的是，现在新的计算方法使得识别相似的新分子成为可能。这些新分子得到了药物化学家的广泛认可。过去的经验表明，在超大规模的化合物库中，将合成知识纳入基于药效团的相似性搜索是成功的关键。这是使用优雅的计算算法完成的，这些算法非常高效，且易于使用，并可考虑药效团信息。事实证明，在虚拟化合物库生成的过程中让药物化学家参与进来是非常重要。目前，最好的方法可以搜索接近60亿分子的超大规模化合物库，且化合物供应商可快速提供实体分子，使得科学家可以快速开展生物活性验证。

在药物发现方面，先导化合物的优化项目往往会走进死胡同。这些项目不仅试图利用迄今为止未被发现的作用模式，还可能考察大分子作为激动剂的可能性，如肽、大环化合物、生物制品及其共轭物。然而，许多研究项目仅仅是因为缺乏快速获取新IP的化学分子的途径，这些新化学分子可能具有高效和选择性的药理作用。一方面，需要获得更大的化合物库以增加发现新化学分子的可能性，另一方面，搜索这些化合物库的方法必须更快、更高效和更易于使用。

目前，由供应商提供的化合物库大小从几千到105个分子不等（“小”），而由供应商联盟提供的化合物库（例如Molport，Chemspace，eMolecules等）则高达108个分子（“大”）。超过108个分子的化合物库（“超大”）我们将在下面进一步讨论其在传统方法中无法实际处理的的各种原因。

二、超大规模的压力：新颖性和知识产权

分子除了明显的治疗效果外，新颖性同样重要。因为只有新的结构才能获得专利权（IP），从而产生利润，并为进一步的研究提供资金。化合物库大小问题的解决方案是使用虚拟合成来扩展其大小。其中一个最突出的例子是Jean-Louis Reymond在瑞士伯尔尼的小组使用通用数据库（GDB）方法。他的实验室在边界约束下计算生成所有可能的有机分子，并应用各种滤器以避免产生不需要的化学分子，例如多个退火小环和不稳定元素组合。

虽然基于规则的生成（例如，基于大环内酯类骨架进行扩展）是创建越来越多分子的一种方法，但人工智能方法（AI）最近也因在虚拟化合物库中可创建更新的IP而受到关注。不论是否认可应用虚拟分子技术来增加化合物库规模是一种可行的方法，研究人员已经创建了包含数亿（108）个分子的虚拟化合物库。

然而，仅仅处理或搜索这些超大规模虚拟化合物库就是一项巨大的挑战。因为，在计算机处理文件或数据库存储过程中会出现问题。文件大小超过万亿字节，即使在基于云的环境中，搜索也需花费太多时间：Reymond小组在2012年发表的文章中记录了他们在360个CPU上耗时10万个CPU时，以枚举含有多达17个重原子的分子，这是有记载的创建“超大”化合物库所需要的巨大代价。举个例子，一个相对较小的，含100万个复合子集的GDB-13使用未压缩的三维分子sd格式，需要大约1GB的硬盘空间；Ruddigkeit等人声称GDB-17（含1.66×1011个分子）则需要约400GB压缩格式的磁盘空间。因此，1020个分子需要约2×108GB或20万TB压缩格式的磁盘空间，VanHilten等人在他们最近的评论中估计了存储大小。此外，如此大量的枚举虚拟分子对搜索化合物库中分子结构所需的时间有相当大的影响。最新研究表明，使用针对硬件进行优化的计算机代码，并结合多种先进的加速策略，可以将几亿个虚拟化合物中一个子结构搜索的时间缩短到几秒钟。然而，考虑到这类搜索的线性缩放行为，即使这些优化方法也不适合用于1012或1020个分子的化合物库搜索。

经验表明，由于化合物结构集合的有限性，枚举原理也会引起专利性问题：集合的有限性导致了IP空间的有限性。被授予专利，在法律上需要证明其新颖性、实用性和创造性。因此，使用公开披露的有限枚举集（如GDB数据库）会减少获得专利的机会。然而，即使使用非枚举的化合物库也没有任何保证，因为专利授予的过程需要专利律师，而且决策总是根据具体情况做出的。

三、使用组合化学超越枚举：解决可合成性问题

使用计算机虚拟设计化合物的另一个问题是分子的可合成性。我们可能完全不清楚设计出来的分子是否能合成，常常令人望而却步。机器学习方法目前正在用于这一领域: Waller等人开发了一种最新方法，通过逆合成的考虑来验证可合成性，并使用该信息来训练AI。作者用Elsevier的Reaxys数据库中的数百万反应对AI进行训练，以预测可能的合成路线。AI提出的合成路线与之前报道的路线持平。然而，与知识产权相关的问题仍然存在，任何依赖于枚举算法（图 1c）处理“超大”量的分子都将耗费相当长的运行时间。

登录/注册后可看大图

图1 组合化学与枚举的化合物库的区别

在有机合成实验室中，一种避免计数的现代方法是利用组合化学扩展化合物库，从而优化DNA编码库（DELs）。为库创建底层技术可以覆盖超大规模的分子。在这里，数以百万计（或更多）的组合产生的假定小分子结合物被标记有DNA片段的“特征”组合，其中DNA充当条形码，因此是一个明确的标识符。当对固定化蛋白靶标进行筛选时，那些结合的配体将保持结合状态，所有其它配体都可以被洗掉。随后的PCR扩增和读取结合物的条形码使科学家能够识别出活性小分子。然而，在投入到真正的湿实验室之前，使用计算机作为提议引擎仍然有利于节省时间和资源。

四、组合片段：一种重生的方法？

在计算机模拟中采用反向合成重新组合片段的方法克服了前面描述的计算挑战。这个想法很简单，但也很惊人，尤其是当人们看到计算机中的虚拟片段和湿实验室中的片段之间的类比时：只取1000个片段，通过两个反应组合形成（“denovo”）分子，已创造了令人印象深刻的10亿个（1000×1000×1000或109）分子的化合物库。添加更多片段和更多反应会产生超大规模的化合物库。

最早提出这种想法的人是XiaoLewell及其同事，他们开发了广受欢迎的RECAP方法。一经发表，很快就在各种计算机程序中实现了。最初的想法是通过计算机进行反向合成粉碎来分解现有分子，然后以类似乐高的方式重新组装新的化合物。后来，考虑到现有的合成路线知识，人们设计了更为复杂的方法，并将相关的化合物库向公众开放。例如，2005年，Nikitin等人发表了一种新的组合方法，利用计算机程序快速组合供应商目录中的已有片段，作者从中发现了微摩尔活性的HIV整合酶抑制剂，证明了他们的成功。然而，由于这些方法得到的分子在合成易处理性上仍然存在问题，因此片段组合的化合物库构建方法被错误地谴责，并且不再受欢迎。直到现在，在这个“大数据”时代，组合片段的方法才得到了回归。

五、成功的关键：强大的合成化学知识

基于片段的方法在化合物库研究中重新流行起来，可通过设计得到可合成的化合物库。这使得组合化学方法变得有用并优雅：不再回顾过去，而是将历史化学知识的广义方案应用于新IP的组装，越来越多的组织正在尝试。这些方法是从强大且可跟踪的内部合成化学知识中推演出来的，可用于创建那些在实验室中具有高合成性的有形虚拟分子（图2）。之前提到的“范式转换”是承认合成可能性的必要性，并将其作为计算机算法的一个组成部分来实现，这些算法在多维超立体中进行（图1）。过去完全不沾边的东西，即搜索描述符和化合物合成，现在紧密联系在了一起，因此，这种方法现在得到了广泛的认可：辉瑞公司的一个团队首次发表了这一总体的规划，他们基于化学反应规则创造了含1016个虚拟分子的化合物库（'PGVL'）。他们成功地从中挖掘出了几个活性的化合物。紧接着Boehringer Ingelheim公司用类似的方式发现了一种新IP的活性化合物，随后发表了第一篇文章。该活性化合物被快速优化成针对GPR119的先导化合物。GPR119是一种涉及胰岛素分泌的具有挑战性的新型GPCR靶标。迄今为止最大的内部化合物库是由默克公司在其350周年庆祝大会上展示的MASSIV化合物库，其分子数达到了惊人的1020个，并报道了他们利用公司内部合成程序创建的活性化合物的成功例子。

登录/注册后可看大图

图2 与已批准的药物数量相比，其它化合物库的分类和分子数量级

令人放心的是，这些分子是可合成的，并且化合物可在短时间内合成出来。例如，一个被选择的片段将快速转化为小量的化合物，应用于迄今未公开的靶蛋白。必须强调的是，反应和转化的稳定性是该过程中的关键因素，并且这些化合物库的质量、多样性和覆盖率将随着其背后的化学创造性和新颖性而增加。可以理解的是，只有少数组织公布了与他们合作的反应的详细信息，以及更具相关性的具体实验条件下的产量和潜在变化。因此，“超大”化合物库质量的最终衡量标准是它覆盖的相关化合物库的大小和可以从中合成的化合物的百分比。亲和力既依赖于查询又依赖于靶标，它不是化合物库的固有属性，除非它是为某个特定靶标创建的小型或集中化合物库。

表1 各种化合物库的大小

登录/注册后可看大图

回到从化合物库获得新分子的方法中，我们不难发现这些方法是如何与内部数据一起使用的。如果，我们可以很简单地从商业供应商那里购买超大化合物库中的分子，这将是多么地方便！化合物供应商是如何根据既定的合成路线在超大化合物库中运作的呢？实际上，直到最近这才成为可能（见图3）。一家乌克兰的化合物供应商Enamine公司与德国药物设计公司BiosolveIT合作共同推出了这种方法：REAL Space。REAL Space是使用现有的片段分子（具有可追溯的质量控制记录）和从其合成路线中获取的反应，经CoLibri的软件创建的超大化合物库。保守估计，公司可在大约3周内交付该化合物库中的分子，且合成成功率高于80％。研究人员可以直接从供应商处订购，并在订购时获得相关IP的所有权。如果枚举，REAL Space将包含超过38亿种化合物。即使是80％，这仍然可以转化为理论上可交付的30多亿种化合物。德国BioSolveIT的相关化合物库搜索软件REAL Space Navigator可免费下载，并在2-3分钟内搜索数十亿种化合物库，每次运行可提供1000种化合物。

登录/注册后可看大图

图3商业化合物库的分子数量

首先，仅仅是一个化合物库的大小并不能保证与特定靶标或某种多样性的相关性，甚至不能保证有用性。然而，通过进行简单的片段分析并应用一步或两步合成路线的边界条件来探测REAL Space的质量，可得到具有成药性的分子（图4）。此外，为了获得相关的候选化合物，类似药效团的特征也可用来在REAL Space中进行搜索。最后得到结果分子和其查询的相似性打分。随后，我们还提供了PAINS和聚合筛选，这使得研究者可以很轻松的采用传统计算方法对数千种所得分子进行进一步的可视化和计算评估。需要注意的是，订购选定的化合物之前，建议药物化学家应进行质量控制和结果的专业分析。

登录/注册后可看大图

图4 REAL Space中片段分子性质的分布

问题的解决，不一定是要创建一个涵盖所有可能性的虚拟化合物库，或许从一个虚拟化合物库中，或者从一个与药效团最相关的化合物类似的虚拟化合物库中寻找活性分子更实在。前者的难点将在创建的超大规模化合物库的体积将导致接下来筛选所耗费的巨大资源及时间。而后者可以避免这些问题，但需要超越传统子结构搜索的算法。现在有一些非常快速的计算机程序可供使用（表2）。Merck和Enamine的方法均使用了药效团模糊描述符的变体，即所谓的“特征树”。这个策略是Matthias Rarey开发的一个方法，后来与Roche合作得到进一步发展。它使用基于特征树的分子描述符，结合所谓的“动态编程技术”。后者在蛋白质比对中是众所周知的，它速度极快，并且通过设计将找到最佳可能的排列，这是一种分子“空间”相似性的度量。

表2 快速化合物库搜索软件

登录/注册后可看大图

上述方法的局限性在哪里？在超大规模的化合物库中需要对分子的特征进行描述，即所谓的“描述符”，因此搜索结果将受描述符的限制。在特征树的情况下，无法区分环取代模式和立体化学。因此，一些用户使用了三维方法（如三维叠加）对结果进行正交后处理。基于组合化学产生的超大规模化合物库的另一个缺点是：它们无法进行全子结构搜索和典型相关参数的综合分析。例如，“整个化合物库中logP的分布或是什么样的？分子的氢键受体或供体捐的数量是多少？”这样的问题就无法回答。但是，对于大型枚举化合物库也存在同样的问题。Lucas等人对可购买的大型枚举化合物库进行了仔细分析，该化合物库中包含约6800万（6.8×107）个分子。这是由于化合物库大小所决定的，当组合化成产生的化合物库超过了107数量级（图2），这种（或类似的）分析仍然无法进行。作为替代方案，可以使用多种药物或类似药物的查询化合物计算几千个结果，并对结果进行分析，从而获得对化合物库性质更定量的评估。过滤超大化合物库以获得某个pKa范围、代谢不稳定性和可比较参数的结果，可作为一种后处理方式。

用户可以从化合物供应商处方便地购买化合物，类似于Google的图像搜索: 合成化学家可以将2D分子图复制并粘贴到REAL Space Navigator中，安全地在公司防火墙后面的个人的桌面上运行搜索，并立即评估结果。这避免了涉及多个团体或部门的流程。表3列出了制药公司和Enamine报道的一些早期统计数据。迄今为止，REAL Space概念在易于购买的分子方面处于世界领先地位，无论是在可订购的分子数量上，还是排序的计算时间方面，无需任何预处理。

表3 制药公司购买Enamine的“REAL Space”化合物情况

登录/注册后可看大图

六、结束语和展望

我们深信，如果所述方法在整个行业和学术界得到广泛应用的话，将有可能带来药物发现和小分子治疗药物设计模式的转变。基于药效团的相似性搜索在超大规模的虚拟化合物库中的成功应用，以及合成知识在优雅的计算算法中的融合，使得药物化学家能够实现快速Hits的扩展发现、SAR的探索以及创新的骨架跃迁。该方法展示了人们期待已久的转变，记录了药物化学和分子设计学的融合，实现了从成熟的传统科学向更为敏捷的药物发现核心科学的转变。这仅仅是药物发现新时代的开始，因为超大规模的虚拟和可购买的化合物库分子数量还在快速地不断增长。REAL Space的第一次迭代产生了6.4亿分子数的化合物库。在不到6个月的时间里，这个化合物库的分子数量激增到了38亿，现在已经达到了51亿: 未来比我们想象的或许更庞大！

参考文献

Doi：10.1016/j.drudis.2019.02.013

【分迪科技 PRODED践行者】

基于前期的成功实践，分迪科技构建了从药物分子设计、合成到生物测活的小分子降解蛋白先导化合物开发整体体系。

期待与您合作！

028-85160035

sales@moldesinger.com

www.moldesigner.com

PROTAC蛋白降解药物【前世今生】系列

1、蛋白降解靶向嵌合体（PROTAC）新药开发系列【一】

2、【PROTAC】新药开发系列（二）降解MetAP2

3、【PROTAC】新药开发系列（三）降解雌、雄激素受体