先导化合物优化

0
1843

A+

“你的化合物优化得怎么样？活性提高了吗？其他性质怎么样了？“

每当我们遇到这类问题，都希望回答是：“嗯，还不错。变好了，活性提高了。“

“那么还要做多少优化呢？”答案一定是“越多越好”吗？

德国波恩大学的Jürgen Bajorath教授是计算机辅助药物发现和化学信息学的专家，尤其对于先导化合物的优化有着独到的见解。他们课题组最近在Journal of Medicinal Chemistry 上发文： Computational Method to Evaluate Progress in Lead Optimization试图用定量的方法来回答这类问题(Vogt, Yonchev and Bajorath)。

——背景——

先导化合物的优化（Lead Optimization，LO）是药物发现过程中的必要步骤，整个优化过程主要还是由经验指导，很大程度上依赖于研究人员的化学知识与直觉。在实际研究过程中，有一类问题很难决定：对一系列化合物而言，我们是否应该继续探索类似物？有多大可能我们还能得到效果更好的类似物？我们是不是该停止当前先导化合物的优化？

这篇期刊文章主要是针对这类问题来进行探讨。作者通过构造参数来评估是否已经完成了足够数量的类似物以及取得进一步进展的可能性。作者也希望实验化学家和计算药物化学家都能够在一个较高的层面理解这样的问题“对于一个类似物系列，已经投入的工作进展效果如何？”。这里我们准备介绍这些参数，对每个参数尝试给出假想实例，帮助大家了解这套评价体系。

该计算方法考察了如下两个参数：化学饱和度(chemical saturation）和构效关系实验进展（structure–activity relationship progression，以下简称SAR进展指标）。作者认为该方法包含的打分项易于计算，在需要继续进行化学空间搜索（继续合成并表征）时，能够帮助研究人员确定不同候选序列的优先级。这两个参数主要考察了如下两个方面（1）给定类似物系列(Analog Series, AS)，其化学空间覆盖程度，（2）当前类似物是否显示出显著的效力变化。

化学饱和度（chemical saturation)参数的计算过程中，会为给定的已知类似物系列(AS) 生成虚拟类似物（VS），用VS的分布来指示该系列类似物周围的化学空间覆盖情况。已知类似物一般具有不同效力。从以前的研究来看，类似物的构效关系是不连续的(Peltason and Bajorath)，存在顶点也就是所谓的活性悬崖（activity cliff)(Stumpfe and Bajorath)。SAR进展指标借助这些已知类似物重叠的邻域中的共同虚拟化合物通过定量化处理然后加权平均得到，实现了用连续参数表示已知类似物系列的构效关系进展情况。

——参数推导——

在具体打分过程中，有三个参数需要评估：

类似物覆盖化学空间的广泛性，收敛参数C。
类似物覆盖化学空间的密度，密度参数D。
类似物的效力改变如何有定量，SAR进展指标P。

前两个参数组合获得化学饱和度S。

他们的推导如下：

收敛参数C

对于一个类似物系列：有nA个活性分子，另外采样得到的虚拟集V有nV个虚拟分子。对类似物系列中每一个分子ai，构建新的集合Vi 。Vi中的元素来自于V，与ai的距离小于阈值t。Vi就是在Ai邻域里的分子。对所有Vi,取并集，形成邻域总集VN。该总集化合物数目nN。定义收敛参数C：

实际工作可能是这样完成的：假设有一个系列，50个分子。生成10000个虚拟分子。然后根据预先处理好的性质描述符，选这50个已知分子的邻域。假设只有两个性质，比如处理过的分子量和油水分配系数（logP）。对A1化合物分子与所有虚拟分子，直接求几何距离。其中所有几何距离小于特定值t的虚拟分子，比如1000个，那么这些虚拟分子就是A1的邻居，就构成了A1的邻域，集合V1。把50个生成的虚拟集放在一起，去掉重复的分子。用剩下的分子总数除以虚拟分子总数10000。

密度参数D：

VN中的虚拟类似物v可以被包含在一个或者多个活性类似物的邻域里。临近关系是相互的。如果一个虚拟类似物的周围有很多真实活性分子，那么可以认为该虚拟类似物周围活性类似物分布很密。密度参数D就是这样的一个参数：对于所有邻域中的虚拟分子，每个虚拟分子周围有几个已知类似物？首先定义一个参数：dmean。

然后把该参数调整到[0,1]之间。就得到密度参数D = 1 - 1/dmean 。考虑两个极限情况：对于上面的数据集。如果每个已知类似物分子的邻域里都是10000个虚拟分子，那么最后该dmean值就是50，D值是0.98，说明这些已知类似物分子都在一起。如果每个已知类似物分子都只有1个相邻类似物，且互相不交叉，那么这个值就是50/50，等于1。对应D值为0。

化学饱和度S：

结合以上两者，定义饱和度参数S，用F1-value的形式定义化学饱和度S:

SAR进展指标P：

如果一个虚拟类似物在多个活性类似物的邻域，那么这些活性类似物的效能改变就可以指示在当前化学亚空间局部构效关系连续的程度。这里定义一个中间参数Δ̅i ，

用来描述单独一个虚拟化合物周围所有活性类似物的效能差别。这里假设该虚拟类似物周围有mi个已知类似物。

示例：对一个虚拟分子，周围有3个活性分子，活性（变换后）分别是1,2,4。两两组合，计算活性差值绝对值的均值就是（（4-1）+（2-1）+（4-2））/3=2。

基于单一虚拟化合物，定义参数SAR进展指标P，

用来计算所有邻域中公共虚拟类似物加权平均后，整个系列效力变化的情况。其中权值定义为：如果mi>1则wi = 1/mi ；如果mi = 1，那么wi为0。

该参数用来表征在活性类似物邻域的SAR不连续性。在实际应用中，如果类似物系列中有高效能类似物且周围已知类似物比较少，那么P值就会比较高，说明还有采样空间提高效能（看来有希望啊）。对于没有出现SAR不连续的情况，即当所有类似物都具有相当的效力值时，也就没有SAR进展，未来可能也没什么采样空间了（这当然是很忧伤的事）。

对打分组合：

将上面打分组合，对某类似物系列可以有下面这些情况：

	低P	高P
低S	需要再认真设计类似物进行验证	高先导优化可能性（有前途）
高S	低先导优化可能性（伤心）	在考察的体系中，没有遇到

表1：打分组合相应情况

对于邻域阈值t的选取，作者最后采取的策略是根据生成虚拟化合物及已知类似物之间的距离，按四分位数对应的指标来确定。具体讨论在这里我们就不展开了。

——测试数据及结果——

测试数据：对ChEMBL使用 matched molecular pair (MMP) 方式（两个化合物只有一个位置不一样）)处理，提取了34个系列的化合物(Hu et al.)。每个系列包括至少50个化合物。其中有15个单取代系列，19个多取代系列。性质空间包括7个参数：氢键受体数目，氢键供体数目，可旋转键数目，logP，水溶性，拓扑极性表面积，分子量。生成虚拟类似物采用枚举的方法，枚举的片段用MMP方式获得，包括了14026个R-group。

测试结果：

图1 所有检测类似物系列的SAR进展指标P与化合物饱和度S分布.

测试过的类似物系列一般化学饱和度S值都小于0.4。所以当S大于0.2时，可以认为该系列饱和度相对比较高。SAR进展指标P分布也比较宽，大约是[0.2,1]。对红色的区域，下面的点对应一类JAK-1抑制剂，包含81个类似物。与上面的点，一类phosphodiesterase 10A抑制剂（146个分子）相比（上面的点），二者S值类似，P值均是中等偏上，S值中等，还可以继续优化。

对于右下方蓝色区域，比如一类dopamine D2 受体拮抗剂代表，有69个类似物。S值也达到0.4左右。考虑到大部分类似物系列在饱和度达到0.2之后，P打分会提高到0.6以上，所以蓝色区域的潜在先导优化效率可能并不高。对于绿色区域的代表，一类ATPase抑制剂的类似物系列，S值仅为0.11，但是P值已经达到0.46，以后应该会有比较好的优化效果。

——小结——

该方法现在只是应用于公开数据，主要是对早期先导化合物优化进行了应用，作者也希望能够在中后期优化过程中应用该方法。

我们认为目前结合机器学习相关技术，可以通过对已知化合物进行学习，然后进行生成新化合物。这篇文章提出的方法则是一种描述化学空间的有益探索，对于未来我们发展生成模型结果筛选方法提供了重要的线索。

好了，看完我们的介绍，大家先导化合物优化的怎么样了？祝大家研究顺利，天天开心！

参考文献：

1.Hu, Xiaoying, et al. "Mmp-Cliffs: Systematic Identification ofActivity Cliffs on the Basis of Matched Molecular Pairs." Journal of Chemical Information and Modeling52.5 (2012): 1138-45.10.1021/ci3001138

2.Peltason, Lisa, and Jürgen Bajorath. "Sar Index: Quantifying the Natureof Structure−Activity Relationships." Journalof Medicinal Chemistry 50.23 (2007): 5571-78.10.1021/jm0705713

3.Stumpfe, Dagmar, and Jürgen Bajorath. "Exploring Activity Cliffs in Medicinal Chemistry." Journal of Medicinal Chemistry 55.7 (2012): 2932-42.10.1021/jm201706b

4.Vogt, Martin, Dimitar Yonchev, and Jürgen Bajorath. "Computational Method to Evaluate Progress in Lead Optimization." Journal of Medicinal Chemistry (2018).10.1021/acs.jmedchem.8b01626

其他：

Photo by bruce mars on Unsplash

Graph is from Article’s abstract

作者：张伟林

我的微信

关注我了解更多内容

化合物定制合成网

发表评论取消回复

目前评论：0

微信

发表评论 取消回复

目前评论：0

微信

发表评论取消回复