所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

原文
,卷:14(2)

    用am比特-合成可达性工具计算预测有机分子的合成可达性

    *通信:
    Nikolay Kochev普罗维德夫大学化学系教授。Hilendarski”,24 Tsar Assen str., Plovdiv 4000,保加利亚,电话:(032)602-507;电子邮件:(电子邮件保护)

    收到:2018年4月28日;接受:2018年5月5日;发表:2018年5月22日

    引用:李志强,李志强,等。用am比特-合成可达性工具计算预测有机分子的合成可达性。机械工程学报,2018;14(2):123

    摘要

    随着计算机辅助合成设计的广泛应用以及许多新开发的用于大型化学结构数据库的从头设计方法,需要对化合物进行后续合成。除了所需的物理化学性质和生物活性外,目标化合物还必须在真实的实验室条件下可合成。在这种情况下,我们提出一个模型用于计算预测合成可达性(SA)使用四个加权分子描述符,代表不同的结构和拓扑特征,结合一个加性方案。分析了SA建模函数的组成部分,并对两种方法的结果进行了比较模型结合其他方法得到的数据进行了介绍。在开源软件ambit - synticaccessibility (Ambit-SA)中实现了SA的理论预测方法。

    关键字

    合成的可访问性;分子复杂性;计算机建模;Aadditive方案

    简介

    在实验室条件下合成某些化合物似乎极其困难。在这种情况下,合成可达性(SA)表示为一种形式性质(或分子描述符),甚至比许多化学信息学描述符和通过QSAR建模获得的药物化学参数发挥更重要的作用。虽然生物活性或毒性可以通过实验来测量,但合成可达性(SA)是一个更抽象的概念,不容易评估[1].为了评估大量由组合文库或从头分子设计方法生成的潜在类药物候选物,创建了用于评估合成可达性(SA)或促进合成的软件模型[2].

    综合可达性预测的软件系统可以分为三大类:基于复杂性、基于起始材料和基于逆合成分析。

    基于起始材料的方法通过确定目标化合物与可用起始材料的重叠量来评估SA。为了确定可能的起始材料,通常使用以下两种方法之一:基于子结构精确匹配的方法和基于相似性的方法;在子结构或目标结构上[3.].由于在这些方法中化学知识的使用有限,结构和官能团的微小差异可能导致合成可得性的显著差异[4].Fukunishi等人。[5]使用化合物库来评估目标化合物中包含的子结构存在的概率以及关于对称原子、图复杂性和手性中心的信息。Daina等人。[6]分析了市场上1300多万种化合物,以确定最常见的分子片段,这表明某些分子片段的频繁出现表明其合成可及性高,而罕见的片段则难以合成。Schürer等。[7]提供了一种新的方法,通过应用计算QSAR模型和一系列物理化学和结构滤波器,探索商业可用起始材料的小分子的合成可行的化学空间。

    基于复杂性的分析可能是评估综合可访问性中使用最广泛的技术,因为它有效且易于实现。最早的分子复杂度计算方法之一是由Bertz [8].他将信息理论中的概念和分子结构的表示应用为由其不变量(例如原子类、键类、图中路径类等)表征的图,用于计算香农熵(即分子复杂性)。怀特洛克(9]定义了一个基于环数、杂原子和手性中心的简单度量。巴隆等人。[10索引只考虑的关系分子中原子的大小和循环的大小。Allu等人[11开发了一种基于相对原子电负性和键参数的方法。

    所有计算分子复杂性的方法都非常快,因为不需要进行子结构搜索。然而,这也是这些方法的一个缺点,因为复杂性本身并不是合成可及性的充分标准——有许多高分子复杂性的起始材料很容易获得。一种基于分子复杂性的新方法[12]试图克服这些缺点,包括不同的循环和非循环拓扑的统计分布和模型,以取代现有商业可用的起始材料中的原子。该方法基于这样一种假设,即如果分子只包含商业上可用的起始材料中常见的结构基序,那么它可能很容易合成。

    虽然基于复杂性的方法对于初级筛选来说足够快,但它们有一些局限性,例如排除了实际上可以由现有的复杂前体合成的复杂分子[1].为了克服这个问题,Ertl提出了一个SA预测模型13]根据式(1)分子片段出现频率[14]在一个化合物数据库(PubChem)和(2)评估分子的复杂性。

    与基于复杂性和起始材料的方法相比,基于反合成分析的评估方法使用了更广泛的化学知识;根据医学化学家的说法,这是最可接受的方法[15].基于逆向合成的合成可及性评估[15]是一种基于反合成的方法,用于评估合成的可达性,该方法考虑了可能有效的合成路线的加权数,最有利的反应的复杂性以及与最有利的合成反应相关的分离和纯化的难度。另一个项目,CAESA [1617]也对目标化合物和获得的前驱体应用反合成变换,直到找到合适的起始材料。Voršilák等。[1]在nonpher中使用分子变形算法,这是一种用难以合成的化合物构建虚拟库的计算方法。然而,几乎所有基于反合成分析的SA评估程序都具有高度交互性,且相对较慢,分析单个结构往往需要几分钟。这使得这些方法无法用于快速评估数千(甚至数百万)分子的SA,例如,通常情况下从头生成配体。为了解决这个问题,Podolyan等人。18]提出了两种通过使用支持向量机和分子描述符快速预测合成可达性的方法。

    一些方法结合了几种用于评估综合可达性的方法。西尔维娅(19]是Boda等人为Molecular Networks开发的软件产品。[3.]根据以下几个组成部分评估综合可达性:结构复杂性、与可用起始材料的相似性,以及对可分解结构以获得更简单片段的战略键的评估[20.21].采用加权分量加性格式,得到了SA结果。

    方法

    综合可达性预测算法

    我们提出了一种理论预测综合可达性的方法,表示为分数(数值),SA,归一化范围为0到100。分数SA=100表示最容易合成(最大的合成可达性)。分数SA=0(在某些情况下甚至为负值)意味着很难合成或根本无法合成(最低合成可达性)。综合可达性评分基于四种加权分子描述符评分:环复杂度(SRC)、圈数(Sμ)、立体化学复杂度(SWSC)和分子复杂度(SCM):

    方程(1)

    式(1)中描述的方法使用了Boda等人发表的基于结构的可加性SA模型的修正版本。[3.].我们开发了一种化学信息学算法来计算每个成分的SA值:分子的环复杂度(SRC)评分基于最小环的最小集合(SSSR);第二个组成部分是相当简单的方法估计总环数圈数μ;第三个分量给出了基于分子中手性中心加权数(SWSC)的立体化学复杂性信息。第四种算法基于信息论计算分子复杂度(SCM),并检查到给定长度的分子图中的所有路径。

    为了将给定的分子描述符di转换为SA相加方案的分数(范围从0到100),使用了线性转换函数ki*di+mi。

    圈复杂度

    环的复杂性被认为是评估合成可达性的一个重要部分,因为它表明存在桥接和融合系统,这可能会给化合物合成带来困难[3.].为了计算分子的环复杂度(RC),我们应用了Gasteiger等人描述的方法。[22]使用以下公式:

    方程(2)

    其中,RSS (Ring Size Sum)是来自SSSR(最小环的最小集合)的所有环的大小之和,nRA是参与至少一个环的分子中所有原子的数量。为了找到SSSR集,我们使用了CDK库中实现的算法。

    RC以0到100的百分比值归一化,公式如下:

    方程(3)

    其中,换算系数分别为:kRC=-100, mRC=200。RC值通常在1到1.5之间,分别在100到0%的范围内归一化。环复杂度值(RC)越高,对综合可达性的贡献越小,kRC系数为负值。如果分子具有极端的环复杂度(RC>1.5非常罕见),可以获得负SRC值,作为对总体SA评分的额外“惩罚”贡献。

    圈数

    圈数是一个值,表示为了从循环图中获得非环图而断开的键的最小数目。对于每个图,它小于或等于图中的循环数。圈数作为SA评分函数中的元素,由公式计算:

    方程(4)

    式中,m为化学键数,n为分子的原子数。

    SA函数得分为:

    方程(5)

    带系数:为结构中的每个循环定义一个-10%的“惩罚”函数,由我们引入,作为评分组件SRC的修正因子,它根本不惩罚非熔融环。

    立体化学的复杂性

    为了评估SA,需要考虑的因素之一是手性中心的数量。具有一个或多个立体中心的化合物会阻碍合成;还有许多情况下,分子必须以精确定义的构象合成,这使得合成更加困难。

    为了评估立体化学复杂性,我们使用了Cahn等人描述的方法。[23],我们用立体中心加权模式进行了修改。识别分子的所有立体元素,并按以下公式计算立体化学复杂度分数:

    方程(6)

    式中,NWSC为分子中加权手性中心的数量,其中手性原子的质量为1.0,立体双键的质量为0.3。利用线性变换系数得到得分SWSC。立体中心的数量越多,对分子合成可及性的贡献就越小;因此,系数为每个手性中心定义了-30%的惩罚函数。

    分子的复杂性

    分子复杂性的计算是基于分子可以用图表示的事实。利用信息论的方法,将分子图分解成特定长度的等价路径来计算香农熵,从而得到分子的复杂性。

    为了计算原子复杂度(CA)和分子复杂度(CM),我们实现了Proudfoot等人描述的方法。[24].每个原子复杂度(CA)计算为香农熵:

    方程(7)

    其中,对于一个给定的原子,pi=Ni/N是从这个原子开始的第i类路径的相对数量,N是从这个原子开始的路径的总数。

    所有原子复杂性的总和给出了总体分子复杂性(CM):

    方程(8)

    分子复杂度评分采用以下公式归一化:

    方程(9)

    其中,系数有默认值,分别归一化分子复杂度为150 ~ 0%评分,归一化分子复杂度为0 ~ 100%评分。

    图1说明了复杂有机分子SA的计算。

    organic-chemistry-synthetic-accessibility

    图1所示。利用Ambit-SA计算综合可达性。

    RC = 27/23 = 1.174, SRC = 82.609 = 5, = 50.0

    WSC = 2.0, SWSC = 40.0

    厘米= 88.751,SCM = 40.833

    wRC=0.3, wμ=0.1, wWSC=0.2, wCM=0.4

    SA = 0.3 * 82.609 + 0.1 * 50.0 + 0.2 * 40.0 + 0.4 * 40.833 = 54.116

    软件实现

    上述SA估计方法实现为命令行接口应用程序Synthetic AccessibilityCli(指定为Ambit-SA)。Ambit- sa是在Ambit化学信息学平台ambit2-reactions软件模块内开发的[25-27].Ambit-SA是一个在LGPL许可下的开源程序,可以自由地用于学术、监管和商业目的。可执行jar文件可从以下网址下载:

    http://ambit.sourceforge.net/reactor.html

    Ambit-SA可以通过以下命令行启动:

    synticaccessibilitycli .jar option1 option2…

    单个分子的SA计算可以通过从命令行中直接输入分子SMILES(带选项' -s ')来执行。

    java -jar SyntheticAccessibilityCli.jar

    “FC (F) (F) c1cc ccc1 N5CCN (CCc2nnc3 [(电子邮件保护)) 4 ccc ((电子邮件保护)4 cn23) CC5”

    计算SA: FC(F)(F)c1cc(ccc1)N5CCN(CCc2nnc3[(电子邮件保护)) 4 ccc ((电子邮件保护)) 4 cn23) CC5 SA = 54.116

    选项' -v '可用于详细输出:

    java -jar SyntheticAccessibilityCli.jar

    “FC (F) (F) c1cc ccc1 N5CCN (CCc2nnc3 [(电子邮件保护)) 4 ccc ((电子邮件保护)4 cn23) CC5”- v

    计算SA: FC(F)(F)c1cc(ccc1)N5CCN(CCc2nnc3[(电子邮件保护)) 4 ccc ((电子邮件保护)4 cn23) CC5

    SA) = 54.116

    SA细节:

    MOL_COMPLEXITY_01 88.751得分=40.833

    weightted_number_of_stereo_elements 2.000得分=40.000

    CYCLOMATIC_NUMBER =50.000

    RING_COMPLEXITY 1.174分数=82.609

    选项' -i '可用于为批处理计算设置一个包含一组结构的输入文件:

    java -jar synticaccesessibilitycli .jar -i sa-mol-set-01-b.smi

    分子集SA计算:SA -mol-set-01-b.smi

    阅读D: \ ChemSoft \ JBSMM-Reactor \ sa-mol-set-01-b.smi

    #微笑NumAtoms SA

    1 CCOP(=S)(OCC)Oc1cc(C)nc(n1)N(C)C 19 85.622

    2 OOC1CCOP(=O)(N1)N(CCCl)CCCl 16 81.760

    3O =C1Cc2c(N1)ccc3OCC(CNCc4ccccc4)Oc23 23 64.931

    4 CC1OC(=NC1CCOc2ccc(CC3C(=O)NOC3=O)cc2)c4ccccc4 29 72.725

    5 O=C(NN1CCCCC1)c2nn(-c3ccc(Cl)cc3Cl) C(-c4ccc(Cl)cc4)c2C 30 72.241

    6 CC(C)C(=O)Oc1ccc2CC(CCc2c1OC(=O)C(C)C)NC 24 66.674

    结果与讨论

    开发评估综合可及性方法的主要问题是结果的验证[13].尽管定量标准如合成反应序列中的收率和步骤数提供了一些信息,但合成的可达性取决于许多其他因素,如合成路线的优化。在这方面,为了评估我们算法的有效性,我们使用了由专家确定的具有合成可达性的化合物的记录跟踪[13].

    评估评分功能组件

    对于我们测试集中的每个分子,计算最终合成可达性分数中单个成分(分子复杂性、立体化学复杂性、圈数和环复杂性)的得分。

    数据总结在表1,其中提供了文献中描述的一组40个分子的皮尔逊相关系数r与药物化学家估计的合成可达性值之间的信息[13].

    分数 R
    供应链管理 0.867
    年代μ 0.675
    SRC 0.565

    表1。药物化学家估计的SA与我们方法中不同SA组分之间的Pearson相关系数。

    计算出的分子复杂性与化学家给出的数据有很高的相关性。这可以用这样一个事实来解释:一方面模型使用基于分子的信息含量(分子复杂性)的定量评估拓扑结构另一方面,专家们根据自己的知识和经验,以类似的方式进行评估,原则上,含有缩合或桥接体系的大而复杂的分子被直观地评估为难以合成。

    圈数分数与化学家数据的适度相关性是预期的,因为它被用作RC描述符的校正因子。最可能的原因是,大部分测试集是由不包含融合循环的化合物表示的(这可能是圈数较高值的一个可能原因)。

    在化学家给出的合成可及性数据和环复杂度分数中,Pearson的相关系数最低。然而,值r=0.565是单个描述符和估计属性之间足够好的相关性。我们认为这一组成部分是模型用于综合可达性评价。

    关于立体化学复杂性评分,应该指出的是,在可获得合成化学可获得性数据的化合物集中,没有发现具有立体中心的化合物。在这方面,已根据文献数据评估了化合物立体化学复杂性的贡献[3.].

    计算综合可达性评价

    以SA之间的相关系数最大为目标,通过网格搜索确定最优权重值(wRC, wμ, wWSC和wCM)模型化学专家打分。权重的最佳值显示在表2

    wi 重量
    wMC 0.4
    wWSC 0.2
    0.1
    人们受 0.3

    表2。Ambit-SA的最佳权重模型组件。

    以SA之间的相关系数最大为目标,通过网格搜索确定最优权重值(wRC, wμ, wWSC和wCM)模型化学专家打分。权重的最佳值显示在表2

    来自文献的合成可达性数据以从0(最易接近的分子)到10(最难合成的分子)的数字给出,为了与我们的结果进行比较,通过线性转换将其转换为Ambit-SA中实现的评分方案。

    表3包含SA结果和与我们的结果有显著差异的结构模型化学家给出的值是:

    Ambit-SA给出的合成可达性值高于医学化学家给出的所有结构的值表3可以用我们的模型(Ambit-SA)认为拓扑结构但没有考虑到其合成的可能性(在Ambit-SA的添加方案中,没有基于反合成分析的成分)。

    结构 SA
    (Ambit-SA)
    SA
    (药物化学家)
    方程 49.46 18.9
    方程 50.26 34.4
    方程 53.35 23.3

    表3。Ambit SA计算的合成可达性与药物化学家提供的结果的比较。

    与其他模型的比较

    将Ambit-SA计算的综合可达性数据与Ertl等发表的结果进行了比较。13),其模型使用一种基于分子复杂性和在凝视材料的商业收藏中发现的典型片段的频率的方法。两个模型的Pearson相关系数为0.862 (表4).作者认为,在他们的合成可及性模型中使用的分子碎片与使用起始材料相似性的方法有相似之处。鉴于我们的模型没有考虑到与起始材料的相似性,我们的结果与Ertl的高度相关性模型表明Ambit-SA足够可靠,并且包含了与评估合成可达性相关的结构信息。

    模型 使用的化合物数量 与Ambit-SA的相关性(r)
    ERTL 40 0.862
    西尔维娅 40 0.938
    FA4 130 0.634

    表4。Ambit-SA与其他软件工具的Pearson相关系数。

    将Ambit-SA的结果与SA进行了比较模型由SYLVIA计算的相同化合物的数据[21) (表4).只要两种方法相似,并在算法中结合分子复杂度评估、手性中心计数和环复杂度,就有望获得较高的相关系数(0.938)。在这两个模型中,计算合成可达性的分子复杂性得分具有很高的权重,这可以被认为是SYLVIA和Ambit-SA计算的最终结果相当接近的原因。然而,与Ambit-SA不同的是,SYLVIA使用了另一个对合成可及性评分有贡献的成分:与起始材料的相似性和反合成适合度。

    将Ambit-SA软件工具与模型(FA4)根据起始物料[5].从文献中提取的130种化合物[15],两种方法的相关性为0.634。后一种结果也是意料之中的,因为FA4算法是基于一种完全不同类型的化学信息,即目标分子与可用起始材料的相似性。

    不同的SA模型和化学专家估计的SA值之间的比较一方面是相当具有挑战性的,另一方面SA分数是一个正式的化学性质,表示为一个单一的值描述符,不可能包含整个化学逻辑和相应的合成上下文。考虑到SA概念的主要缺陷,SA模型的使用是有效的,特别是在处理大型化学结构集以快速筛选候选分子的情况下。

    结论

    综合可及性预测模型在Ambit-SA工具中实现,可以作为评估有机化合物在真实实验室条件下合成能力的有用工具。Ambit-SA与其他基于分子复杂性、起始材料和组合方法的专家和模型数据的比较结果表明了Ambit-SA工具的有效性。此外,可添加方案的组件可由用户配置为适合特定目标的权重。我们算法的另一个优点是速度快,可以在批处理模式下使用,这在处理大量化合物(例如组合库)时至关重要。Ambit-SA (http://ambit.sourceforge.net/reactor.html)是一个具有LGPL许可证的开源软件工具,是动态开发的化学信息学平台Ambit的一部分,可用于学术、监管和商业目的。Ambit-SA计划的未来发展包括环复杂性评分的改进,以及处理合成可达性的额外成分,如与起始材料的相似性和反合成路径的贡献,这将解释合成逻辑的两个非常重要的方面。在识别起始物质片段和估计起始物质片段与目标分子的重叠程度的基础上处理与起始物质的相似度。基于反合成的评分也被设想纳入Ambit-SA。我们已经开发了一个基于计算机的反合成分析软件模块,只要我们认为它是SA估计的一个重要元素,它将用于计算和评分生成的反合成路径的效率。

    参考文献

    谷歌学者引证报告
    引文:521

    有机化学:一份印度期刊收到521次引用,根据谷歌学者报告

    编入索引中

    • 卡斯商学院
    • 谷歌学者
    • 打开J门
    • 中国知网(CNKI)
    • 宇宙如果
    • 期刊索引目录(DRJI)
    • 秘密搜索引擎实验室

    阅读更多

    摩天观景轮
    全球科技峰会