研究失败的合成反应,一样可以发Science

  • A+

‍‍‍     化学家们每天都会浏览诸多期刊上各种新颖合成方法学的文章,但是要快速地判断这些方法是否有助于合成自己想要的分子并不简单。通常情况下,一篇有关合成方法学的报道都会伴随着底物适用范围的考察,通俗地说就是在保持反应条件大体不变的情况下,研究底物的反应性如何随着其他位置取代基的不同而改变。为了提高论文被接收的概率,文章中衍生化的底物结构一般不会太复杂,仅进行简单的官能团化,衍生化的选择也缺乏固定标准,具有较强的主观性和随意性。并且,绝大多数时候作者不会公开那些比较差或者失败的结果,只呈现有利于文章发表的成功数据。这种传统的合成方法评价模式无疑给化学家们带来了极大的困扰,因为他们所操作的合成砌块往往要比文献中报道的底物更复杂、官能团化程度也更高,哪怕是微小的改变也可能带来反应活性的巨大变化。而要从已公开的“片面的”成功反应中找出对合成目标分子有效的方法如同大海捞针,即便近年来人工智能(AI)表现十分出彩,化学家也并不确定它们能否胜任这项工作。事实上,化学家更希望看到的是大量尘封在实验室电脑、记录本中的负面结果,以帮助自己或人工智能算法对合成方法的适用性做出定性甚至定量的判断。遗憾的是,这些“不成功”的数据只有原始实验的作者才能接触到。


尽管学术期刊上重视和强调的总是成功的化学反应,制药巨头默沙东公司的一个研究团队却一直致力于探索化学反应的“黑暗空间”(the dark space of chemical reactions)——一些“不成功”的反应。近日,该团队利用最新的高通量技术,从3000多个纳摩尔量级的C-N键偶联反应中找出那些不适用于该反应的化合物并通过对偶联失败的底物进行分析,找出影响反应的关键因素,有助于人类化学家和人工智能模型更好地预测和设计高产率的化学反应。相关成果发表在Science 上。


使用自动化的高通量反应技术进行大量微型的化学反应并不是什么新鲜事,此前默沙东和辉瑞制药公司就分别报道了用于筛选偶联反应条件的高通量化学反应平台,以塑料微孔板或流动化学反应器作为反应载体,结合液相色谱-质谱(LC-MS)联用技术,在平行液体处理机器的帮助下可短时间内自动筛选数以千计的纳摩尔级化学反应并分析结果。与之相比,默沙东此次用于探索失败反应的高通量反应平台又有了不小的改进。首先,他们采用软电离生物质谱技术——基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MS)取代原有的LC-MS分析技术,由此可以帮助他们在10分钟内分析出1536个化学反应的结果。而此前,辉瑞使用两台UPLC-MS联用装置则需要为每个反应耗费45秒的分析时间(相当于1536个反应需要19个小时)。其次,玻璃微孔板与密封铝板的结合让新的反应器不仅可以兼容更多挥发性的溶剂和更高加热温度,还能进行时下最流行的光氧化还原反应。最后,新的平台采用共振声混合技术(resonant acoustic mixing),既可以搅拌非均相的反应,也可以用来产生乳浆状的无机碱溶液,以保证难溶性无机碱平行添加到数千个反应中,而辉瑞的流动化学平台却只能采用极高的稀释条件确保反应均相进行。


这项工作中,研究团队选择了Buchwald-Hartwig C-N键偶联反应作为研究对象。该反应是目前药物合成领域使用最多、同时也是反应条件最难以捉摸的偶联方法。该平台首先在四组反应条件(Cu和Pd催化、Ir/Ni和Ru/Ni光氧化还原催化)下进行了1536个C-N键偶联反应,以表现良好的哌啶和3-溴-5-苯基吡啶为偶联组合,通过向反应中加入383种简单和复杂的分子片段,以期找出那些毒化反应条件的官能团。当然,为了让MALDI-TOF-MS分析技术能像LC-MS一样提供精准的分析结果,他们对分析样品的制备步骤进行了一些优化,比如使用平行液体处理器先向反应后的溶液中加入相同的内标(氘代的偶联产物),随后取出等分试样置于高通量的MALDI分析板上,待蒸发完反应溶剂后加入合适的基质(α-氰基-4-羟基肉桂酸),最终由MALDI-TOF-MS进行数据的自动采集和分析。尽管操作步骤看起来有些繁琐,但是从样品制备到数据解析,整个过程却仅仅花费了不到30分钟。

基于添加物的C-N键偶联反应。图片来源:Science


通过对含有添加物的1536个偶联反应进行考察,研究人员找出四组反应条件的“毒化基团”。在使用单官能团的简单添加物时,Cu催化的条件似乎是表现最佳的,除了对SH基团敏感,大多数基团往往能与其兼容;而最不理想的催化体系是Ir/Ni光氧化还原的方法,其中SH、酸、酚、肟、硝基等官能团经常会导致反应失败。在使用多官能化的分子片段时,Cu催化的条件依然表现突出。研究者发现,如果复杂添加物中含有毒化基团,反应结果往往会很差,有趣的是,一些“安全”基团共存的添加物有时也会让反应不能顺利进行。

简单、复杂添加物对不同催化条件的影响。图片来源:Science


虽然基于添加物的反应考察方法可以快速识别出有问题的官能团,但还不足以预测复杂分子在化学反应中的表现,电子效应、空间效应、溶解性、氢键等大分子效应也是不可忽视的因素,而这些都取决于化合物分子的整体特征。研究人员希望在四组反应条件下使用高度官能化的复杂化合物,以便确定分子中影响C-N键偶联效果的不利因素。为此,他们选择192种二级胺和192种芳基溴化物,即需要建立147456个C-N键偶联反应,显然超出了自动化反应平台的负载能力。于是,他们决定将反应的数量缩减到1536个,同时仍覆盖广泛特征的分子——1种最简单的胺与192种溴代芳香烃、1种最简单的溴代芳香烃与192种胺之间的偶联反应。尽管如此,相比于384种添加物,要从384种偶联组合里找出问题所在显然更具挑战性,这可能需要384种不同的内标。事实证明在单一内标下,MALDI-TOF-MS与LC-MS、LC-UV的分析结果无法取得较好的相关性。为了解决这一问题,研究人员决定对MALDI-TOF-MS分析结果进行pass/fail测试(通过比较测试信号强度与自定义值的大小来定义相应化合物是否适用于该反应)。结果表明,这一策略在判断导致反应失败的因素方面相当成功,使用MALDI-TOF-MS能得出与LC-MS高度吻合的结果。基于此,研究人员找出各反应条件下偶联底物中“不友好”的官能团、大分子性质及其导致反应失败的比例,例如,芳基溴化物中各种大分子效应和官能团在Cu催化条件下拥有最低的反应失败率,表明在C-N键偶联反应中,Cu可能要比其他金属更兼容多样的溴代芳香烃类底物。值得一提的是,研究人员也发现一些意想不到的结果,如Pd催化条件对于一些特殊结构的胺,如吡嗪类化合物表现出最佳的效果。

基于复杂官能化偶联底物的C-N键反应。图片来源:Science


偶联底物中各种官能团、大分子性质对催化条件的影响。图片来源:Science


在化学研究领域,每一种化学分子的合成无不建立在一次又一次失败的化学反应的基础之上,我们一般可以在非正式的学术会议和交流中分享无数次实验和测试结果中的一小部分,但是不会考虑在科学杂志上正式发表这些数据,理由仅仅是这些“不成功”的化学反应收率低或者产物纯度不够。这种错误的观念导致大量信息不能进入更广泛的公众视野,不仅造成同一学科领域的后来者重蹈覆辙、枉走弯路,更导致大量人力、财力、物力等资源的浪费。事实上,失败化学反应的价值要远比人们想象得大,特别是近些年来随着人工智能技术的崛起,越来越多的研究者发现,使用机器学习算法模型,不带任何偏见地审视这些没有利用的资源可以帮助化学家探索化学反应条件的边界,为最终获得所需的分子提供十分有用的信息。尽管人们已经意识到失败反应的重要性,但是如何收集却成为一个难题,默沙东制药公司的研究团队开创性地将MALDI-TOF-MS分析技术运用于高通量的合成反应中,不仅能在极短的时间内大规模收集可靠的失败反应数据,并能从中提取和分析导致负面结果的关键因素,有助于人类化学家和人工智能模型更好地预测和设计高产率的化学反应。相信这种探索失败反应的方式能够引起更广泛的重视,并改变目前科学新发现只报道成功反应的模式。

weinxin
我的微信
关注我了解更多内容

发表评论

目前评论:0