ACS Omega | 机器学习在有机高分子的粗粒化模型中的应用

  • A+

英文原题:Machine Learning of Coarse-Grained Models for Organic Molecules and Polymers: Progress, Opportunities, and Challenges

通讯作者:Ying Li,美国康涅狄格大学机械工程系

作者:Huilin Ye, Weikang Xian, and Ying Li


经过数十年的发展,粗粒化模型在有机分子和有机高分子研究领域内有广泛且重要的应用。使用机器学习方法,能突破分子模拟的固有的时间以及空间局限性(图1(a) ),例如其应用过程中较复杂和耗时的计算。粗粒化建模过程主要包括建立跨尺度的粗粒化模型映射和优化对应的能量函数,关键在于确保模型满足热力学的一致性。粗粒化建模可以归纳为自上而下和由下而上两个方向 (图 1(b)):在自上而下的过程当中,来自参考系的特性如密度、扩散系数,被直接用于构建粗粒化模型的能量函数;相反,在由下而上的方向中,能量函数被不断优化直至其对应的系统特性与参考系的特性相一致。 

图1.  (a) 高性能计算在分子模拟中时间以及空间的尺度局限性。粗粒化分子动力学有助于突破这一局限性。(b) 两种不同的粗粒化建模方法:自上而下和由下而上。插图表示多肽分子的不同粗粒化程度。


在自上而下建模的过程中,机器学习可以被用于优化粗粒化模型的能量函数。一般来讲,能量函数的形式和参数都需要预先给定。但是因其往往是根据经验而得,所以由这种模型所得的系统特性常偏离实验所得值。在引入机器学习的模型当中,来自于实验和更高精度的仿真(如基于密度泛函理论的计算)的系统特性如密度、温度、能量和径向分布函数,被用作于训练机器学习模型的输入。在文章中,作者回顾了分别由三个不同团队所做的工作。这些工作分别使用遗传算法、神经网络和粒子群优化算法针对粗粒化模型的能量函数的参数进行优化(图 2)。经过训练,不同的机器学习模型都可以用于能量函数参数的准确预测以及优化。经由机器学习优化所得的模型,能较好地复现出系统的特性。 

图2.  (a) 遗传算法优化流程。(b) 机器学习得到的水的密度、扩散系数、径向分布函数和热容量结果与实验结果比较。(c) 机器学习预测的水的结晶过程。(Reprinted with permission from the work of Chan et al. [1] Copyright 2019 Springer Nature Limited).


在由下而上建模的过程中,优化能量函数的目标是使粗粒化模型能捕捉更高精度仿真提供的系统特性。相比自上而下建模,机器学习模型在这里不再用于预测给定形式的能量函数的参数,而是被直接用作能量函数求解器。由高精度仿真所得的系统参数如原子三维坐标等被作为机器学习模型的输入。机器学习的目的在于使粗粒化模型中粗粒子所受力场与参照系中粒子所受力场相吻合(CGnet模型见图3)。 

图3. (a) CGnet和规则化的CGnet 网络。(b) 不通模型预测的力和能量分布的比较。(c) 不同模型预测的丙氨酸二肽自由能的分布比较。(Reproduced from the work of Wang et al. [2] Copyright 2019 American Chemical Society).


除能量函数优化外,粗粒化建模中另外一个重要方面是映射模型的建立。文章介了一项使用图论进行系统性映射建立的工作(图 4)。在这项工作中,等效的邻接矩阵被用于替代需被粗粒化处理的分子,分子中的各个原子被邻接矩阵对应图形中的顶点代替。这样一来,原分子的拓扑结构就得以被邻接矩阵量化。通过矩阵的缩并运算,高纬度的邻接矩阵被简化为较低纬度的邻接矩阵,从而完成对原分子的粗粒化映射模型的建立。

图4. (a) 以图论为基础的粗粒化过程。(b) 邻接矩阵模化的普群结构。(c) 甲苯的模化过程。(d) 预测的结构信息结果比较。 (Reproduced from the work of Webb et al. [3] Copyright 2019 American Chemical Society).


文章还讨论了将机器学习在用于有机高分子的粗粒化模型值得注意的重点。第一,因为机器学习模型在这些粗粒化建模过程当中所起的实际作用相当于高纬度的非线性统计工具,所以用于训练机器学习模型的数据样本需要有足够的丰富度,否则机器学习模型的预测能力将会受到影响。第二,当选择机器学习模型训练数据的输入时,应要注意选择数据的形式,因为输入数据一致性是机器学习模型成功的重要保证。第三,高效的机器学习模型参数优化方法能有效地缩短机器学习的成本。最后,映射模型的使用需要结合实际场景而选择,否则机器学习模型的有效性会受到负面影响。


文章最后展望了在粗粒化模型研究应用中,机器学习所有的机遇。因为传统的粗粒化模型一般比较难同时兼顾动力学和结构上的一致性,所以机器学习在此有望能为此挑战提供有益的新思路。此外,因为传统的粗粒化模型一般是建基于所研究系统的特定的热力学状态,所以这样的粗粒化模型无法被用于热力学状态会发生变化的研究中。鉴于机器学习强大的预测能力,其有望被用于解决这一难题。


参考文献

1. Chan, H.Cherukara, M. J.Narayanan, B.Loeffler, T. D.Benmore, C.Gray, S. K.Sankaranarayanan, S. K. Machine learning coarse grained models for water. Nat. Commun. 2019101– 14 DOI: 10.1038/s41467-018-08222-6

2. Wang, J.Olsson, S.Wehmeyer, C.Pérez, A.Charron, N. E.De Fabritiis, G.Noé, F.Clementi, C. Machine learning of coarse-grained molecular dynamics force fieldsACS Cent. Sci. 20195755– 767 DOI: 10.1021/acscentsci.8b00913

3. Webb, M. A.Delannoy, J.-Y.De Pablo, J. J. Graph-based approach to systematic molecular coarse-grainingJ. Chem. Theory Comput. 2019151199– 1208 DOI: 10.1021/acs.jctc.8b00920 



ACS Omega 2021, 6, 3, 1758–1772

Publication Date: January 11, 2021

https://doi.org/10.1021/acsomega.0c05321

Copyright © 2021 American Chemical Society


weinxin
我的微信
关注我了解更多内容

发表评论

目前评论:0