首页/文章/ 详情

从黑盒到玻璃盒:用BIOVIA Pipeline Pilot解锁SISSO的科学洞见

2小时前浏览3



   

应用于化学和生物学的大多数机器学习算法都是黑盒模型,用于预测给定目标性质。1–3

模型接收输入特征并生成输出,但由于模型结构复杂,其内部运作机制往往难以理解或完全未知。因此,从这些模型中提取有意义的科学见解是长期以来的一大挑战。1,4

可解释的机器学习(ML)模型既具备预测能力,又结合了可解释的物理方程,在众多科学领域获得了广泛关注。1,2,5,6

我们的目标是构建所谓的玻璃盒模型,即用简单的物理方程将输入特征与目标性质联系起来。通过这种方式,数据中的关系得以揭示,进而从模型中获得更深层次的科学洞见。

image.png

图1:黑盒模型与可解释玻璃盒模型示意图


确定独立性筛选和稀疏算子——SISSO      

在为可解释机器学习开发的方法中,“确定独立性筛选和稀疏算子(Sure Independence Screening and Sparsifying Operator)——SISSO”方法已广泛应用于多相催化与有机化学领域。7–11 SISSO属于符号回归模型,可用于寻找预测目标性质的数学函数。



   

   

简单来说,SISSO由两部分组成:

  • 通过将特征列或描述符与用户选择的算子(如乘法、除法、ln、sqrt等)组合,构建一个大规模特征空间。
  • 利用确定独立性筛选(SIS)选择与目标性质相关性最高的描述符。最后应用基于ℓ0正则化的衍生方法(ML0 - norm),选择出误差最低的低维线性模型。
    通过这种方法,目标是使用SISSO从一系列输入特征中找到既可解释又具科学意义的方程。输入列或描述符既可以是实验数据,也可以是从分子建模研究中获得的数据,这些数据包括在BIOVIA Materials Studio®或BIOVIA Turbomole®中进行的研究。


   

   


image.png

图2:用于SISSO的输入类型示例


最初的SISSO代码由FORTRAN12编写,未直接支持Python。然而,NOMAD实验室推出了更新的C++实现(SISSO++),其具有原生Python集成。13,14

假设我想将SISSO算法应用于一些化学数据集,以扩展我的科学洞见,该如何将这种ML方法部署到我的数据科学流程中?

答案是使用BIOVIA Pipeline Pilot15 将Python代码封装起来,并扩展对这些玻璃盒模型的访问。

SISSO++与Pipeline Pilot的集成      

借助BIOVIA Pipeline Pilot与Python之间强大的集成能力,用户可以将Python代码无缝合并到现有数据流程中。16

在本例中,我们将使用Jupyter Notebook组件处理Python部分,并利用原生PLP组件读取、写入和清理待输入数据。

我们将使用两组数据,一组由bp17发布,另一组由 Sigman及其合作者10发布。bp数据涉及在H-ZSM-5催化甲醇脱水制二甲醚(DME)过程中使用苯甲醛促进剂的情况;Sigman数据则涉及非对映选择性Rh催化的C-H插入反应。

这两个数据集按大多数AI方法标准来看都很小(分别为22行和84行),但它们真实反映了行业内和学术界通常采集到的小型高质量数据集特点。

在Python Jupyter Notebook组件中,通过选择算子、目标列及所需的训练/测试集划分,可以设置SISSO++。此外,还可以设定超参数,并在回归与分类之间切换计算类型。

我们将模型应用于bp数据集,其中目标性质为DME STY(时空产率——催化性能的衡量标准),10个描述符列是基于密度泛函理论(DFT)推导的有机促进剂醛的特征(其他反应参数保持不变)。

我们获得了一个可解释的方程,为科学洞见提供了依据,并通过Pipeline Pilot报告组件展示输出。SISSO++模型的表现与文献中报道的模型相当,并且在化学意义上合理,因为它将促进剂醛的空间和电子特性与催化性能联系起来。

image.png

图3:通过BIOVIA Pipeline Pilot运行的bp数据集SISSO++回归模型输出


SISSO++代码的一个潜在限制是,当数据集中包含大量特征时,其计算成本可能显著增加。为此,BIOVIA的Materials AI团队与Felix Hanke(前BIOVIA员工)合作开发了适用于回归问题的BIOVIA Pipeline Pilot原生版本SISSO++。


Pipeline Pilot中的原生SISSO++      

借助BIOVIA Pipeline Pilot的并行化与简便性,我们可以大幅提高为科学数据集寻找可解释方程的速度,而且无需任何编程专业知识即可运行模型。

新的协议采用与SISSO++相同的方法:先生成大量特征,再解析筛选出最佳性能方程,但这一过程在Pipeline Pilot中以不同方式执行。

image.png

图4:BIOVIA Pipeline Pilot中的原生SISSO协议


最终输出与SISSO++ Python包相当,但大大简化了科学家的使用流程,因为无需与代码交互。事实上,该协议可通过Pipeline Pilot Web Port运行,用户通过下拉菜单选择参数,极适合没有编程经验的科学家

在本例中,我们展示了Sigman及其合作者10数据集的输出,其中目标是ΔΔG(非对映选择性的衡量标准),并包含19个DFT衍生的化学描述符。

同样,我们获得了可解释方程,其表现与文献报道的模型相当,将催化剂/配体的空间和电子特性与非对映选择性联系起来。

由于Pipeline Pilot能有效处理大量数据,使用更大数据集(>50billion生成的特征)以获得模型也是可能的。

image.png

图5:使用BIOVIA Pipeline Pilot Web Port运行原生SISSO算法示例。


结论      

在BIOVIA Pipeline Pilot中简单集成Python,使我们能够轻松将SISSO++及其它Python包嵌入新旧数据流程中。

同时,我们可以充分利用BIOVIA Pipeline Pilot的灵活性与速度,将新的可解释机器学习方法融入数据科学工作流程。通过这种方式,BIOVIA Pipeline Pilot帮助科学家从预测模型中获得有意义的科学洞见。借助BIOVIA Pipeline Pilot,这类模型可在低代码或无代码环境下部署,助力理解并推动科学前沿领域的进一步创新。



 

#参考文献:

(1)Esterhuizen, J. A.; Goldsmith, B. R.; Linic, S. Interpretable Machine Learning for Knowledge Generation in Heterogeneous Catalysis. Nat Catal 2022, 5.      
(2)Azodi, C. B.; Tang, J.; Shiu, S.-H. Opening the Black Box: Interpretable Machine Learning for Geneticists. Trends in Genetics 2020, 36 (6), 442–455.      
(3)Jiménez-Luna, J.; Grisoni, F.; Schneider, G. Drug Discovery with Explainable Artificial Intelligence. Nature Machine Intelligence. Nature Research October 1, 2020, pp 573–584.      
(4)Molnar, C. Interpretable Machine Learning. A Guide for Making Black Box Models Explainable; https://christophm.github.io/interpretable-ml-book/., 2019, accessed 04/11/2025      
(5)La Cava, W. G.; Lee, P. C.; Ajmal, I.; Ding, X.; Solanki, P.; Cohen, J. B.; Moore, J. H.; Herman, D. S. A Flexible Symbolic Regression Method for Constructing Interpretable Clinical Prediction Models. NPJ Digit Med 2023, 6 (1).      
(6)Rudin, C. Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead. Nat Mach Intell 2019, 1 (5), 206–215.      
(7)Foppa, L.; Rüther, F.; Geske, M.; Koch, G.; Girgsdies, F.; Kube, P.; Carey, S. J.; Hävecker, M.; Timpe, O.; Tarasov, A. V.; Scheffler, M.; Rosowski, F.; Schlögl, R.; Trunschke, A. Data-Centric Heterogeneous Catalysis: Identifying Rules and Materials Genes of Alkane Selective Oxidation. J Am Chem Soc 2023, 145 (6), 3427–3442.      
(8)Miyazaki, R.; Belthle, K. S.; Tüysüz, H.; Foppa, L.; Scheffler, M. Materials Genes of CO 2 Hydrogenation on Supported Cobalt Catalysts: An Artificial Intelligence Approach Integrating Theoretical and Experimental Data. J Am Chem Soc 2024, 146 (8), 5433–5444.      
(9)Wang, J.; Xie, H.; Wang, Y.; Ouyang, R. Distilling Accurate Descriptors from Multi-Source Experimental Data for Discovering Highly Active Perovskite OER Catalysts. J Am Chem Soc 2023, 145 (20), 11457–11465.      
(10) Souza, L. W.; Miller, B. R.; Cammarota, R. C.; Lo, A.; Lopez, I.; Shiue, Y.-S.; Bergstrom, B. D.; Dishman, S. N.; Fettinger, J. C.; Sigman, M. S.; Shaw, J. T. Deconvoluting Nonlinear Catalyst–Substrate Effects in the Intramolecular Dirhodium-Catalyzed C–H Insertion of Donor/Donor Carbenes Using Data Science Tools. ACS Catal 2023, 104–115.      
(11) Park, J.; Oh, J.; Kim, J. S.; Shin, J. H.; Jeon, N.; Chang, H.; Yun, Y. Catalyst Discovery for Propane Dehydrogenation through Interpretable Machine Learning: Leveraging Laboratory-Scale Database and Atomic Properties. ACS Sustain Chem Eng 2024, 12 (28), 10376–10386.      
(12) Ouyang, R.; Curtarolo, S.; Ahmetcik, E.; Scheffler, M.; Ghiringhelli, L. M. SISSO: A Compressed-Sensing Method for Identifying the Best Low-Dimensional Descriptor in an Immensity of Offered Candidates. Phys Rev Mater 2018, 2 (8), 1–12.      
(13) Purcell, T. A. R.; Scheffler, M.; Carbogno, C.; Ghiringhelli, L. M. SISSO++: A C++ Implementation of the Sure-Independence Screening and Sparsifying Operator Approach. J Open Source Softw 2022, 7 (71), 3960.      
(14) Purcell, T. A. R.; Scheffler, M.; Ghiringhelli, L. M. Recent Advances in the SISSO Method and Their Implementation in the SISSO++ Code. J Chem Phys 2023, 159 (11), 114110.      
(15) Pipeline Pilot. https://www.3ds.com/products-services/biovia/products/data-science/pipeline-pilot/.      
(16) Pipeline Pilot | Integration of Python and Jupyter Notebook. https://www.you tube.com/watch?v=1sFaA7Fj0oM, accessed on 18/09/2024.      
(17) Yang, Z.; Dennis-Smither, B. J.; Buda, C.; Easey, A.; Jackson, F.; Price, G. A.; Sainty, N.; Tan, X.; Xu, Z.; Sunley, G. J. Aromatic Aldehydes as Tuneable and Ppm Level Potent Promoters for Zeolite Catalysed Methanol Dehydration to DME. Catal Sci Technol 2023, 13 (12), 3590–3605.      


来源:达索系统
ACT化学电子UGpythonUM理论
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-02-25
最近编辑:2小时前
达索系统
3DEXPERIENCE平台-定义三维体验新...
获赞 188粉丝 430文章 1113课程 25
点赞
收藏
作者推荐
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈