Chem. Asian J. :探索基于光谱的分子描述符的反应表现预测

  • 199
  • A+

分子光谱是实验化学中广泛应用的表征技术之一。各种化合物的光谱图谱反映了分子的物理化学性质,并隐含了丰富的化学信息。现代光谱技术可以获得大量高精度的光谱图像,如核磁共振(NMR)、红外光谱、质谱等。然而,利用这些光谱数据进行相关的机器学习任务并不容易。传统的方法通常基于量子化学预测,需要进行大量的计算和模拟,计算成本高昂,同时预测的精度也受到一定的限制。因此,光谱信息在相关机器学习中的应用仍然处于相对初级的阶段。


近日,浙江大学化学系洪鑫课题组报道了一项基于光学字符识别(OCR)技术的工具,可以将常见的NMR光谱图像识别为机器可读的描述符。为了验证光谱描述符的机器学习应用潜力,作者选取了Pd催化芳基卤化物的Buchwald-Hartwig交叉偶联反应产率数据。通过收集SciFinder®数据库中的相关实验光谱图像,作者利用该工具将其编码并使用随机森林进行建模,提供了一个具有较优预测能力的机器学习模型。



2

图1 光谱描述符的识别及编码过程

为了将普通光谱图像转化为机器可读的向量,作者设计了一种基于OCR的方法(图1)。以NMR谱图为例,该方法通过识别图像中化学位移与强度的关系,将其投射到均匀格点上,并对格点内的强度进行积分,拼接得到一维向量,以此作为光谱描述符。这种方法同样适用于常见的红外和质谱等光谱图像。作者还利用现有的化合物光谱快速模拟工具,进一步证明了光谱描述符的可行性。这也表明,该方案可以很容易地集成到一个全自动的虚拟筛选工作流程中。

3

该工作展示了光谱图像的类OCR处理,将其转换为机器学习适配的描述符,并证明了该描述符在产率预测建模中的有效性。这项工作可以为未来的相关机器学习任务提供有力的支持。

文信息

Exploring Spectrum-based Molecular Descriptors for Reaction Performance Prediction

Miao-Jiong Tang, Li-Cheng Xu, Dr. Shuo-Qing Zhang, Dr. Xin Hong


Chemistry – An Asian Journal

DOI: 10.1002/asia.202300011




weinxin
我的微信
关注我了解更多内容

发表评论

目前评论: