机器学习方法用于探索靶向蛋白质组中可靶半胱氨酸

A+

分享一篇发表在JACS Au上的文章，文章标题“Machine Learning Models to Interrogate Proteome-Wide Covalent Ligandabilities Directed at Cysteines”，文章的通讯作者是来自马里兰大学的Jana Shen教授，其课题组主要从事分子模拟方面的研究。

靶向共价抑制剂是扩大可成药蛋白质组的主流方法。其中半胱氨酸是亲核性最强的氨基酸，也是被广泛研究的靶向氨基酸。事实上，目前FDA批准的靶向共价抑制剂均是针对半胱氨酸而开发出来的。近年来，发展了很多计算方法用以评估半胱氨酸的配体能力（ligandability）。在本文中，作者建立了一个新的数据库LigCys3D，包含778个蛋白质可靶半胱氨酸的注释信息，并以此训练了一个机器学习模型用以预测半胱氨酸的可靶性。

作者首先从PDB数据库中收集了778个蛋白质，其中包含1133个具有已知配体的半胱氨酸，且大约76%是酶。在构建训练数据集的过程中，作者注意到此前的数据集如CovPDB和CovalentInDB等只采用包含半胱氨酸配体的PDB结构。作者认为这可能忽略构象的多样性，限制模型的泛化能力。因此，作者将数据集扩充到10105个X射线晶体衍射结构（包含apo态、holo态结构），并同时采样负样本，最终得到20259个样本用于训练和测试。值得一提的是，其中超过一半样本是二聚体或多聚体蛋白。

作者随后使用基于物化特征的编码方法，考察了树模型和CNN模型的表现。二者显示出接近的性能，F1-score大约0.92。并且模型在对于不同的蛋白质四级结构是无偏的，即，在单体和多聚体蛋白中的表现相当。最后，作者强调了在数据集中增加未修饰半胱氨酸的蛋白质结构的重要性。如果只采用包含已修饰半胱氨酸的蛋白质结构，模型F1-score下降至0.77。作者也开发了预测服务器供研究人员使用（https://deepcys.computchem.org/）。

本文作者：ZF

责任编辑：WYQ

原文链接：https://pubs.acs.org/doi/10.1021/jacsau.3c00749

文章引用：10.1021/jacsau.3c00749

我的微信

关注我了解更多内容

化学试剂定制合成网

JACS Au | 机器学习方法用于探索靶向蛋白质组中可靶半胱氨酸

发表评论取消回复

目前评论：

微信

发表评论 取消回复

目前评论：

微信

发表评论取消回复