关键词:
深度学习
蛋白质-配体相互作用
药物设计
酶动力学参数
酶工程
摘要:
蛋白质-配体相互作用预测和酶动力学参数预测作为计算机辅助药物设计(CADD)和酶工程领域中的核心任务,近年来得到了广泛关注。在药物设计领域,基于蛋白质-配体相互作用预测的高通量虚拟筛选(HTVS)已成为CADD的关键技术之一。其通过计算模拟小分子配体与靶体蛋白之间的结合模式和结合亲和力来高效预测潜在活性化合物。与传统依赖于实验室的方法相比,HTVS可以对大规模化合物数据库进行快速初筛,从而降低研发成本。在酶工程领域,传统实验方法面临着微生物可培养性低以及筛选通量有限等问题,限制了新酶发现和酶定向进化的进程。因此,开发高效的计算方法对加速药物研发和推进酶工程发展具有重要意义。
在蛋白质-配体相互作用预测中,基于深度学习的打分函数在结合亲和力预测、小分子结合模式识别以及活性分子筛选等方面取得了显著进展。然而,当前的深度学习模型往往专注于单一或少数任务,难以同时在打分、排序、对接和筛选等多个任务中表现优异。此外,这些打分函数的预测值通常缺乏明确的物理含义,无法直接关联到热力学或动力学参数(如解离常数Kd或结合自由能ΔG),从而限制了它们在更广泛场景中的应用价值。在酶动力学参数预测方面,近期报道的一些模型由于数据集划分方式、模型架构、酶-底物建模方式等因素导致模型出现了严重的过拟合问题,从而限制了它们的精度和泛化能力。此外,一些模型仅在野生酶的动力学参数数据上进行训练,使得其不适用于预测突变引起的动力学参数变化。无论是药物分子与靶体蛋白的结合,还是底物与酶的结合,都涉及蛋白质与小分子之间的相互作用识别。因此,如何针对特定任务有效地对蛋白质和小分子进行建模是问题关键。本论文将基于物理、化学及生物知识来对蛋白质与小分子进行表征,并结合深度学习来构建蛋白质-配体相互作用预测模型和酶动力学参数预测模型以解决上述问题。本文主要研究内容如下:
第一,本研究基于深度学习提出了一个新型的蛋白质-配体相互作用预测框架IGModel,能够同时预测小分子对接构象的均方根偏差(RMSD)及其与蛋白质的结合亲和力。IGModel通过蛋白质-配体相互作用图和蛋白质口袋图来对复合物特征进行描述,并利用EdgeGAT层进行特征提取和解码。评估结果表明,IGModel在多个基准测试集(如CASF-2016、PDBbind-CrossDocked-Core和DISCO)上均展现出优异性能,尤其是在小分子对接构象预测方面达到了领先水平。此外,该模型在无偏测试集和基于AlphaFold2预测的蛋白质结构上展现了强大的泛化能力,证明了其在实际应用中的潜力。通过IGModel编码生成的向量特征可视化和注意力机制分析,我们发现该模型能够有效捕捉关键的物理相互作用(如氢键和π-π堆积等),进一步提升了模型的可解释性。这项研究不仅为蛋白质-配体相互作用预测提供了新的技术框架,也为未来开发兼具高精度且具有物理可解释性的计算工具奠定了基础。
第二,本研究开发了一种基于深度学习的虚拟筛选策略,用于高效识别GluN1/GluN3A受体的抑制剂。GluN1/GluN3A是一种独特的甘氨酸受体,在中枢神经系统中参与情绪调节,是神经精神疾病的潜在治疗靶点。针对传统高通量筛选方法效率低下的问题,本研究设计了一种兼顾精度和效率的虚拟筛选策略:首先构建基于序列的打分函数来对小分子数据库进行快速初筛,最终从1800万个分子中筛选出两万个候选分子;然后,通过分子对接以及我们提出的IGModel和文献中报道的RTMScore来对候选分子进行结构采样、打分和排序,最终挑选出分数排名前12的小分子。通过湿实验测试发现,化合物PAT-505对GluN1/GluN3A受体表现出显著的抑制活性(IC50=2.87 ±0.80 μM)。本研究为神经精神疾病治疗药物的开发提供了新思路,还验证了深度学习在平衡筛选速度与准确性的可行性。
第三,本研究提出了一个鲁棒的酶动力学参数预测模型CataPro,能够同时预测酶周转数(kcat)、米氏常数(Km)和催化效率(kcat/Km)。CataPro通过蛋白质语言模型ProtT5-XL-UniRef50产生的特征向量来表示酶信息,通过化合物语言模型MolT5产生的特征向量以及MACCS keys指纹来表征底物信息,然后采用神经网络来进行预测。测试结果表明,CataPro相比于基线模型DLKcat和UniKP具有显著优势。与这先前研究不同的是,我们还基于无偏的十折交叉验证数据集评估了模型在特定反应中排序突变体的能力。在多个小型酶催化效率数据集以及深度突变扫描数据集上,CataPro均展现出优异的性能,证明了其在酶工程中的应用潜力。此外,我们将CataPro应用于催化4-乙烯基愈创木酚(4-VG)转化成香兰素的酶挖掘项目中,并成功筛选出一个活性是初始酶19.53倍的替代酶SsCS