近期,dg真人试玩平台刘强副教授(第一作者)在国际TOP期刊Biotechnology Advances(Q1,IF: 12.5)发表题为“Decoding polyphenol-protein interactions with deep learning: From molecular mechanisms to food applications”的综述性论文。
多酚与蛋白质是食品体系与生命活动中两类至关重要的生物分子。多酚是一类广泛存在于蔬菜、水果、豆类、谷物和茶叶中的植物次生代谢产物,根据化学结构可分为黄酮类、酚酸类、香豆素类、芪类和木脂素类等。蛋白质则是食品和人体中执行功能的主要载体。二者之间的相互作用——简称PhPIs(Polyphenol‑Protein Interactions)——不仅决定食品的质地、稳定性和营养特性,还深刻影响多酚的抗氧化、抗菌、抗炎、抗过敏等生物活性的发挥,以及蛋白质的消化率、致敏性和功能特性。
PhPIs主要通过非共价相互作用(氢键、疏水作用、静电作用和范德华力)与共价相互作用(多酚氧化为邻醌后与蛋白质巯基、氨基等发生Michael加成或席夫碱反应)两种机制发生。非共价作用通常是可逆的,主导结合亲和力与特异性;共价作用则形成稳定的共价复合物,显著改变蛋白质的结构与功能。这些相互作用可诱导蛋白质二级结构变化(如α‑螺旋减少、β‑折叠增加),进而影响凝胶强度、乳化性能、热稳定性及抗酶解能力,并调节α‑淀粉酶等酶活性及NF‑κB等信号通路。
尽管PhPIs的重要性已得到广泛认可,但其研究仍面临巨大挑战。由于多酚结构的多样性和蛋白质结合位点的动态性,传统实验技术(如光谱、质谱)受限于样品复杂性和低通量;分子对接和分子动力学模拟计算成本高、效率低;传统机器学习方法对复杂非线性相互作用的建模能力有限。深度学习(DL)凭借强大的自动特征提取能力,可从蛋白质序列、三维结构及多酚分子图中高效预测结合位点、亲和力及相互作用类型,借助图神经网络、卷积神经网络等架构,数秒内即可完成传统方法数小时的计算任务。本文系统综述了DL在PhPIs分析中的工作流程、应用模型、主要挑战(数据质量、动力学缺失、金标准匮乏等)及未来方向(可解释AI、多模态融合等),旨在为食品与营养科学提供从分子机制到应用转化的系统性指南。

研究亮点
本文系统梳理了深度学习在多酚-蛋白质相互作用(PhPIs)研究中的全流程应用,涵盖数据采集与预处理、特征提取、模型构建及性能评估,并综述了图神经网络、卷积神经网络、Transformer等主流架构的适用场景。文章全面总结了传统方法(光谱、质谱、分子对接、分子动力学模拟等)在分辨率、计算成本和通量方面的固有局限,明确了当前深度学习驱动PhPIs研究的关键挑战,包括高质量标注数据不足、蛋白质动力学信息缺失、金标准基准数据集匮乏以及低数据环境下的过拟合问题。在此基础上,提出了面向食品与营养科学的未来方向,强调可解释人工智能(XAI)对提升模型透明度的重要性,并建议通过多模态数据融合、迁移学习、主动学习等策略突破现有瓶颈。
研究结论
PhPIs的机制基础已较为明确:多酚与蛋白质可通过氢键、疏水作用、静电作用等非共价方式,以及席夫碱反应、Michael加成等共价方式相互作用,诱导蛋白质构象变化,进而影响其热稳定性、消化率、抗氧化性及乳化性能等食品功能属性。然而,传统实验与计算方法均存在固有局限,实验技术(如光谱、质谱、色谱)受限于分辨率、信号干扰和低通量;计算模拟(分子对接、分子动力学)虽能提供原子层面信息,但计算成本高且难以大规模应用;传统机器学习方法对动态、非线性相互作用的建模能力有限。
深度学习为PhPIs研究提供了新范式。通过构建端到端的预测模型,深度学习能够从蛋白质序列/结构及多酚分子图中自动提取高维特征,高效预测结合位点、结合亲和力及相互作用类型,显著提升预测速度与可扩展性。现有深度学习模型已有成功应用,如BANPPI框架利用双线性注意力网络实现了多酚-蛋白质相互作用的准确预测(AUROC=0.8443),MONN模型通过定义非共价相互作用矩阵精准推断结合位点,展示了DL在食品蛋白质体系中的实用价值。当前主要瓶颈在于数据与可解释性:高质量、多样性充足的PhPIs数据集仍然稀缺,蛋白质动力学信息的整合不足,且深度学习模型的“黑箱”特性限制了其生物学机制的解释能力,金标准基准数据集的缺失也阻碍了模型性能的公平比较。未来应聚焦模型优化与跨学科融合,发展可信与可解释的人工智能(XAI)方法,结合多模态融合、迁移学习和主动学习等策略应对低数据挑战。深度学习有望在功能性多酚-蛋白复合物筛选、乳液稳定性预测、过敏原性评估及活性物质递送系统设计等领域发挥关键作用,推动食品科学与营养健康的精准化发展。
图文赏析

图1 多酚的分类及代表性化合物的化学式。多酚根据结构分为黄酮类(如槲皮素)、酚酸类(如没食子酸)、香豆素类(如7-羟基香豆素)、芪类(如白藜芦醇)和木脂素类(如亚麻脂苷)。

图2 研究多酚-蛋白质相互作用(PhPIs)的方法与挑战。(A) 样品复杂性:多酚与蛋白质的种类和结构多样性使预处理和表征困难;(B) 高计算负载与低效率:分子对接和MD模拟难以捕获动态过程;(C) 数据分辨率与信号干扰:光谱和显微技术存在低分辨率、信号重叠问题;(D) 实验条件:溶剂性质、颗粒大小、传感器固定化等影响重现性。

图3 非共价与共价的多酚-蛋白质相互作用。非共价作用包括氢键(多酚羟基与亲水性氨基酸残基)、分子间氢键(多酚自聚集)、疏水作用(芳香环与非极性区域)和离子键(碱性条件下去质子化羟基与带正电侧链)。共价作用则涉及多酚氧化为邻醌,再与蛋白质的巯基或氨基发生Michael加成或席夫碱反应。

图4 用于预测多酚-蛋白质相互作用(PhPIs)中蛋白质-化合物结合的工作流程与方法概述。(A) 数据预处理:整合PDB、UniProt、ChEMBL等来源的数据,进行去噪、特征选择;(B) 预测模型:结合图神经网络、CNN、Transformer等提取序列与结构特征,通过亲和力学习模块预测相互作用;(C) 验证策略:交叉验证、亲和力预测、化学规则评估;(D) 性能评估:采用RMSE、R²、AUC-ROC等指标。

图4 用于预测多酚-蛋白质相互作用(PhPIs)中蛋白质-化合物结合的工作流程与方法概述。(A) 数据预处理:整合PDB、UniProt、ChEMBL等来源的数据,进行去噪、特征选择;(B) 预测模型:结合图神经网络、CNN、Transformer等提取序列与结构特征,通过亲和力学习模块预测相互作用;(C) 验证策略:交叉验证、亲和力预测、化学规则评估;(D) 性能评估:采用RMSE、R²、AUC-ROC等指标。
原文链接://doi.org/10.1016/j.biotechadv.2026.108803