食品风味是影响人们食欲和口感体验的重要因素之一,会直接影响食物的受欢迎程度。机器学习是一种基于数据的人工智能技术,通过让计算机从数据中学习规律和模式,从而实现对未知数据的预测和分类,机器学习不需要编写规则和指令,而是通过输入数据信息进行模型建立和训练,优化算法的参数,从而实现自我学习,提高预测精度。近年来,基于机器学习的智能分析方法已被应用于预测食品风味,展现出广阔的应用前景,通过学习训练大量的风味成分和感官评价数据,可以建立数学模型预测食品的香气、风味和口感等特性。
上海应用技术大学香料香精化妆品学部的蔡尉彤、冯 涛*、宋诗清等人 介绍了不同机器学习算法的原理,并对近几年利用机器学习模型在预测食品风味研究中的应用进行综述,旨在突出机器学习在预测食品风味研究中的关键作用,并提出在今后的研究中应用机器学习提高食品风味、促进食品科学发展的重要性。
01
食品风味预测中常用的机器学习方法
机器学习是人工智能中的一个分支,其学习方法主要分为两类:有监督的学习方法和无监督的学习方法。无监督的学习方法只包含输入变量,通过对输入变量的标记预测输入数据的内在结构,一般常见的无监督机器学习方法主要用于聚类和降维,算法较为简单;而有监督的学习方法包含输入和输出变量,旨在理解从输入到输出间的关系,根据给定的输入数据预测输出,从而提供更可靠、更准确的预测结果。预测食品风味的传统机器学习算法模型主要有支持向量机(SVM)、决策树(DT)、随机森林(RF)、梯度提升树(GBDT)、k最近邻(k-NN)、极限学习机(exELM)、人工神经网络(ANN),以及具有更强学习能力的深度学习(deep learning,DL)算法,如反向传播神经网络(BPNN)、卷积神经网络(CNN)。
1.1 传统机器学习方法
SVM是一种有监督的学习算法,最早于1995年由Cortes等提出,拥有分类和回归两种算法,因此SVM又被分为支持向量分类(SVC)和支持向量回归(SVR)。当用于分类时,SVM分类器在高维特征空间中建立了一个理想的、唯一的超平面,类似一个最大边距分类器;当用于回归时,SVM分类器在高维向量空间中执行线性回归。它的算法基于边距计算原理,用于分析矢量化数据,便于找到将两个输入数据进行分类的超平面(图1a),也就是说,无论是分布在二维空间还是三维空间中的点,都可以通过SVM找到一个超平面将其分成两种类别。在该算法中可实现两个类别之间间隔距离的最大化,并使得均方误差最小化,这个距离被称为边距,而恰好落在边距上的点被称为支持向量(SV)。SVM算法适合处理非概率线性、较小样本量和高维模式识别任务,具有更高的算法准确性、避免过度拟合现象等优点。Yu Shanshan等通过GC-MS、电子鼻和电子舌检测中国不同地区的12种有代表性的传统发酵大豆酱,选出共有的挥发性化合物后通过SVM中的SVR分析预测酯类物质、氨基酸氮物质含量,以及总酸和盐度,结果显示预测的相关系数均在0.8以上,表明SVM机器学习结合电子鼻、电子舌数据可预测食品的关键风味特征。Leong等将机器学习与表面增强拉曼散射结合,以期通过直接传感数据实现高精度的预测,表面增强拉曼散射是用于检测物质表面分子的光学技术,通过与SVM的结合集成,可同时对5种葡萄酒风味进行多重分析,并高效捕捉对整体葡萄酒风味有贡献作用的未知物质,最终人造的葡萄酒风味与成品相比准确度高达95%~100%。可见,通过对传感器数据或分子结构数据的学习训练,SVM模型可以成功预测食品中对整体风味贡献较大未知物质。
DT是一种基于分类数据的分类模型,通过计算某些事件的概率值,可列出这些事件可能产生的后果。DT使用树状结构对数据进行记录并划分,由树的分支和节点组成,其中节点表示符合条件的、需要分类的组的属性,分支则显示节点可以取的值,通过根据记录的不同字段取值建立树的分支,并在每个节点上重复这个过程,就可以创建一棵DT,即输入的变量通过DT模型所给出的不同重要特征,进行一系列简单的比较后,得到多种可能的结果(图1b)。DT算法的一个优势在 于所构建模型的可解释性,这种可解释性使得通过不同重要特征和类间关系识别的相关信息能够用于支持预测未来实验数据和分析现有数据集的模型设计。Romeo Arroyo等为研究人对甜味的感知,收集了受试者对甜与不甜的气味、尝味和风味刺激做出辨别的脑电图和受试者自己的记录报告,通过DT区分3类刺激,第一层是区分气味和尝味与风味,第二层是区分尝味和风味,结果显示,受试者的自我记录和基于脑电图数据的DT算法在对这两类刺激辨别的准确性上存在显著差异,初步表明大脑的顶叶区域可能与辨别气味、尝味与风味的刺激感知有关。Dagan-Wiener等为扩大Bitter DB数据库中的苦味物质,提出了一种基于DT的机器学习分类算法,通过识别苦味物质的化学结构预测该物质是否具有苦味或能激活至少一种人类的苦味受体,结果分类化合物的正确率达70%~90%。可见DT的机器学习算法适用于将大量化合物快速提取分类,得到直观可解释的预测模型。
RF是在许多开发预测模型的研究中所运用一种集成分类和回归的组合型机器学习方法,由Breiman于2001年首次提出并使用,是多种DT的一个集合形式(图1c),可从DT集合中导出多种预测的决策结果而产生可靠的分类。与单一DT相比,RF可对复杂的数据集和预测变量进行随机选择,从而构建分类和回归树 (CART)进行预测建模,提高预测准确性,避免发生过拟合现象。输入的数据集可通过随机选择子集的方法来构建得到多种CART模型,为减少过拟合的风险,还有一部分随机选取的数据集会被包外误差,这一步骤被称作袋装,通过预测模型树的平均误差值估计模型的整体性能,若平均包外误差较高,则说明模型对于预测数据表现不佳,还需要输入更多的数据集。中国白酒由于各地的原材料和发酵菌种的差异,具有的风味特点也多样化,因此白酒掺假问题一直存在于市场,传统鉴别方法即通过专业品酒师的品鉴,Li Qiang等采用配有石英晶体微量天平的电子鼻传感器结合RF机器学习中的分类算法鉴别中国白酒的风味,对12种中国白酒进行电子舌检测,并将传感器数据作为训练集先对DT进行训练,优化和确定DT的数量后再扩展到RF中,利用RF对传感器数据进行判断和分类,从而完成训练,同时还采用多种分类算法模型共同验证RF分类的预测准确性,结果表明,RF在计算分类1 600个传感器原始数据的时间最短(32.4 s)且预测精度达100%。这一结果得到了一种能快速有效地鉴别中国白酒风味的机器学习方法,可见将多个DT模型作为基础模型组合在一起工作后,可表现出更优越的性能。
梯度提升(GB)算法是一种集成学习法,通过不断迭代和更改权重值得到多个弱学习器,最终结合构成一个强学习器达到预测分类效果较好的目的(图1d),通常将DT作为基础学习器,因此该算法可简称为GBDT,与RF不同之处在于,GBDT在学习过程中通过误差最小化原则依次构建每一棵DT,每棵树学习之前所有的预测值与目标值的差值更改权重大小,以此缩短原始训练样本与每次迭代构建的学习器间的误差,从而提高分类预测能力。而极端梯度提升(XGBoost)是目前更高效且被广泛使用的机器学习方法,通过优化多模型的特征集最小化目标函数并进一步提高建模精度。将XGBoost与描述性感官分析结合可预测葡萄酒的感官得分,具体方法是利用葡萄提取物的光谱特征,及感官小组对不同葡萄酒的色、香、风味、尝味和口感这5种角度进行感官评价,归纳得出22种感官描述词作为XGBoost回归模型的自变量和因变量并完成预测模型的构建,最终在分析的22种葡萄酒感官描述词中,有15种的R2值高于0.5。GB具有一定的可信度和准确度,可为快速分析原料及其预测饮料产品的感官特性打下基础。
k-NN是种有监督的机器学习算法,是由Cover等提出的数据分类算法,其原理是将一个尚未分类的样本点分配到与其最近的已知分类的类别中,用于分类和回归的传统机器算法,因不需要假设数据分布的情况,也被称为惰性算法。将未知样本的数据输入到数据训练集中后,计算未知样本与其他样本的相似度并进行排序,最后通过欧几里得距离衡量,选择与其最近的k个已知样本完成k-NN计算。然而,这也是k-NN惰性算法的缺点之一,需要对所有样本数据进行比较计算,计算复杂度高且耗时久。此外,欧几里得距离的度量选择也需要按情况而定,即k值的大小需要人工指定,若k值过大,分类效果则不精确,还需要修改k-NN算法改变距离的测量(图1e)。在印度尼西亚,传统预测大米保质期的方法是人直接嗅闻大米样品,Hanif等提出一种基于机器学习算法预测大米保质期的方法,采用电子鼻检测结合k-NN算法开发预测大米货架期的系统,通过欧几里得、曼哈顿和闵可夫斯基3种距离计算方法确定k值的最佳参数,k-NN算法的回归曲线R2为0.73,模型具有较好的预测效果,有效解决了大米保质期的预测问题。除了结合电子鼻、电子舌的传感器数据,Pratama等利用紫外-可见分光光度计对样品的波长和吸光度数据同k-NN算法结合区分鉴定甜橙和酸橙,k-NN的预测结果从40个吸光度数据中正确分类了23个数据,正确率达67.5%。由此可见,想要得到较高的预测准确度还需要扩大训练集的数据,以此进一步优化k-NN算法中的k值。
ELM是一种新的分类和回归算法模型,其核心思想是单隐层前馈神经网络(SLFNs)的学习算法(图1f),也被称为SLFNs的快速学习神经算法。在训练和学习过程中,会隐藏节点的输入权重等学习参数,并通过随机分配的方法调节训练时的权重参数,最终调整隐藏层中的神经元数量以获得最佳结果,ELM同其他SLFNs相比,操作简单且运算速度较快,可避免层与层之间的迭代运算,仅通过简单的广义逆运算即可解析得到输出值,但ELM算法仍具有一些缺点,Cao Jiuwen等认为ELM给出的分类可能不是最优的,因为一些靠近分类边界的数据可能被错误分类,同时由于ELM是基于多层神经元的变换,决策过程中会隐藏神经元参数,只能看到输入和输出的结果,此算法的可解释性较弱。为了进一步提高ELM的性能,倪金等将核函数加入建立分类模型的算法中,对输入的原始数据进行特征提取和转换,从而得到提高模型的精度和泛化能力的核极限学习机,利用红外光谱对新鲜大米和陈化大米进行检测,将红外数据结果随机分成训练集和测试验证集,并结合优化算法的核极限学习机,以探究机器学习算法对新鲜大米中掺杂陈化大米量的预测能力,最终得到了较高的掺假检测正确率(90.2%),实现了陈化大米的定性鉴别和掺假定量分析。由此可见,在不同核函数的算法优化下,ELM的学习能力和分类准确率也能得到一定程度的提升。
ANN是模拟人脑对信息的处理方式的计算模型,由数百个类似大脑中的神经元或处理单元组成,通过检测数据中的模式和关系收集信息和知识,无需编程,而是直接通过输入的训练数据集学习,从而调整处理元件的权重以更好地适应数据集,最终实现预测和分类等任务,也就是说,一旦有足够多的数据供其学习,ANN就可根据输入的新数据预测输出。神经网络中的处理单元主要有3部分:输入单元、隐藏单元和输出单元,其中的隐藏单元位于输入和输出单元之间,在训练时会调整输入单元的连接权重不断优化预测值和目标值的差异,因此,ANN具有良好的自适应学习能力,适合对线性或非线性函数进行估计。ANN在传递信息时有两种结构:前馈结构(图1g)和后馈结构(图1h),两者的区别是学习信息在前馈结构中一直是单向地从输入单元传递到输出单元,在隐藏层的作用下,过多的连接可能导致过度拟合而降低预测能力,而在后馈结构中,输出单元的信息又会被传回到输入单元,以调整输入单元中的权重,使网络中的实际响应值减小误差,更接近所需的目标值。Arboleda运用ANN算法中的前馈-反向传播人工神经网络(FFBPANN)区分昂贵的果子狸咖啡豆和普通的咖啡豆,输入的训练、测试和验证数据均来自近红外光谱在904~1 684 nm处的吸收峰数据,并通过4层、15个神经元的FFBPANN进行训练,最终实现了95%~100%的分类,完成对果子狸咖啡和普通咖啡的区分。ANN是最为经典的神经网络算法,如今随着人工智能的不断发展,DL在传统ANN模型的基础上逐渐发展起来。
1.2 DL算法模型
DL是机器学习中使用最广泛的算法,同传统的机器学习相比,具有较强的学习能力,能学习大量数据并更好利用数据集进行特征提取,从而完成在更高、更抽象的层上进行特征表示的监督或无监督学习的方法。Deng Li等总结道,DL是神经网络、人工智能、模式识别和信号处理等研究领域的交叉,其核心是在多层次的非线性变换后,通过堆叠来构建复杂的模型,因此主要用于解决高度复杂的分类和回归问题。
BPNN是一种基于反向传播算法的神经网络,由ANN中的后馈结构(图1h)演变而来,同样由输入层、一个或多个隐藏层和输出层组成,不同的是,在BPNN中,信息是正向传播而只有误差会反向传播,通过反向传播不断调整隐藏层中神经元的权重,使预测输出始终接近实际输出值,从而最小化神经网络的预测误差。Tian Huaixiang等为了评估酸奶的风味可接受性,使用电子鼻结合BPNN和RF模型的方法,将电子鼻分析得到的容易接受和不满意的酸奶样品的响应值数据作为训练集,BPNN和RF对未知酸奶样品的预测分类准确率分别为81.25%和93.75%。BPNN的准确率较低可能是因为隐藏层神经元的数量不够,但80%以上的精确度也能够证明电子鼻结合机器学习算法模型可以评估酸奶风味的可接受性。这意味着酸奶变质可不止通过人体感官或电子鼻的感官评估检测,还能通过结合神经网络系统的机器学习算法。
CNN是应用最广泛的DL预测模型之一,一个CNN结构由多种运算层组成(图1i):数据输入层、卷积计算层、函数激活层、池化层和全连接层,可用于处理如图像、视频等各类模型。它与传统神经网络有3种不同:1)可减少输入和输出之间的连接提高神经网络的训练效果和泛化能力,更好地避免过拟合现象;2)通过使用相同的一组参数构建多个函数,从而减少权重参数,降低计算复杂度;3)在卷积的情况下,输入参数的任意平移不会影响输出模型的结果,从而让模型更加稳健。Wu Danli等利用CNN预测气味宜人性的模型,通过电子鼻和人的嗅闻对45种香气化合物(如1-戊烯-3-醇、丁酸等)进行仪器分析和人体感官评价打分,构建CNN的训练数据集和验证集,再通过复配得到22 种混合香气化合物组成的精油样品让CNN进行运算,结果表明,模型与人的感官评价在愉悦度评级上的相关性超过90%,且在区分令人愉快和不愉快的气味方面也达到了99.9%的准确率,可见CNN模型有着比传统机器学习算法更高的精确度。但Liu Mengchen等提出,在分类过程中需要大量的计算资源,较多的识别数据也需要过长的计算时间,还可能受到网络计算速度的限制,因此DL在机器学习中需进一步地强化,未来的研究可集中于提高学习速度和如何突破延迟推理的限制。
02
机器学习在预测食品风味中的应用研究
机器学习可以通过对大量食品风味数据的分析学习,建立模型预测未知食品的风味,同时也比感官评价更高效准 确。
2.1 基于风味分析仪器的机器学习模型预测食品风味
在分析食品风味的仪器中,电子舌通过味觉传感器阵列模拟人舌头上的味蕾细胞感受食品样品的整体特征,如酸、甜、苦、咸、鲜、涩和丰富度;快速气相电子鼻根据气相色谱的分离原理完成挥发性化合物的分离鉴定,通过给出的气味指纹谱图反映样品挥发性成分的整体信息;GC-MS通过高分辨率的分离能力分离样品中的挥发性化合物,同时对分离的每个挥发性物质进行质谱比对准确完成挥发性物质的定性。将风味分析仪器与机器学习算法结合,可快速处理大量数据,有效提取关键信息,客观地评估和预测食品风味。
尽管多元统计分析方法如主成分分析(PCA)、偏最小二乘回归、线性判别分析(LDA)等是分析处理大型复杂数据集的有用工具,通常通过减少原始变量数量创建新变量,以简化数据比较和解释过程得到分类或预测结果,但其是通过多个已知数据建立线性模型来预测未来趋势,需要人工处理和归类数据,而机器学习可以节省处理时间。叶美霞等利用超快速气相电子鼻分析检测婴儿、青少年、成年、老年4种不同年龄段的奶粉,通过各挥发性物质的相对峰面积含量计算得到对样品有较大相对香气活力值(ROAV>1)的挥发性化合物,并结合LDA和线性支持向量机(L-SVM)对4种奶粉中的挥发性成分进行预测和分类,结果表明LDA分类的平均准确率为93.3%,L-SVM预测的平均准确率为94.2%,适合不同年龄段的奶粉可以被多元统计分析和机器学习方法准确分类,并且L-SVM的机器学习算法还会给出奶粉中预测ROAV>1的挥发性成分的重要性排序。将机器学习与统计分析学方法结合可以加快预测分类的速度,提高检测效率。
为确定关键致香成分,Bi Kexin等在GC-MS检测的基础上还进行了气相色谱-嗅闻(GC-O)检测,以获得花生油样品中的特征香气成分,再结合CNN对这些特征香气成分的质谱图像进行卷积学习,最后将数据量扩展到更大的矩阵中,完成花生油的特征香气成分指纹模板,从而完成花生油特征香气成分气味及其保留时间的预测,CNN的预测准确率高达93%。这一机器学习模型的优势是减少了嗅闻次数和缩短了嗅闻时间,以及适用性较强,一旦确定了特定种类样品的模板,它可应用于所有这个种类的样本,并且在整个过程中不应更改,可见输入数据的选择是决定风味预测准确性的重要因素之一。
强大的机器学习可以学习各种类别的数据集,水果的风味由多种代谢成分的相互作用而决定,Sun Zhu等通过LC-MS对3种产地的香瓜茄进行代谢组学分析,并通过感官小组对其进行甜、酸、风味和喜爱度打分评价,从而运用机器学习模型将代谢组学和感官评价联系起来,根据甜瓜中的非挥发性成分预测消费者的喜好度,作者利用SVM、RF、神经网络等机器学习模型,对LC-MS的数据结果进行训练并用于预测这些甜瓜中的物质成分对应的感官特征,最终的验证结果表明SVM对核苷酸及其衍生物带来的甜味的预测准确度最高,与化学计量学的线性回归模型相比,预测准确度提高约44%,而对氨基酸和酚酸类化合物带来的酸味,SVM的预测模型较好,预测精度大于0.8,此外,RF在预测消费者的喜好度排序上准确度较高,预测精度为0.93,其次才是SVM(0.92)。结果表明,机器学习可以帮助种植人员在培育水果的过程中监测非挥发性的代谢物变化,以便提前知道这一品种的风味特征和消费者喜爱度。
麦芽汁不同的酿造方式得到的啤酒风味具有地域特点,挥发性香气成分复杂多样。Men Hong等利用电子舌和电子鼻分别采集啤酒的味觉和嗅觉特征数据,通过PCA、基于遗传算法的偏最小二乘法和变量重要性投影(VIP)先筛选得到一部分原始数据集的特征变量,以缩短机器学习算法在选择权重值的时间,降低了模型预测的复杂度,随后采用3种机器学习的分类模型——SVM、RF和ELM,准确有效地识别不同的啤酒及其重要的风味特征,结果显示与单独的电子舌和电子鼻检测相比,利用多传感器数据融合VIP值可使机器学习提高啤酒风味信息的分类准确率,SVM的分类准确率为88.89%,RF为88.89%和ELM为88.33%,为后续预测不同工艺的啤酒风味特征提供依据和参考。在麦芽汁发酵过程中,发酵程度的多少也会影响啤酒风味的好坏,酵母菌会利用麦芽汁中的糖分进行代谢,产生乙醇和二氧化碳气体,以往的生产工艺中常采用手动取样检测麦芽汁的密度或通过傅里叶变换红外光谱仪的在线监测以判断乙醇浓度是否达标,但在线取样易携带杂菌或通入氧气,需要校准程序补偿溶解的二氧化碳或酵母菌的细胞浓度,因此Bowler等使用超声波传感器检测气体在麦芽汁中产生的振幅大小,同时结合ANN和长期短期记忆神经网络(LSTM)两种神经网络的机器学习方法预测乙醇浓度,LSTM是循环神经网络中的一种,主要通过反向传播算法进行训练,其预测模型中的R2大于0.95,预测效果较准确,而ANN通过前馈结构单向地传递数据,无法储存过去的信息数据,预测模型的R2约为0.4,远小于1,结果认为,ANN的预测能力较差可能是单向传播导致的特征提取不够多,且该过程需要LSTM作为互补,通过反向传播提供的特征值来增强“记忆”,为ANN的隐藏层提供更多的变量调整连接权重。CNN同ANN一样是前馈神经网络,其包括多层结构:卷积层和池化层用于提取特征,全连接层用于分类,Shi Yan等将CNN同SVM互补结合,以缩短CNN单独计算的训练时间和提高算法模型的泛化能力,利用CNN-SVM机器学习模型训练学习电子鼻对5种原料相似且乙醇浓度相同的啤酒产品进行检测得到的数据集,最后模型的测试集结果显示分类性能达96.67%,可以对不同啤酒的嗅觉特征的进行自动提取和识别,有了这些自动提取特征的结果,未来可以直接利用CNN-SVM结合的机器学习模型预测区分不同品牌的啤酒或其他产品。
除了啤酒的风味成分较为复杂,影响白酒风格种类和品质的风味物质有近上千种。在一项研究白酒不同特征风味的研究中,研究者选择了性能最好的算法——CART构造RF,这一算法的好处是它是二叉树,只有正确与否两种分支,可以从观察的训练数据集中优化分割标准,从而确定节点处的特征估计值,以此在大量数据中找到较好的分裂节点,最终的分类准确率为100%,略高于SVM模型(96.1%),完成了对中国白酒风味的辨别和种类预测。日本清酒分为不同等级,Saville等为预测有无添加乙醇的两类清酒的等级,对清酒样品进行理化性质检测(如清酒相对密度、乙醇含量、有机酸含量等),并召集经常接触清酒的专业人员进行感官评价,收集对清酒样品整体风味的打分分值完成清酒的等级分类,运用ANN、RF、SVM和k-NN 4种机器学习算 法对理化性质数据进行学习,从而完成预测清酒的风味等级,发现ANN算法对清酒第一、第二和第三等级的分类预测准确率分别为87.5%、93.5%、77.78%,结果表明理化性质与ANN相结合可以快速识别日本清酒的品质,并实际应用于清酒风味等级的预测。李陈杰等采用GC-MS检测不同种类的浓香型白酒并通过感官评价打分建立挥发性风味成分与品评数据的关系,为提高SVR模型的预测精度,先扩大感官数据量对数据进行增强,又经过遗传算法优化权重参数,以缩短SVR在计算过程中的时间,最终得到一个两层叠堆结构的预测模型实现预测功能。通过SVR机器学习结构结合遗传算法得到多层结构的预测模型,发现其对白酒中的酸类、酯类、醇类、醛类物质的预测效果较好,且均方根误差和R2均高于RF算法和多元线性回归模型,对白酒品质鉴定具有一定意义。Li Bei等也通过机器学习模型分类识别不同地理来源的白酒,但其采用的是全二维GC-MS对挥发性成分进行检测,将质谱图数据分成训练和测试数据集,训练集中的数据按浓香、酱香、等不同的风味进行汇总分类,测试数据是随机分配的,通过SVM和RF两种机器学习算法模型对其进行分类,结果显示SVM在地理鉴别上的准确率为91.86%,在风味分类方面的准确率为97.67%,RF的准确率分别为83.72%和95.36%,表明SVM在地理鉴别和风味分类方面都表现出轻微的优势,推测是测试数据中包含类似于平行数据的小样本群体,因而容易进行识别和归类,而RF可能需要更多的数据量才能提高准确率。这一研究首次确定了中国白酒不同地理来源和风味类型之间的成分差异,并证明了SVM有着较高的预测准确率。
2.2 基于分子化学结构的机器学习模型预测食品风味
已有研究表明风味化合物的分子结构,特别是链长和官能团的变化,对食品风味具有一定影响。近红外光谱可用于分析和表征化学物质结构,运用近红外光谱检测样品时,无需对样品进行预处理,可快速提供连续的吸收峰光谱信息,并从单个光谱中得到物理和化学性质,其全波段分析可以对所有波段和多个波长下的光谱数据进行定性定量分析,因此也常被视为预测食品风味的基础。酒醅是酿造酒所用的发酵剂,其酸度变化可以决定发酵程度,因此需快速及时检测酒醅酸度,避免发酵过度。王琦标等运用近红外光谱检测酒醅并收集含氢基团的合频、基频特征峰的振动信息,利用CNN提取关键吸收峰简化光谱信息,并建立酒醅酸度的预测模型,最终预测数据集的R2高达0.95,预测准确度和线性回归模型相比提高1.4%左右,实现了机器学习算法在酒醅中对酸度的快速检测。Chang Yutang等为满足市场需求,期望通过机器学习算法预测特色咖啡豆的风味信息,运用近红外光谱仪收集了来自不同国家的266份阿拉比卡咖啡豆样品的光谱信息,并通过专业咖啡杯测师将这些咖啡豆分为7种风味类别,采用SVM和深度卷积神经网络(DCNN)两种模型对风味分类和光谱信息数据进行训练、验证和测试,从而进行特色风味预测,结果显示DCNN的预测准确率高于SVM,为75%~77%。DCNN模型可以通过加权计算堆叠更多的卷积层,从而对训练集的数据完成更准确的特征提取,此外研究者还发现DCNN算法中有个 “模型聚焦”指数,可解释特定的波长区域和相应风味之间的相关性,使模型可视化,研究证明了机器学习模型预测特色咖啡风味的可行性。近红外光谱的全波段分析还被应用于茶叶的分类鉴别,He Yong等准备了西湖龙井、武义毛峰、长兴紫笋等8种不同品种的茶叶样品各30份,在325~1 075 nm处进行近红外光谱检测得到光谱数据,先通过PCA对数据进行降维处理减少变量个数,再通过BP-ANN建立对不同茶叶近红外光谱数据的识别预测模型,训练数据和预测数据均来自240份茶叶样品的光谱数据,并已随机打乱顺序,结果发现BP-ANN的预测结果误差接近于0,没有样本被不准确地预测,准确率接近100%。由此可见多元统计分析对数据进行简化和预处理后,机器学习模型的建立和训练变得可行,且能减少机器计算时间,完成快速地分析预测。
除了风味化合物分子的官能团结构,化合物分子中的原子排列、空间构型等化学结构的不同也会使风味变化,例如通过定量构效关系可建立数学模型对分子进行定性和定量预测,从而解释阐明一些分子结构的活性或其他特性。而甜味作为食品饮料中的基本味觉,有关甜味剂的分子结构研究也逐渐通过机器学习模型来完成。任海斌等利用Sweet DB、Super sweet甜味分子数据和Flavor DB非甜味分子数据库筛选汇总得到甜味和非甜味分子的名称及其分子结构,先通过SVM和RF算法模型对以上数据进行训练和验证,建立完成甜味分子的识别模型,再通过k-NN、RF两种机器学习的回归模型来预测已知甜味分子的甜度,最后得到k-NN的预测模型R2约为0.68,RF的预测模型R2为0.82,RF的预测效果较为理想。Yang Zhangfei等期望开发一个用于甜味分子评估的多层预测模型,第一层区分甜味分子的来源(天然或人工合成),其次是区分碳水化合物或非碳水的化合物化学结构,接着是甜味分子的营养价值和甜度大小,其甜味分子的结构数据同样来源于已有的数据库网站,利用DT、RF、SVM、k-NN等多种机器学习算法以确保模型的稳定性和准确性完成甜味分子的预测,机器学习模型中还有基于DT的GBDT,GBDT可通过迭代运算逐步添加DT,并不断校正减小训练过程中误差来提高模型准确度,这一多层模型的建立对甜味剂的开发提供了十分有益的参考价值,适用于多种场景。Bo Weichen等不仅对甜味分子进行预测,还预测分类了苦味和非苦味分子,提出了一种基于CNN的结构-味觉关系模型预测所选分子化合物的苦味和甜味,甜味和苦味分子的化学结构来源于Super Sweet和Bitter DB,非甜味或苦味分子结构来自Flavor DB,利用分子的二维结构图进行CNN的模型训练,最终CNN模型在苦味剂/非苦味剂、甜味剂/非甜味剂和苦味剂/甜味剂的预测方面准确度的R2均高于0.88,同时具有较高的预测模型评估指标。这一预测模型能够准确地预测苦味和甜味分子,有助于理解分子的结构与苦味或甜味之间的关系,并阐明分子味觉的特征和机制。
表1举例了近年来机器学习基于风味分析仪器和分子的化学结构预测食品风味的应用研究。
03
结语
机器学习模型在食品风味预测的研究已变得越来越广泛,通过输入电子舌、快速气相电子鼻、GC-MS仪、近红外光谱仪的传感器响应值、质谱和光谱数据信息进行训练学习,并经过机器学习算法对数据的特征提取和选择,最终运用于模型的预测。食品的风味离不开挥发性成分和非挥发性成分的共同作用,基于风味分析仪器的风味预测可让机器学习模型熟悉了解食品的呈香和呈味部分,而基于分子结构的风味预测更多的是运用DL模型,通过对分子结构图像的拆解识别学习结构对某一风味特征,如甜味、苦味的影响。
然而在预测食品风味的实际应用中,机器学习模型的运用还较为欠缺,其预测准确度离不开大量数据的训练和验证,且通常需要选择多种机器学习模型共同或辅助预测,以防止单一模型的预测性能较差,此外,机器学习模型的建立对电脑系统的要求也较高,需要与其他应用程序集成,才能实现较好的应用。在未来的研究中可以通过迭代算法先对训练数据集进行优化和减少变量,或使用几种机器学习算法相结合的模型,以提高算法模型的泛化能力和预测准确度,这将有助于推动机器学习算法在预测食品风味领域的应用。
作者简介
通信作者:
冯涛,上海应用技术大学香料香精化妆品学部,教授,2007年毕业于江南大学获得博士学位;美国普度大学Whistler碳水化合物研究中心访问学者,博士生导师,中国香料香精化妆品行业协会常务理事,中国茶学学会茶饮茶食专委会委员,中国标准化协同创新平台产品感官质量标准化技术专家委员会委员,上海市食品添加剂和配料行业协会中香天然香料产业促进中心主任,主要从事食品风味化学、香精制备技术与应用等方面的研发工作。中国食品科学技术学会高级会员、上海应用技术大学教授、上海市曙光学者、上海市晨光学者、江苏省双创人才、上海市奉贤区滨海青年英才。Frontiers in Nutrition、Frontiers in Microbiology、Molecules、Journal of Food Quality客座主编,Journal of Future Foods编委会成员,《粮油食品科技》编委。主持国家自然基金面上项目、青年项目,市教委人才项目“曙光计划”、“晨光计划”,上海市科委地方能力建设项目,上海市自然科学基金项目等各类课题20余项。先后以第一作者或者通信作者在国外专业学术期刊上发表SCI论文150余篇。主编教材或学术专著5 部,参编教材5 部,其中参与英文专著编写3 部。先后获得上海市科技进步二等奖、中国食品科学技术学会科技进步三等奖,中国(国际)专利交易博览会金奖。申请国家发明专利40余项(已授权20 项),转让10余项。
第一作者:
蔡尉彤,上海应用技术大学香料香精化妆品学部硕士研究生,就读于上海应用技术大学香料香精化妆品学部-香料香精技术与工程专业22级硕士研究生,导师:冯涛教授,主要研究方向为食品风味分析,目前已发表SCI论文2篇。
本文《机器学习在预测食品风味中的研究进展》来源于《食品科学》2024年45卷第12期11-21页,作者:蔡尉彤,冯涛,宋诗清,姚凌云,孙敏,王化田,于闯,柳倩。DOI:10.7506/spkx1002-6630-20240103-032。点击下方阅读原文即可查看文章相关信息。
实习编辑:俞逸岚;责任编辑:张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网