全脂奶粉属于可长期储存的乳制品范畴,堆积密度会影响速溶全脂奶粉的包装、运输和加工,较低的堆积密度通常意味着更好的流动性,但也可能增加包装容积,从而影响包装效率。现有的堆积密度测量方法包括手工敲击量筒测量、采用机械设备振实测量和通过X射线或近红外光谱测量。后两种精密仪器方法相较于第一种传统的手工测量具有更高的精度和准确性以及更具标准化(先进仪器通常遵循国际标准)。而采用精密仪器测量都有一个共同的局限性:设备成本昂贵、维护费用高,不利于企业大规模的采购测量。
江南大学未来食品科学中心的丁浩晗、崔晓晖* ,江南大学人工智能与计算机学院沈嵩等采用10 倍光学显微镜下奶粉颗粒的形状因子作为特征变量,并通过构建的深度学习模型预测奶粉的分散性和堆积密度。本研究省去了复杂的图像分析法中手动提取颗粒形状因子的步骤,采用计算机视觉中的图像分类法,由深度学习的方法直接区分样本种类。在数据集部分,本研究使用单纯形格子设计法制作10 种大、中、小颗粒占比不同的样本,使用10 倍光学显微镜获取速溶全脂奶粉各样品的微观形状。同时,使用NZDB-method测试各样本分散性,并使用智能粉体测试仪测试和计算各奶粉样本的松散密度和振实密度。最后,使用残差网络(ResNet)模型,以速溶全脂奶粉样本颗粒的微观图像为数据集,直接预测速溶全脂奶粉的分散性优劣和堆积密度区间,在不损失结果准确性的情况下极大地压缩了测量成本。
01
奶粉性能参数实验
1.1 分散性测试
本研究使用NZDB-method分别测量了单纯形格子设计的10 组不同样本,每组样本分别测试未溶率5 次,取平均值作为该组奶粉最终未溶率。测试结果见表3。可以观察到中颗粒的未溶率最低,即分散性最高;小颗粒奶粉则由于易发生团聚可能会形成大团奶粉抑制进一步分散导致实验测得结果波动较大,实验中小颗粒占比越高的奶粉实验波动就越大;大颗粒的未溶率最高,分散性差,大颗粒占比越高的样本其对应分散性也越差。
实验参照Boiarkina等标准辅以实验经验和工厂一般规定,将未溶率低于2.5%的样本作为分类中分散性为优秀的样本;未溶率2.5%~3.5%之间的样本为分散性合格样本;未溶率大于3.5%的样本为分散性不合格样本。根据此分类标准,样本2、样本6均被划分为优类,样本2作为纯中颗粒样本,在先前的研究中已证明此类颗粒分散性最佳,而样本6在所有样本中大颗粒占比最低,中颗粒占比最高,所以其分散性在所有混合样本中最佳。样本1、样本4被划分为不合格类,样本1作为纯大颗粒样本,难以彻底润湿,致其分散性最差,样本4是混合样本中大颗粒占比最高的样本,所以同样分散性不佳。其余样本均划分为合格类。此外通过观察可得,小颗粒样本分散性测试结果浮动最大,在实验中产生团块概率最高,因此混合样本中小颗粒占比越低测试结果浮动也越低。
1.2 堆积密度测试
本研究使用BT-1001智能粉体特性测试仪测量了10 组不同样本的堆积密度,每组样本的松散密度和振实密度分别测试3 次。各样本3 次实验结果分布如图5所示,与其他样本分布差异较大的是样本1(纯大颗粒)和样本3(纯小颗粒),样本1由于颗粒较大、形状不规则导致颗粒间空隙较大,所以松散密度和振实密度均较低;样本3则由于其颗粒小且形状简单、颗粒间间隙小,所以无论松散密度还是振实密度均远大于其他样本。其他样本分布较为集中,松散密度普遍分布于0.33~0.37 g/cm3之间,振实密度分布于0.45~0.55 g/cm3之间,其中样本2(纯中颗粒)松散密度虽与其他样本接近,但振实密度相对低于这些样本,可能是由于仅有中颗粒而导致缺少小颗粒填充空隙;样本5则是这些样本中除单纯小颗粒样本以外小颗粒占比最高的样本,所以其松散密度和振实密度均为这些样本中次高。除去样本2和样本5,那么再次剩下的样本振实密度可进一步压缩到0.48~0.53 g/cm3之间。
总结以上实验结果,取3 次实验的平均数作为10 组样本堆积密度的最终值,表4为各样本测得的堆积密度,同时包含松散密度和振实密度。
堆积密度没有好坏之分,堆积密度高的产品运输效率更高,并且可降低包装成本;而堆积密度低的产品同质量体积更大,用户采购时视觉效果更佳,可增加用户采购欲。最后本实验将松散密度低于0.32 g/cm3的样本归为松散密度低;松散密度处于0.32~0.37 g/cm3之间的样本归为松散密度中;松散密度大于0.37 g/cm3的样本归为松散密度高。振实密度则分为5 类,振实密度低于0.43 g/cm3的样本归为振实密度低;振实密度处于0.43~0.48 g/cm3之间的样本归为振实密度中下;振实密度处于0.48~0.53 g/cm3之间的样本归为振实密度中;振实密度处于0.53~0.58 g/cm3之间的样本归为振实密度中上;振实密度大于0.58 g/cm3的样本归为振实密度高,并以这些标准划分振实密度等级进行预测和分类。
02
深度学习实验结果
2.1 速溶全脂奶粉颗粒图像10分类实验
本实验使用搭载RTX 3080Ti显卡的联想SR650服务器作为网络模型训练设备,基于PyTorch 2.0.1框架编译代码,使用ResNet、EfficientNetV2、Swin Transformer等网络模型进行了速溶全脂奶粉分散性和堆积密度的预测。以10 组样本作为刻度,对奶粉图片进行10 分类,10 分类每类图像约50 张,分类结束后按标准再划分。所有输入图片尺寸均为224×224 像素,均训练200 轮,所有网络模型均采用Adam动态学习率,初始学习率设置为0.001。ResNet系列batch_size设置为16,EfficientNet设置为32,Swin Transformer设置为8。训练过程中为防止过拟合,保留验证集准确率最高的权重参数作为模型。表5为10 分类实验结果。
从表5可以看到,尽管ResNet作为一种较为老旧的网络结构,但在速溶全脂奶粉颗粒图片分类上效果却优于后出现的EfficientNetV2和Swin Transformer等方法。因此本研究后续实验主要围绕ResNet系列模型展开。实验记录了训练集损失函数值和验证集准确率变化曲线,结果如图6所示。
从图6可以观察到,由于10 分类数据集样本量不够,验证集准确率波动较大。结合表5和图6B,虽然ResNet 50和ResNet 152测试集准确率均为90%,但ResNet 152验证集准确率曲线相较于ResNet 50更加平缓且波动较小。所以ResNet 152在本研究所有实验模型中是在速溶全脂奶粉颗粒图片分类上效果最好的。
2.2 速溶全脂奶粉颗粒图像分散性级别分类
速溶全脂奶粉分散性根据2.1.1节的分类可采取直接3 分类和先10 分类后按测量值3 分类的方法。表6为ResNet 152各组别预测准确率、图像预测情况和分散性分组。
从表6可以看到,样本3的错误样本被预测为了样本2;样本4的错误样本被预测为了样本5;样本7的错误样本被预测为了样本5;样本8的两个错误样本均被预测为了样本9;样本9的错误样本有一个被预测为了样本5和两个被预测为了样本10。主要出现问题的是样本8和样本9,这可能是因为这几组样本配方较为接近,部分照片可能存在拍摄区域颗粒占比不均匀等问题。计算可得,先10 分类后按测量值3 分类的预测准确率可达97.5%。图7是ResNet 152 3 分类和先10 分类后按测量值3 分类的训练集损失函数值变化曲线,此曲线对比了两种方法训练时模型收敛的过程。
观察图7可以发现,3 分类训练集损失函数值下降速度和平缓度均优于先10 分类后按测量值3 分类,且训练过程中3 分类的验证集准确率变化也更为平稳,出现波动小于先10 分类后按测量值3 分类的情况。但由于按照分散性的3 分类不同类间差异小、同一类间差异大,其最终测试集准确率并不如先10 分类后按测量值3 分类方法,表7是两者分散性测试集预测准确率。
结合表7和图7,尽管直接3 分类看似拥有平稳的下降曲线和更低的训练集损失函数值,但在最终测试集准确率预测上不如先10 分类后按测量值3 分类的方法。此外,这种先10 分类后按测量值3 分类的方法用在涉及需求多种分类方案的情况时(如本研究),除了进行分散性预测,还要进行堆积密度预测,可以仅训练一个模型在多场景应用,这可以大大减少服务器算力开销。在速溶全脂奶粉分散性预测中,本研究无论是3 分类还是先10 分类后按测量值3 分类,较ANN方法均省去了人工提取奶粉颗粒参数的步骤,进一步缩减了工作量,且最终预测效果也优于ANN方法。
2.3速溶全脂奶粉颗粒图像堆积密度级别分类
与速溶全脂奶粉颗粒图像分散性级别预测实验类似,堆积密度实验也可相同操作。表8是ResNet 152各组别预测准确率、图像预测情况和堆积密度分组。通过计算可得,松散密度3 分类测试集准确率均可达98.75%,振实密度5 分类的测试集准确率为95.00%。然而与分散性不同的是,松散直接3 分类法的测试集准确率可达100%,振实密度直接3 分类法的测试集准确率为95.00%。这主要是因为堆积密度的3 分类中等松散密度和振实密度样本为2、4~10,这样的样本分组对比分散性的样本分组,组间差异大,组内差异小,相对分组任务更简便。
本研究依然使用10 分类主要原因是单次10 分类可以同时解决分散性预测和堆积密度预测两个问题,且这样的10 分类可以减小预测区间,增加预测精准度和鲁棒性。若仅需解决堆积密度预测问题可选用直接分类方法。
结论
本实验提出了一种基于ResNet模型的速溶全脂奶粉分散性和堆积密度预测方法,可以解决实验室方步骤繁琐等问题。这种方法创新地将计算机视觉领域的深度学习方法应用到奶粉品质检测中,在大大简化检测的操作、时间和复杂度的同时保证了检测的准确性。在分散性预测中,使用ResNet 152模型可以使预测准确率达到97.50%;在松散密度预测中,使用ResNet 152模型可以使预测准确率达到98.75%;在振实密度预测中,使用ResNet 152模型可以使预测准确率达到95.00%。且鉴于输入图像尺寸小,总训练开销小,使用ResNet测奶粉品质参数是一种成本较低的检测方法。
使用深度学习方法预测奶粉品质参数可被进一步应用,除去分散性、堆积密度,还有多项粉体指标也可被应用。此外除了分类任务,回归任务可以更好地表达奶粉品质参数,此方向任务也值得进一步推进。
作者简介
通信作者:
崔晓晖教授,博士毕业于美国路易斯维尔大学,曾担任美国能源部橡树岭国家实验室研究员以及美国路易斯维尔大学讲座教授。目前担任武汉大学国家网络安全学院二级教授、江南大学未来食品科学中心陈坚院士团队特聘教授以及嘉兴未来食品研究院特聘研究员。长期从事人工智能、大数据、区块链技术在食品领域的应用与交叉研究。在国内外高水平期刊发表论文二百余篇。主持了“十三五”国家重点研发计划“食品安全大数据关键技术研究”项目,并担任“十四五”国家重点研发计划“食品全程全息风险感知及防控体系构建与应用示范”中的课题负责人。共主持食品安全、大数据、人工智能等方面的24项国家自然基金、军委装备重点基金等项目。目前担任食品安全区块链联盟负责人、国家重点研发计划首席科学家、教育部示范性软件学院联盟副理事长以及教育部跨境网络安全工程研究中心主任。曾荣获美国部级奖项4次,研究成果被美国NBC新闻、美国时代自由杂志、英国新科学家杂志以及人民网、中国青年报、央广网等国内外各类媒体报道。
第一作者:
丁浩晗博士,于2021年12月荣获新西兰奥克兰大学博士学位,随后加盟江南大学未来食品科学中心崔晓晖教授的食品计算与风味组学团队。主要研究方向为图像处理、人工智能以及工业智能化在乳制品领域的应用。曾担任《食品科学》专栏“机器学习在食品领域的研究应用”的专栏主编,并作为多个国内外知名学术期刊的审稿人。以第一作者在国内外高水平学术期刊上发表论文十余篇,还申请了5项发明专利和1项软件著作权,并多次在国际会议上进行口头或海报展示。目前担任“十四五”国家重点研发计划项目“食品全程全息风险感知及防控体系构建与应用示范”(2022YFF1101100)子课题负责人。
本文《基于残差网络模型的速溶全脂奶粉分散性与堆积密度检测方法》来源于《食品科学》2024年45卷第10期9-18页,作者:丁浩晗,沈 嵩,谢祯奇,崔晓晖,王震宇。DOI:10.7506/spkx1002-6630-20240129-262。点击下方阅读原文即可查看文章相关信息。
实习编辑:南伊;责任编辑:张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网