非法野生动物贸易正成为生物多样性面临的最大威胁之一。它不仅威胁物种的生存,破坏生态平衡,还对公共卫生安全构成风险。而互联网凭借着其匿名性和便捷性,正在成为⾮法野⽣动物贸易的重要渠道。
国际爱护动物基⾦会(IFAW)长期致⼒于保护濒危物种,努⼒遏制⾮法贸易。⾃2004年起,IFAW就开始关注互联⽹上的⾮法野⽣动物贸易现象,并与执法部门及互联⽹企业合作,开展⽹络野⽣动物犯罪相关研究,提供有关打击⽹络⾮法贸易的能⼒培训,建⽴⾮法野⽣动物贸易关键词库,举办野⽣动物保护主题公众及⽤户教育活动,团结各⽅⼒量共同打击⽹络野⽣动物贸易。随着互联⽹监管⼒度的加强,⾮法贸易者开始采取更为隐蔽的⼿段,不再在⼴告中提到物种名称或者关键词,⽽是仅使⽤图⽚或者视频⼴告来逃避监测和屏蔽。因此使⽤传统的关键词检索⽅式难以发现⾮法贸易信息,⽽单纯使⽤⼈⼯在海量的⽹络⼴告中鉴别野⽣动物制品,不仅准确率不⾼,⽽且需要耗费⼤量时间。
⾮法贸易者采用隐蔽⼿段进行广告宣传
为了应对这一挑战,IFAW与百度飞桨携手,开发了利用人工智能技术打击非法野生动物制品贸易的“濒危物种AI守护官”1.0版。濒危物种AI守护官”1.0版可以识别象、穿山甲、虎等三种野生动物的制品。野生动物制品的⾮法贸易是对濒危物种的⾸要威胁,但此前市⾯上进⾏物种识别的AI⼯具主要是⽤于识别活体的野⽣动物,没有能够识野⽣动物制品的。这⼀⽅⾯是因为制品的训练数据相⽐于活体更加难以获得,另⼀⽅⾯也是由于制品的样式实在过于多样化,并且与⽟⽯、塑料、⽊材等材质的制品外形⾮常类似。2023年,IFAW与百度再度合作,在飞桨的强大技术支持下,成功完成了“濒危物种AI守护官”2.0版本的开发。2.0版本的守护官识别范围扩大为9类野生动物制品和20种活体陆龟,识别准确度和速度也大大提升。
场景难点
在开发利⽤⼈⼯智能技术打击⾮法野⽣动物制品贸易的“濒危物种AI守护官”项⽬中,需要攻克的关键难点包括:
数据收集与标注难点:
非法野生动物制品的分类多,可供训练的图片量较少。
数据标注过程不仅需要⼤量人力成本,更需要专业知识和经验。
不同类别数据数量相差⼤,⾮关注类图⽚较多,⽽野⽣动物制品类图⽚较少。
- 图像识别技术挑战:
- 野⽣动物制品的外观差异⼤,形状、纹理、颜⾊变化多样,识别难度⼤。
- 野⽣动物制品可能与仿制品外形和纹理极其相似,即使专业⼈员也容易误识别。
- 对于部分加⼯或雕刻后的制品,其原始特征可能被改变或遮挡,⽽导致难以识别。
- 快速推理要求:
- 需快速筛选出互联⽹上的野⽣动物制品图⽚,以减少⾮法交易的发⽣和扩散。
因此在搭建野⽣动物制品图像分类系统时,技术上⾯临着⼏个显著的挑战:
1. 使⽤较少的数据训练出准确且泛化能⼒强的野⽣动物制品识别模型。
2. 野⽣动物制品图像分类系统在保证准确识别的同时,需要满⾜⾼效率推理的需求,以便快速在众多图⽚中识别出野⽣动物制品。
方案设计
该任务⼀共需要识别29类野⽣动物及其制品,但是需要同时区分野⽣动物的仿制品或者完全是⾮关注的类别,因为项目组希望模型可以忽略这些类别,⽽把真正野⽣动物及其制品的图⽚召回并做分类。为了使⽤同⼀个模型解决这两个问题,项目组将野⽣动物制品的仿制品和⾮关注的图像融合为了第30类,所以这个任务被抽象为了⼀个30类的图像分类任务。下图中左图为传统上的两阶段解决思路,右图为项目组的⽅案。
选择好⽅案后,项目组使⽤了星河零代码产线研发模型。星河零代码产线集成了PaddleX的多种先进图像分类模型,并提供了两种适⽤于图像分类的主要产线:通用图像分类和⼤模型半监督学习-图像分类。鉴于野⽣动物制品的数据量较少、标注成本⾼和识别难度⼤,⼤模型半监督学习图像分类产线可以进⼀步调优模型, 解决通⽤图像分类在这些问题上的局限。同时,通过使⽤云端的V100多卡算⼒,项目组能够以低成本和低门槛有效解决野⽣动物制品的识别难题。
模型选型:PaddleX 提供了 3 档 9 种 SOTA 图像分类模型,包含⾼精度模型、⾼效率模型、精度-效率均衡模型,具体模型如下表所示。
考虑到在该场景的模型需要满⾜快速推理的需求,项目组根据提供的模型精度表选择了⾼效率模型作为待选模型⽅案,在⾼效率的三个模型中, PP-LCNet_x1_0 效率更⾼,所以项目组将其作为了base迭代模型。
零代码开发
数据校验
在零代码产线中⽀持数据划分及数据校验。经过数据校验项目组可以得到如下结果,包含了数据集在训练集、验证集抽样的样本带标签的可视化效果,以及数据集的样本类别分布图。
模型训练/调优
众所周知,超参数对模型精度的影响⾮常⼤,星河零代码产线将影响最⼤的⼀些超参数在前端展示了出来,⽅便⽤户调试。配置好参数后,可⼀键提交训练。
在这个过程中,项目组根据这个野⽣动物及制品的数据做了很多优化,最终将模型的精度从80.3%优化到了86.5%。
为了进⼀步提升模型的精度,项目组在此基础上使⽤了星河零代码产线的⼤模型半监督学习-图像分类产线, 最终模型精度为92.5%,较之前提升了6个百分点,达到了上线效果。该任务的⼤模型半监督学习-图像分类流程整体如下图:
整个过程中的精度优化结果如下图所示:
模型部署与效果展示
星河零代码产线打通了模型部署流程,可以选择标记过的模型权重,⼀键部署为在线服务 API,不仅可以在其他联⽹设备中调⽤ API,也⽀持通过在线体验应⽤单图测试模型效果。
如需将模型部署到离线设备上,也可获取离线部署包。根据其中的示例⽂档即可在⾃⼰的设备上实现快速部署。
用户声音
2020年,“濒危物种AI守护官”1.0版正式上线以来,已累计协助筛查近36万图片信息,准确识别出21271幅目标非法野生动物制品图片,促成7853条非法贸易广告被删除。这一工具帮助项目组锁定了很多传统方法无法发现的信息,大大提高了工作效率和准确性,更好的支持执法和互联网平台监管等相关工作。2024年“濒危物种AI守护官”2.0版部署成功。希望升级后的守护官能帮助项目组识别更多非法野生动物贸易,在保护濒危物种中发挥更重要的作用。
精彩课程预告
为了让⼩伙伴们更快速地了解应⽤范例教程,百度研发⼯程师将于8⽉8⽇(周四)19:00为⼤家深度解析从数据准备、数据校验、模型训练、性能调优到模型部署的开发全流程开发难点,从场景、产线、⼯具完成产业实操体验。赶快扫描下⽅海报⼆维码预约报名!
通⽤图像分类产线在线体验地址:
https://aistudio.baidu.com/community/app/100061
模型开发云端体验地址:
https://aistudio.baidu.com/pipeline/mine
PaddleX开源本地版体验地址:
https://github.com/PaddlePaddle/PaddleX
获取更多技术内容~