最新发表在 arXiv 的研究论文指出,包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型,处理用户的多模态输入(例如一起输入图片和文本内容)之后,输出结果并不安全。
一、技术背景与测试性能
技术发展
多模态AI模型能同时处理和理解多种类型的数据(如文本、图像、声音等),但这种模型的复杂性也增加了安全隐患。
这些模型通常需要大量数据来训练,这可能导致数据偏见、泄露隐私信息及被操纵用于生成误导性或有害的内容。
SIUO跑分测试
SIUO(西柚)跑分测试是专门设计来评估AI系统的安全性和可靠性的一种方法。该测试涵盖多个安全维度,例如模型对抗攻击的鲁棒性、误判率和伦理决策能力。
在最近的SIUO跑分测试中,15个AI模型中有12个未能达到50%的得分标准,这表明大多数模型在安全性方面存在严重缺陷。
-
不安全模型的风险
不安全的AI模型可能被利用来执行恶意活动,如伪造内容、侵犯版权、实施欺诈等。
这些模型可能会在无意中传播偏见和歧视,因为它们可能从训练数据中学习到这些无益的关联。
影响范围
安全问题影响的不仅是模型的直接用户,还可能对整个社会造成负面影响,特别是在涉及重要决策的场景中,如法律、医疗和金融等领域。
公众对AI的信任度可能因模型的安全漏洞而降低,从而阻碍AI技术的进一步发展和应用。
改进模型设计与训练
加强对AI模型设计的透明度和可解释性,确保模型的决策过程可以被监控和理解。
优化数据选择和预处理步骤,减少模型训练中的数据偏见和过拟合问题。
持续的安全评估与监管
引入持续的安全审核和压力测试,如定期进行SIUO类跑分测试,及时发现并修正潜在的安全隐患。
推动制定更为严格的行业标准和法规,要求所有发布的AI模型必须通过安全性评估。
版权声明:图片和内容来源互联网