苹果的人工智能研究揭示了一种模型,将把对Siri的命令更快、更高效地转换为文本,便于大型语言模型解析。

打开网易新闻 查看更多图片

在即将于6月的WWDC公开发布其人工智能计划之际,苹果进行了人工智能研究。到目前为止,苹果已经发布了各种各样的研究,包括一个图像动画工具。

最新的研究论文由VentureBeat首次发布。这篇论文详细介绍了一种称为ReALM(Reference Resolution As Language Modeling)的方法。

根据模糊的语言输入执行任务的计算机程序被称为参考解析。这是一个复杂的问题,因为计算机不能像人类那样解释图像,但是苹果可能已经找到了一种使用LLM来简化解析的方法。

当与Siri等智能助手交谈时,用户可能会参考许多上下文信息进行交互,如背景任务、显示的数据和其他非对话实体。传统的解析方法依赖于非常庞大的模型和图像等参考资料,但是苹果通过将所有内容转换为文本来简化解析。

苹果发现,其最小的ReALM模型表现与GPT-4类似,但参数更少,因此更适合设备上使用,例如 iPhone。增加ReALM中使用的参数使其明显优于GPT-4。

这种性能提升的原因之一是GPT-4依赖于图像解析来理解屏幕上的信息。大部分图像训练数据是基于自然图像而不是充满文本的人工代码网页,因此直接的OCR效率较低。

打开网易新闻 查看更多图片

将图像转换为文本使ReALM无需使用这些先进的图像识别参数,从而使其更小、更高效。苹果还通过包含约束解码或使用简单的后处理功能来避免错误。

例如,如果你浏览网站并决定想要打电话给某个企业,只需说“打电话给企业”,Siri就会解析你的意图并找到页面上标记为企业号码的电话号码,并自动拨打,无需进一步提示用户。

苹果正在努力在2024年的WWDC发布一项全面的人工智能战略。一些传言表明,该公司将依靠更小的设备上的模型来保护隐私和安全,同时为问题更多的离线处理许可其他公司的LLM。