这两年,大模型智能体受到了业界和学界的广泛关注。大模型智能体要想实现成功应用,就必须能够根据提示词准确地扮演相应角色。为了提升智能体的角色扮演能力,人们打造了大量的模型和数据集。
然而,这些模型和数据集大多只关注文本语料,即仅仅测试智能体能否准确刻画特定角色的文本理解和表达能力。
在真实世界中,智能体需要感知、理解和学习模态各异的周边环境,而文本环境只是其中的一种。
为了有效地评估智能体的多模态角色扮演能力,中国人民大学高瓴人工智能学院准聘副教授陈旭和团队构建一个包含多模态信息的角色扮演能力数据集,其中包括 85 个角色、11000 张图片和 14000 段对话数据。
另外,他们设计了一套完整的角色扮演能力评测指标,具体包括图文匹配准确度和回复精准度等。基于以上内容,他们进一步微调了开源模型 QWen-VL-Chat。
微调之后的开源模型性能能够媲美目前最好的闭源模型,同时其透明性和可操作性为进一步提升智能体的角色扮演能力打开了新窗口。
陈旭表示,课题组之前做过一些基于大模型智能体进行社会模拟的研究。研究中,他们发现此前方法大多是基于文本语料作为载体,这与真实世界显然不太相符。
因此,他们想看看能否将多模态信息引入智能体模拟的相关研究之中。为了简化问题,他们首先关注智能体模拟的核心需求,即角色扮演。
首先,他们针对“多模态角色扮演”这一问题加以形式化,并重点讨论了需要涉及哪些模态、如何评价智能体的表现、如何从数学上严格定义智能体的输入和输出。
其次,他们针对所需要的多模态数据进行搜集和标注。通过采集影视频图片、利用 GPT 生成对话数据以及采取让真人判断数据可信赖性等手段,该团队构建出一个带有角色个性化属性信息的多模态对话数据集 MMRole-Data。
最后,他们基于所搜集到的数据集,针对开源大模型进行微调实验。
日前,相关论文以 MMRole:A COMPREHENSIVE FRAMEWORK FOR《MMRole:开发和评估多模态角色扮演代理的完整框架》(DEVELOPING AND EVALUATING MULTIMODAL ROLE-PLAYING AGENTS)为题发在arXiv[1]。
事实上,在构建 MMRole-Data 数据集之初,他们曾尝试复用先前工作之中的开源角色身份信息,并打算采用简单的提示词来驱动 GPT-4 生成对话,但结果并不令人满意。
经过讨论之后,他们决定针对整个流程进行彻底的重新设计,这些设计涵盖角色的类别设计与选取、角色身份的提炼与生成、图像的收集与标注以及最终对话的生成等。
此外,令他们感到惊喜的是,此次构建的智能体 MMRole-Agent 在扮演中国古代著名角色(例如李白和杜甫)时,能够恰当地使用文言文格式进行交互,并能结合人物经历和性格,围绕图像创作出颇有韵味的诗句。
这说明通过精心设计的提示词工程或微调训练,现有的多模态大模型已能很好地胜任多模态角色扮演,甚至超越了大多数非专业的人类扮演者。
该研究属于大模型智能体的核心研究范畴,具有广阔的应用场景。例如:
首先,可用于情感陪伴机器人。
该研究所涉及的多模态角色扮演能力将使 AI 更加准确地感知用户情绪(例如通过人的面部表情和肢体动作进行感知),进而提供更为多样化和个性化的反馈。
其次,可用于基于智能体的模拟。目前大模型智能体的重要应用之一是做各类场景的模拟,例如社会模拟、网络用户行为模拟、历史事件模拟等。
假如大模型可以感知多模态信息,那么模拟结果将更加真实,可应用场景也将被极大扩宽。
再次,可用于多模态大模型应用。该研究所涉及的多模态角色扮演能力能够有效提升大模型的个性化水平,从而让多模态大模型应用更加个性化和智能化。
而基于本次成果,他们将探索如何更精确地预测角色的言行举止而非仅仅提供娱乐性质的互动体验。同时,他们也将探索如何将音频和物理动作等更多形式的输入输出模态融入到角色扮演之中。
参考资料:
1.https://arxiv.org/pdf/2408.04203
运营/排版:何晨龙