人大打造角色扮演能力数据集，包含85个角色和14000段对话数据

这两年，大模型智能体受到了业界和学界的广泛关注。大模型智能体要想实现成功应用，就必须能够根据提示词准确地扮演相应角色。为了提升智能体的角色扮演能力，人们打造了大量的模型和数据集。

然而，这些模型和数据集大多只关注文本语料，即仅仅测试智能体能否准确刻画特定角色的文本理解和表达能力。

在真实世界中，智能体需要感知、理解和学习模态各异的周边环境，而文本环境只是其中的一种。

为了有效地评估智能体的多模态角色扮演能力，中国人民大学高瓴人工智能学院准聘副教授陈旭和团队构建一个包含多模态信息的角色扮演能力数据集，其中包括 85 个角色、11000 张图片和 14000 段对话数据。

（来源：arXiv）

另外，他们设计了一套完整的角色扮演能力评测指标，具体包括图文匹配准确度和回复精准度等。基于以上内容，他们进一步微调了开源模型 QWen-VL-Chat。

微调之后的开源模型性能能够媲美目前最好的闭源模型，同时其透明性和可操作性为进一步提升智能体的角色扮演能力打开了新窗口。

陈旭表示，课题组之前做过一些基于大模型智能体进行社会模拟的研究。研究中，他们发现此前方法大多是基于文本语料作为载体，这与真实世界显然不太相符。

因此，他们想看看能否将多模态信息引入智能体模拟的相关研究之中。为了简化问题，他们首先关注智能体模拟的核心需求，即角色扮演。

首先，他们针对“多模态角色扮演”这一问题加以形式化，并重点讨论了需要涉及哪些模态、如何评价智能体的表现、如何从数学上严格定义智能体的输入和输出。

其次，他们针对所需要的多模态数据进行搜集和标注。通过采集影视频图片、利用 GPT 生成对话数据以及采取让真人判断数据可信赖性等手段，该团队构建出一个带有角色个性化属性信息的多模态对话数据集 MMRole-Data。

最后，他们基于所搜集到的数据集，针对开源大模型进行微调实验。

图 | 陈旭（来源：陈旭）

日前，相关论文以 MMRole：A COMPREHENSIVE FRAMEWORK FOR《MMRole：开发和评估多模态角色扮演代理的完整框架》（DEVELOPING AND EVALUATING MULTIMODAL ROLE-PLAYING AGENTS）为题发在arXiv[1]。

（来源：arXiv）

事实上，在构建 MMRole-Data 数据集之初，他们曾尝试复用先前工作之中的开源角色身份信息，并打算采用简单的提示词来驱动 GPT-4 生成对话，但结果并不令人满意。

经过讨论之后，他们决定针对整个流程进行彻底的重新设计，这些设计涵盖角色的类别设计与选取、角色身份的提炼与生成、图像的收集与标注以及最终对话的生成等。

此外，令他们感到惊喜的是，此次构建的智能体 MMRole-Agent 在扮演中国古代著名角色（例如李白和杜甫）时，能够恰当地使用文言文格式进行交互，并能结合人物经历和性格，围绕图像创作出颇有韵味的诗句。

这说明通过精心设计的提示词工程或微调训练，现有的多模态大模型已能很好地胜任多模态角色扮演，甚至超越了大多数非专业的人类扮演者。

该研究属于大模型智能体的核心研究范畴，具有广阔的应用场景。例如：

首先，可用于情感陪伴机器人。

该研究所涉及的多模态角色扮演能力将使 AI 更加准确地感知用户情绪（例如通过人的面部表情和肢体动作进行感知），进而提供更为多样化和个性化的反馈。

其次，可用于基于智能体的模拟。目前大模型智能体的重要应用之一是做各类场景的模拟，例如社会模拟、网络用户行为模拟、历史事件模拟等。

假如大模型可以感知多模态信息，那么模拟结果将更加真实，可应用场景也将被极大扩宽。

再次，可用于多模态大模型应用。该研究所涉及的多模态角色扮演能力能够有效提升大模型的个性化水平，从而让多模态大模型应用更加个性化和智能化。

而基于本次成果，他们将探索如何更精确地预测角色的言行举止而非仅仅提供娱乐性质的互动体验。同时，他们也将探索如何将音频和物理动作等更多形式的输入输出模态融入到角色扮演之中。

参考资料：

1.https：//arxiv.org/pdf/2408.04203

运营/排版：何晨龙

人大打造角色扮演能力数据集，包含85个角色和14000段对话数据

真把自己「当个人」的AI，扫去了我的社交贫困

MIT开发新方法，无需从头训练机器人即可执行复杂任务

数据不够致Scaling Law撞墙？CMU和DeepMind新方法让VLM生成记忆

多模态大语言模型空间智能新探索：单图或一句话，生成3D建模代码

AIGC时代，联想的野望和收获

「停止雇佣人类」广告牌爆火，OpenAI放惊人言论：每月2000刀，AI淘汰人类！

AGI-Eval团队：AI视频生成模型年度横评，国产模型仍然领先！

奥特曼惊呼奇点临近！95%人类饭碗将被AI抢走，2028年百万AI上岗

合成数据的突破: 从降低迎合性偏差到认知自主性的重构

2024年，AI让哪些行业迎来了颠覆与新生？

首个由o1 pro指导诈骗案开庭！原告九成资产被骗，利用AI绝地反击

真实数据的还原与多模态融合是To Real面临的很大挑战

黄子韬被人工智能暴露家庭地址和siri生气了

这个机器人突然没大没小

多模态长文档新基准来了！20多项任务覆盖理解推理定位

乌军拟利用无人机海量视频训练AI模型辅助战场决策，有何作用？

全球首次，机器人部队歼灭一支俄军小队！人类战争正在被颠覆！

没完了？世卫组织要求中国提供新冠溯源数据！该查的你不查

制作五年、众筹50w！一款把官方都唬住的mod，开年拉了坨大的

漫威英雄们大战人工智能奥创！《复仇者联盟2》

人大打造角色扮演能力数据集，包含85个角色和14000段对话数据

真把自己「当个人」的AI，扫去了我的社交贫困

MIT开发新方法，无需从头训练机器人即可执行复杂任务

数据不够致Scaling Law撞墙？CMU和DeepMind新方法让VLM生成记忆

多模态大语言模型空间智能新探索：单图或一句话，生成3D建模代码

AIGC时代，联想的野望和收获

「停止雇佣人类」广告牌爆火，OpenAI放惊人言论：每月2000刀，AI淘汰人类！

AGI-Eval团队：AI视频生成模型年度横评，国产模型仍然领先！

奥特曼惊呼奇点临近！95%人类饭碗将被AI抢走，2028年百万AI上岗

合成数据的突破: 从降低迎合性偏差到认知自主性的重构

2024年，AI让哪些行业迎来了颠覆与新生？

首个由o1 pro指导诈骗案开庭！原告九成资产被骗，利用AI绝地反击

真实数据的还原与多模态融合是To Real面临的很大挑战

黄子韬被人工智能暴露家庭地址 和siri生气了

这个机器人突然没大没小

多模态长文档新基准来了！20多项任务覆盖理解推理定位

乌军拟利用无人机海量视频训练AI模型辅助战场决策，有何作用？

全球首次，机器人部队歼灭一支俄军小队！人类战争正在被颠覆！

没完了？世卫组织要求中国提供新冠溯源数据！该查的你不查

制作五年、众筹50w！一款把官方都唬住的mod，开年拉了坨大的

漫威英雄们大战人工智能奥创！《复仇者联盟2》

黄子韬被人工智能暴露家庭地址和siri生气了