《现代电影技术》｜陈焱松等：面向“生成式涌现”的虚拟现实（VR）电影技术路径研究

本文刊发于《现代电影技术》2026年第4期

专家点评

王萃

正高级工程师

中国电影科学技术研究所（中央宣传部电影技术质量检测所）高新技术研究处处长

虚拟现实（VR）电影正处于技术与内容协同创新的发展阶段，人工智能、图形渲染、交互设计等关键技术持续突破，经典电影IP改编与原创内容同步推出，在提升观影流畅度和沉浸感临场感的同时，不断丰富完善VR电影内容生态。以人工智能生成内容（AIGC）为代表的人工智能（AI）技术正与VR电影实现深度融合，通过创新生产方式、增强技术能力、升级交互机制，有效提升艺术表现和沉浸体验，推动VR电影向智能化、个性化、多元化发展演进。在规范、安全、可控的框架下，现代智能科技将持续赋能电影行业，催生更具创新活力的影像语言，积极回应时代高品质文化需求。《面向“生成式涌现”的虚拟现实（VR）电影技术路径研究》一文探讨了VR电影的涌现机制，重点聚焦算法驱动的生成式涌现，为理解与构建生成式涌现的VR电影叙事形态提供了路径参考。论文侧重理论分析，期待后续结合VR电影实际案例开展技术验证，推动理论向实践有效转化和二者有机结合，以创新技术应用驱动行业发展进步。

基金项目

国家社科基金艺术学重大项目“中国网络视听壮大主流价值与文化强国建设研究”（25ZD07）。

作者简介

陈焱松

博士，北京师范大学艺术与传媒学院数字媒体系讲师，主要研究方向：数字影像技术与艺术、AI生成艺术。

刘了箬

北京师范大学艺术与传媒学院硕士研究生在读，主要研究方向：数字媒体技术、VR叙事。

摘要

为探索虚拟现实（VR）电影在生成式人工智能（GAI）技术驱动下的媒介演进与技术升级路径，本文通过理论分析与案例实证，界定出规则驱动的“体验式涌现”与算法驱动的“生成式涌现”两种机制，同时基于二者的差异与二元关系分析，构建出“生成式涌现”的 “故事世界规则系统+观众交互机制” 双维度技术实现路径。研究表明，“生成式涌现”的实现依赖规则系统的开放动态自运行与观众交互的连续行为扰动深度介入叙事生成。本文明晰“生成式涌现”VR电影的技术理论逻辑与层级架构，为VR电影从“故事讲述”（Storytelling）预设叙事形态向“故事生存”（Storyliving）的涌现叙事形态的转型提供技术支撑与实践参考。

关键词

虚拟现实电影；生成式人工智能（GAI）；生成式涌现；交互叙事

引言

作为高度依赖媒介技术的影像系统，电影形态变化很大程度受到底层技术的延展与推动，甚至可以说媒介技术系统的迭代升级产生出电影新的观看方式与结构特征。在早期阶段，最初的无声电影依赖单一的视觉记录能力；有声电影则依赖录音技术的引入；彩色电影基于三色分片技术而实现红、绿、蓝三通道分离曝光与重合印制[1]。此后，电影在画幅呈现方式上，经历了从标准画面到宽银幕、穹幕等系统的逐步拓展[2]，并在视听维度不断扩展的基础上，进一步引入多模态感官的模拟。直到20世纪末，电影进入全面数字化阶段：数字摄影系统（如Sony HDC⁃950、ARRI ALEXA、RED EPIC等）的出现提供高清分辨率与实时监看能力；非线性编辑系统（如Avid Media Composer、Adobe Premiere）则实现非顺序时间线操作与任意片段组合；计算机图形学（CG）与视觉特效（VFX）技术支持虚拟角色生成、虚拟场景建构与合成层叠操作，突破传统拍摄条件的物理限制[3]；虚拟摄制（Virtual Production）技术则通过在摄影机上部署红外标记点，结合高精度空间追踪网络，实时获取摄影机在三维空间中的六自由度（6DoF）位置信息，包括三个平移维度（X、Y、Z）和三个旋转维度（俯仰、水平、倾斜）[4]。此后，在20世纪90年代末出现了完全脱离物理摄影设备的拍摄模式，即引擎电影（Machinima），其基本方式是将渲染引擎或虚拟三维引擎环境作为图像生成平台，利用已有的场景、模型与动画资源，在系统中直接设定虚拟摄影机的轨迹、视角与节奏，通过屏幕录制或引擎原生输出功能完成影像采集。

虚拟现实（VR）电影正是电影色彩、声音、视域拓展、多感官模拟、数字建构与实时渲染引擎技术持续演进并最终整合的结果，是电影媒介本体在技术维度的延展。尤其是伴随着生成式人工智能（GAI）、实时引擎与交互技术的迭代式发展，VR电影正在从依赖预设叙事的传统制作模式，转向一种在运行中融合动态生成与观众参与的创作形态。在此过程中，涌现（Emergence）机制构成了VR电影的重要特征，推动叙事内容随着交互进程持续演变与生长。正如笔者曾指出，从更广阔的人工智能生成内容（AIGC）技术发展的角度着手，VR媒介是人工智能（AI）电影的适用媒介之一[5]，而涌现机制成为VR电影的关键技术特质，使叙事内容能够随交互过程不断演化。

VR电影中的涌现机制：从规则驱动到算法驱动

涌现（Emergence）作为一种系统行为，最初源于系统科学中对复杂系统自组织行为的研究，其基本特征包括整体性不可还原、运行结果不可完全预设，以及系统内部元素间通过局部交互生成全局结构与性质[6]。VR电影区别于传统电影的根本特征在于涌现的技术实现条件与计算逻辑，其中的观众观察路径、行为选择与注意方向不再是被动响应剪辑的结果，而成为系统输入的一部分。系统根据观众的位置、注视点或其他动作行为，在引擎内部触发预设内容或动态生成反馈。这种机制呈现出涌现的关键特质，即影像内容与观众行为在特定计算逻辑下形成联动变化结果。依据底层技术逻辑的不同，当前的涌现结构可划分为两种典型类型：一种是规则驱动的“体验式涌现”，另一种是算法驱动的“生成式涌现”。

2.1 规则驱动的“体验式涌现”

该类型涌现以预设规则与空间布置为核心逻辑，广泛应用于交互叙事与游戏设计中。以亨利·詹金斯（Henry Jenkins）对游戏的分析为代表[7]，其基本原理是通过构建一套可遍历的世界状态、触发节点与响应机制，使观众的行为在系统范围内激活不同事件组合。虽然观众行为具有表面上的自由度，但系统响应在设计阶段已被预先设定在规则与空间框架之中，涌现结构仅仅体现为多路径的不同调用与片段组合，叙事的生成边界清晰可控。因此，该类型更接近“弱涌现”，即系统结果虽由观众行为激活，但均源自规则框架内的有限可能。2025年后，获得国家电影局“龙标”认证的严格意义VR电影中，这一机制已经形成成熟实践。《唐宫夜宴》通过设定交互与叙事规则，让观众自主探索生成差异化沉浸体验[8]；《木兰2125》以眼动追踪、手势识别触发剧情分支，实现多元叙事走向[9]；《秦潮觉醒》依托团队协作规则，让观众分工探索解锁差异化反馈[10]。三部VR电影均以清晰的规则驱动实现了“体验式涌现”。

2.2 算法驱动的“生成式涌现”

随着GAI技术的发展，特别是大语言模型（LLM）与机器学习（ML）系统的应用，涌现叙事出现技术层级的跃迁。在此机制中，系统不依赖预定义的内容库或固定规则组合，却在运行中实时生成新的文本、情节与反馈路径[11]。其生成过程具有连续性、不可遍历性与实时适应性，叙事结构不再是固定空间的组合，而成为模型推理与观众输入间的动态响应产物。该结构体现为“强涌现”，即系统表现无法由设计者完全预设，其结果具有真正的新颖性与不可遍历性。如斯坦福大学推出的虚拟小镇（Smallville）通过多个大语言模型智能体（Agent）构成，每一个智能体基于记忆、反思与行动的规划机制在共享环境中持续行动，从而持续产生小镇中的交互事件序列[12]。此外，面向公众的生成式对话与叙事平台Character.AI、“筑梦岛”等同样采用基于LLM的推理机制生成角色回应与情节展开，如“筑梦岛”引入大量网络文学领域的语料分布特征，使生成系统在运行过程中结合角色设定、情节提示与用户输入展开连续叙事生成，并通过持续的上下文维护与历史信息压缩机制，让角色行为与故事走向在交互过程中动态更新[13]。这些案例为VR电影未来实现算法驱动的“生成式涌现”提供了参照。

2.3 两种涌现机制与VR电影的关联

整体而言，规则驱动的“体验式涌现”以空间探索与规则激活的涌现形态为主，为VR电影提供了重要的空间叙事参照；算法驱动的“生成式涌现”是以机器学习（ML）驱动的涌现化生成，指向当下VR影像在新技术条件下所面向的、更具开放性与不可预期性的叙事方向。二者虽在技术实现与结果表现上存在差异，但在结构层面均可还原为“规则系统-用户行动”的二元关系。一方面，规则系统对应VR电影的“故事世界”，包括空间结构、物理逻辑、叙事约束条件及其背后的算法或模型机制；另一方面，用户行动对应VR电影的“观众”，包括其交互行为、输入形式及其在系统中的含义等。在这种“规则系统-用户行动”的二元关系下，第一种“体验式涌现”中，故事世界作为稳定结构先于观众存在，观众行动主要承担触发功能，涌现表现为路径差异与体验组合；而在第二种“生成式涌现”中，故事世界不再是静态前置结构，而随着观众输入与系统推理被不断更新与重构，观众行动参与到规则运行本身，涌现内容不可遍历。

对应至VR电影中，“体验式涌现”机制与“生成式涌现”机制体现为2种截然不同的技术实现路径。一方面，前者是相对封闭的系统结构，VR电影的“故事世界”依赖于预渲染内容与静态调度逻辑。所有图像素材、角色动作、交互节点及其组合方式均在体验前通过传统计算机图形学（CG）动画或360°立体视频等方式预设完成，系统运行过程中仅执行素材读取与状态切换操作。“观众”的空间移动或手部交互仅作为触发已设路径或内容节点的信号，不影响叙事结构本体，也无法动态生成内容。在视觉控制方面，该结构主要通过光线、声音等空间结构引导机制控制观众视线流向。另一方面，“生成式涌现”机制构建于开放型系统结构之上，VR电影的“故事世界”依托实时渲染引擎与AI动态生成模块实现内容运行时构建。系统持续采集“观众”在空间中的多维行为数据，包括位置、朝向、动作、语音及注视点等，将其转化为内部指令，驱动角色响应、环境变化及叙事推进。该机制具备实时状态感知能力与逻辑判断能力，能依据当前用户行为或场景状态调用或生成新资产，实现内容的即时更新与重构。该机制不设固定视点或轨迹，主要通过交互触发、场景演化与事件嵌套引导用户在全景空间中自主探索叙事路径，强调系统运行中的动态演化能力。

因此，本文聚焦于“生成式涌现”机制，即以AI实时计算、持续更新与动态生成反馈为核心特征的6DoF开放型系统。所谓的“生成式涌现”是在“体验式涌现”的基础上，沿着规则系统从静态封闭走向动态开放，用户行动从离散触发变为连续影响的结构性跃升。

VR电影“生成式涌现”的技术结构路径

从“体验式涌现”向“生成式涌现”的转变，依赖于规则系统和交互机制的同步调整。在规则系统层面，故事世界的运行规则由静态封装转为可动态更新的状态模型；在交互层面，观众的行为从对预设节点的触发，转为持续作用于系统的变量，并对演化过程产生实时影响（图1）。下文将从规则系统与观众输入两个方面具体分析“生成式涌现”的实现路径。

图1　VR电影“生成式涌现”的技术结构路径

3.1 “故事世界”的规则系统：从静态封闭到动态开放

在“生成式涌现”的VR电影中，规则系统需要从依赖观众触发事件的静态结构，转变为能自行更新状态并持续运行的系统。为实现这一转变，系统需在架构层面引入三类基础能力：一是明确的世界状态表示，将角色、物体、空间位置及其属性以可查询的数据结构进行统一管理；二是具备决策能力的智能体系统，通过多智能体框架，使角色能基于当前状态选择和执行行动；三是持续运行的仿真更新过程，以时间或事件驱动的方式，周期性更新世界状态与智能体行为，不依赖观众交互作为触发条件。

3.1.1 可计算的世界状态

一个动态开放的智能世界系统需具备持续维护与更新“世界状态”的能力。这要求对虚拟世界构建逻辑进行底层改写。当前可行的实现路径是建立一个结构化的世界状态模型，该模型具备三层要素：程序化内容生成的几何空间结构；对象语义与状态属性；可供智能体查询推理的表达结构。

（1）在几何层面，系统空间结构通过程序化内容生成（Procedural Content Generation, PCG）机制构建[14]。PCG 是一种基于算法逻辑自动构造虚拟内容（如地图、结构、事件节点等）的生成机制，用以替代人工构图。开发者可基于两类主流建模逻辑进行构图。一是基于规则的生成（Rule⁃based Generation），即通过一组形式化的“如果-那么”规则（如“每个房间需连接两个区域”“关键区域之前必须出现钥匙门”）约束空间单元与连接条件的生成顺序与逻辑一致性，适用于控制生成内容的结构合法性与任务流程引导性。二是基于语法的生成（Grammar⁃based Generation），则使用上下文无关文法（Context⁃Free Grammar, CFG）定义空间与事件的递归构建规则。例如通过文法定义“起点-走廊-房间-终点”的结构模板，生成具有层次结构和复杂连接关系的地图。这两种生成机制广泛用于Rogue⁃like游戏中，其核心特征包括：地图、任务与状态组合在每次运行时动态变化；状态演化不可回退；叙事路径不可预测，强调每次运行均为唯一性。借用该逻辑，世界系统得以在每轮观众体验中构建非重复的空间布局与交互事件路径。

（2）在语义层面，系统需为每一场景对象指定类型标签与状态属性，用于行为判断与环境反馈。标签用于定义对象的语义类别，如“非玩家角色（NPC）”“道具”“交互体”；属性则用于记录对象当前状态，如“锁定”“焦虑”“使用中”。所有语义信息需以结构化方式组织，主要分为2种机制。第一种是场景图（Scene Graph），通过图结构表达场景中对象之间的空间关联与层级组织关系。该结构以对象、空间单元等为节点，通过表示“包含”“支撑”“遮挡”等空间关系的边，刻画对象在场景中的结构性位置，从而为感知理解与空间推理提供基础[15]。第二种是知识图谱（Knowledge Graph），用于表达对象之间的非空间语义关系与状态演化路径，结构上通常采用“主语-谓语-宾语”的三元组形式，对对象属性与事件进行结构化描述，如“角色A-情绪-焦虑”“门-状态-锁定”。类似的关系谓词式结构也被用于场景语义建模中，用以统一表示对象及其关系，支持结构化语义表达。例如，有学者提出了一种结合传统知识工程和大型语言模型的场景驱动多模态知识图谱（Scene⁃MMKG）构建框架[16]，知识图谱通过知识增强机制（Knowledge Enhancement）将场景描述（Scenario Descriptions）与虚拟语言导航（Virtual Language Navigation）等任务进行语义关联，引入统一的场景知识注入框架用于知识表示，实现了场景语义的统一建模与任务支撑。

（3）所有语义与状态信息被统一组织为一个结构化状态模型，供系统内部模块访问与更新。智能体行为模块可直接读取该模型中的状态快照，判断环境条件与交互策略。例如，当系统状态显示角色A位于“酒吧”，其朝向为角色B，且角色B当前状态为“持有信件”，具备“好奇”行为属性的智能体可基于这一信息生成“靠近-观察-尝试对话”等行为序列，不依赖外部交互或预设脚本。

3.1.2 可决策的角色行为

在开放动态的智能世界中，自主智能体是推动状态变化与事件生成的基本行为单元。区别于依赖预设脚本的静态对象控制方式，系统需引入具备感知、推理、决策与行动能力的自主智能体，并通过统一架构支持其全过程运行。智能体行为的生成通常遵循“感知-规划-执行”架构，具体包括：（1）感知模块。从上述结构化世界状态模型中读取语义与空间状态，为行为规划提供输入。（2）规划模块。即智能体的决策核心，依据系统复杂度与需求，该模块可采用不同的行为生成机制。（3）执行模块。将规划结果转化为系统指令、调度动画、音效与交互模块。在整个智能体系统架构中，规划模块是行为生成的核心，其所采用的机制类型直接决定了智能体的决策模式与行为表现。根据不同的控制结构与认知建模深度，常见的行为生成机制包括以下3类。

（1）有限状态机（FSM）与行为树（BT），适用于逻辑预定义清晰、状态转移关系稳定的任务场景，如巡逻、基础对话与条件响应等。该类方法通过显式状态枚举或层级行为组合，将智能体行为约束在可预测的控制结构内，具备实现成本低、运行效率高与可解释性强等优势，但其行为灵活性与对复杂情境的适应能力相对有限。

（2）信念-愿望-意图（BDI）模型，强调AI智能体的认知建模，支持其根据信念状态与目标偏好进行理性规划，常用于任务协作与应急响应场景。如Antakli等[17]提出答案集编程（ASP）驱动的BDI规划框架（HumanSim），通过ASP统一建模环境与行为逻辑，使智能体能在3D虚拟环境中实现动态意图选择与行为映射，并支持反应式与前瞻式规划。

（3）生成式语言智能体，通过集成LLM与记忆机制，支持智能体以自然语言形式生成行为计划，适用于模拟具有语言交互与反思能力的复杂社会行为系统。尽管该范式在表达灵活性与社交拟真度方面具备优势，但在行为生成过程中仍依赖语言建模与上下文关联，缺乏可验证的因果建模框架与长期语义一致性保障。现有研究也开始从理论层面应对生成式语言智能体的行为一致性与可控性挑战，如Conv⁃BDI框架通过将BDI架构扩展至对话领域，为这类智能体提供了意图管理与因果规划的概念模型[18]。

上述“感知-规划-执行”架构作为单一智能体的行为生成机制，常常嵌入多智能体系统（Multi⁃Agent System, MAS）框架中，允许多个智能体共享世界状态、并行运行。系统可依据资源占用、行为冲突等因素进行仲裁管理，实现复杂系统的多行为协同。此外，智能体不仅承担叙事角色，也可作为系统功能节点（如气候模拟器、经济调节器）参与世界演化。上述机制突破传统静态响应结构的限制，使VR电影即便在缺乏观众输入时，仍然能持续演化状态并生成事件。这一“自我演化式行为系统”也可见于JaCalIVE框架对MAS与虚拟环境共演机制的建模方案中[19]。

3.1.3 可仿真的时间进程

系统由静态封闭到动态开放的跃迁最终技术标志，是具备了不依赖观众触发、仍可独立演化的运行机制。从技术角度看，这种转变依赖于底层的仿真执行机制，其核心实现即为仿真循环（Simulation Loop）。

“仿真循环”是计算机仿真与渲染引擎中广泛采用的一种结构，其支持系统状态随时间推移而不断演化。根据仿真模型的类型，该机制通常采用固定时间步长（Fixed Timestep）或离散事件驱动（Event⁃Driven）2种策略：前者以每秒数十帧的节奏定期推进系统状态，后者则根据事件的触发时序更新系统。这一循环在每一调度周期内，通常会执行以下4类任务：

（1）更新世界状态：包括位置、物理参数或环境变化（如风速、光照）；

（2）推进智能体行为：使各角色依据感知与决策模型更新其状态与行为；

（3）调度事件系统：处理逻辑触发、时间延迟、行为结果等事件；

（4）检测系统条件：如剧情推进点、资源耗尽、时间窗口等全局状态变化。

这一机制确保了系统内部状态的持续性与一致性，即使在用户无交互的情况下，世界依然在“真实时间”中运行。为保障仿真运行效率与呈现质量，系统架构通常采用仿真层（Simulation Layer）与呈现层（Presentation Layer）分离的设计模式。仿真层负责进行所有逻辑计算与状态更新，不受渲染、帧速率等可视化因素干扰；呈现层则由图形渲染引擎主导，将当前状态转化为图像、音效和交互反馈，并接收观众输入。二者之间通过共享状态模型或中间通信总线（如ROS、Mirror）进行高速同步，以保障低延迟与高一致。

该类仿真机制在多个领域中已有成熟实现，体现出强大的系统演化能力。系统可在无外部干预的情况下，通过周期性状态更新与规则执行，持续推进个体与整体行为的时间演化。而在VR领域中，作品The Under Presents的系统基于预设的仿真循环机制，每隔固定时间周期生成一个“自身副本”，并将观众在前一周期中的行为轨迹完整记录与重演。用户在剧场空间中可清晰看见多个“自己”在时间流中叠加出现、重复先前的动作路径，从而形成一种“空间-时间”复合式的自我观察体验，体现出仿真系统在缺乏观众输入时对世界状态的自主推进能力。

3.2 “观众”的交互机制：从离散到连续

“生成式涌现”的第二个技术前提，是将观众从离散事件的触发源，重构为系统内部的持续扰动因素。这要求系统具备对观众行为的实时采样、语义建模与状态更新能力。该机制包含2个核心环节：（1）通过可持续的状态采集，系统以高频率记录观众的空间动作、生理信号与注意焦点，并将其转化为结构化输入，注入世界状态模型；（2）基于可传导的扰动效应，上述输入在系统中引发连锁变化，包括智能体行为适配、环境状态调整与叙事路径重构，构成可持续运行的生成链路。

3.2.1 可持续的状态采集

相较于传统交互系统常用的区域触发机制（如预设交互热点或碰撞盒），“生成式涌现”机制要求系统能够对观众行为进行持续建模，并基于其状态演化动态调整虚拟世界反馈。这要求系统能够对观众的身体行为与注意状态进行高频率、低延迟的采集，并将其连续转化为可用于系统演化的输入流。这一机制由多模态追踪、数据编码与同步等不同模块构成。

（1）物理位姿采集。系统通过融合惯性测量单元（IMU）与深度传感器的多源数据，结合即时定位与地图构建（Simultaneous Localization and Mapping, SLAM）算法，实时估算观众在三维空间中的6DoF位姿状态。其中，IMU可提供头部和手部的角速度与加速度信息，用于推算姿态变化；深度传感器则获取场景中每个像素点到设备的距离值，形成连续的深度图像。系统将两类数据在时间维度上进行配准，并通过SLAM构建观众相对于虚拟空间的空间轨迹。最终生成的6DoF数据结构，作为观众的连续空间轨迹。该位姿数据可作为条件触发因素嵌入行为生成逻辑，例如当观众接近特定虚拟对象时，系统将响应性地调整角色动作或环境反馈，从而实现观众行为对虚拟剧情演化的实质介入。

（2）生理状态输入。系统可同步采集观众眼动、肌电与生理波动信号等，并据此可推断其当前注意焦点、动作趋势与情绪强度。该信息用于调整系统生成参数，如根据凝视对象调整角色响应优先级，或基于心率波动调节场景节奏，实现与观众状态联动的叙事节奏调控。

（3）状态编码与注入机制。所有输入数据通过统一的状态变量模板（如注视对象ID、注视时长、手部路径向量）进行编码，并通过 ROS 的“发布-订阅”通信机制，将结构化状态变量实时传递至引擎，确保智能体模块能够在系统更新周期内获取并使用最新的观众状态。

（4）交互意图理解。系统可对输入特征进行组合计算，识别观众的潜在交互意图。例如，在Chen等[20]提出的VR意图识别框架中，通过构建注视时长与目标语义间的映射关系，系统能够在显性操作发生前推断观众是否具备“接近”“启动交互”或“规避”等基本交互意图。这一结构使视线行为从被动感知手段转变为交互判断机制，显著提升系统对行为扰动的前置响应能力。

3.2.2 可传导的系统扰动

在“生成式涌现”的VR电影中，观众的行动变量被持续注入世界模型，作为扰动信号引发一系列状态变迁。这些扰动具备可传导性：最初影响个体智能体的行为决策，随后在群体动态、环境机制乃至叙事结构中层层扩散。

首先，从个体层面来看，具备自主感知与行为模型的智能体将观众的注视、接近、姿态等状态变量作为输入，实时调整自身行为。例如，NPC可能因持续被注视而暂停当前任务并回望，或因预测到观众的靠近路径而改变站位策略，试图促成或回避交互。

其次，扰动在群体与环境层级发生传播。观众的移动轨迹可被群体智能体识别为动态障碍，引发局部行为模式重组与路径再规划[21]，例如当观众逆向穿越人流主通道时，周边NPC的行进路径将被实时偏移至辅助通道，并重新生成避让优先级队列；而对关键物体的操作则可能被环境智能体映射为规则变更，如改变区域可达性、激活新事件节点或打破空间边界。

最终，这些在多层结构中扩散的扰动逐步积累，构成对系统叙事轨迹的生成性影响。上述所有响应都发生在系统既定的物理与行为规则之内，但多个智能体、环境智能体与观众身体的持续、非线性交互，使系统的长期演化轨迹变得不可遍历。观众的每一次转身、每一次凝视，都像是向一个自主运转的复杂系统中投入一粒石子激起涟漪，即最终呈现的叙事序列在严格意义上不可预测且独一无二。

结语

整体来看，“生成式涌现”机制本身并不会自动形成电影式表达，而是依赖在VR电影的有限时长内完成情节推进、情绪累积与整体收束。因此，涌现机制需在保持对观众行为响应性的同时，被引导至服务于电影表达的可控路径。本文从系统实现层面分析了“生成式涌现”机制在VR电影中的技术条件与表达约束，围绕“故事世界-观众”的基本关系，梳理了规则系统从静态封闭向开放动态的演化路径，以及观众交互从离散触发向连续扰动的技术转变。

面向未来，VR电影涌现叙事仍面临关键技术瓶颈，而其最核心的问题在于系统整合层面的组织能力：如何在有限时长内，将交互响应、情绪调节与叙事记忆有效整合为统一的规则系统，并在观众行为持续扰动的情况下完成叙事推进与整体收束。对这一问题的持续攻关，将使涌现机制不再停留于交互层面的变化生成，而逐步成为电影表达的结构性手段，推动VR电影从“故事讲述”（Storytelling）逐步迈向“故事生存”（Storyliving）[22]，并在技术愿景上实现对生成性、过程性、开放性的未来虚实融合电影美学的终极思考。

参考文献

（向下滑动阅读）

[1] MARTINEZ⁃CANO F J. Metaverse Film: The Rising of Immersive Audiovisual through Disrupting Traditional Moving Image and Its Conventions[C]//Proceedings of the International Conference on Digital Media and Creative Industries. Spain: Universidad Miguel Hernandez, 2023.

[2] COOK D A. A History of Narrative Film[M]. New York: W. W. Norton & Company, 2016.

[3] MANOVICH L. The Language of New Media[M]. Cambridge, MA: MIT Press, 2001.

[4] 陈军, 赵建军. 电影虚拟化制作[M]. 北京: 清华大学出版社,2023.

[5] 陈焱松.AIGC技术在人工智能电影创作中的应用策略研究[J].现代电影技术,2023(09):39⁃45.

[6] 约翰·霍兰. 涌现：从混沌到有序[M]. 陈禹,等,译. 上海:上海科学技术出版社,2006.

[7] JENKINS H. Game Design as Narrative Architecture//WARDIP⁃FRUIN N, HARRIGAN P, eds. First Person: New Media as Story, Performance, and Game[M]. Cambridge, MA: MIT Press, 2004: 118⁃130.

[8] 徐昳清, 苗春. 中国虚拟现实电影时代开启[N]. 人民日报海外版, 2025⁃05⁃06(08).

[9] 大象新闻. 全国首家院线坐观式虚拟现实影厅郑州启幕[EB/OL]. (2025⁃12⁃26)[2026⁃01⁃02]. https://www.hntv.tv/news/henan/20251227/17588469104839 770650.html.

[10] 澎湃新闻. 备案启幕，秦潮新生|《秦潮觉醒》XR破界——龙标备案加持，让大秦文明在虚拟世界“活”起来[EB/OL]. (2025⁃10⁃30)[2025⁃12⁃26]. https://www.thepaper.cn/newsDetail_forward_31855604.

[11] 陈焱松,周雯. 人工智能影像叙事的涌现化生成[J]. 当代电影,2024(05):14⁃20.

[12] PARK J S , O'BRIEN J , CAI C J ,et al.Generative Agents: Interactive Simulacra of Human Behavior[C]// Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology, 2023:1⁃22.

[13] 澎湃新闻. 网文引入AI技术，“筑梦岛”功能打造阅读“梦中人”[EB/OL]. (2023⁃08⁃11)[2025⁃12⁃25].https://www.thepaper.cn/newsDetail_forward_24197491.

[14] HENDRIKX M, MEIJER S, VAN DER VELDEN J, et al. Procedural content generation for games: A survey[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2013, 9(1): 1⁃22.

[15] ARMENI I, HE Z⁃Y, GWAK J, et al. 3D Scene Graph: A structure for unified semantics, 3D space, and camera[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV).Piscataway, NJ, USA: IEEE, 2017: 5664⁃5673.

[16] SONG Y X, SUN P L, LIU H Y, et al. Scene⁃Driven Multimodal Knowledge Graph Construction for Embodied AI[EB/OL].(2023⁃11⁃07)[2025⁃12⁃26].https://arxiv.org/abs/2311.03783.

[17] ANTAKLI A, ZINNIKUS I, KLUSCH M. ASP⁃Driven BDI⁃Planning Agents in Virtual 3D Environments[C]// Proceedings of the 14th German Conference on Multiagent System Technologies (MATES 2016). Cham: Springer, 2016: 198⁃214.

[18] WALKER N T, WAGNER N, HILGENDORF L, et al. Conv⁃BDI: An Extension of the BDI Framework for Conversational Agents[C]// Proceedings of the 29th Workshop on the Semantics and Pragmatics of Dialogue. Bielefeld, Germany, 2025: 104⁃114.

[19] RINCN J A, GARCÍA E, JULIÁN V, et al. The JaCalIVE framework for MAS in IVE: A case study in evolving modular robotics[J]. Neurocomputing, 2018, 275: 608⁃617.

[20] CHEN X L, HOU W J. Gaze⁃Based Interaction Intention Recognition in Virtual Reality[J]. Electronics, 2022, 11(10): 1647.

[21] KIM S, BERA A, BEST A, et al. Interactive and Adaptive Data⁃Driven Crowd Simulation[C]// Proceedings of the IEEE Virtual Reality (VR 2016). New York: IEEE, 2016: 325⁃332.

[22] 周雯,陈焱松.从非玩家角色到人工智能体：虚拟现实媒介的“终极生活”叙事[J].编辑之友,2025(06):32⁃40.

期刊导读 |《现代电影技术》2026年第4期

贾云鹏等：创意影像生产中的可控视频生成技术路径及应用研究

周令非等：单帧非盲视频数字水印嵌入和检出技术研究与应用