本文刊发于《现代电影技术》2024年第10期
专家点评
以杜比全景声和我国自主研发的Audio Vivid为代表的基于对象的沉浸式音频技术,实现了声音元素在三维空间的精准定位和移动,不仅为观众提供了身临其境的听觉体验,同时也丰富了影视创作手段,让声音不再仅仅是画面的辅助,而是成为叙事和视觉效果的重要组成部分,在影视行业得到了广泛认同和普及应用。随着虚拟现实、增强现实与影视技术的结合以及应用场景拓展,沉浸式音频技术一方面将采用更高采样率和比特深度等,通过还原更为丰富细腻的音频细节,提供更高品质的听觉体验;另一方面将通过与头部追踪、位置感知、空间音频等技术的深度融合,进一步增强观众的代入感和氛围感。《数字电影沉浸式音频渲染技术和评价方法研究》在回顾现有沉浸式音频处理技术路线的基础上,详细阐述了下一代数字电影沉浸式音频处理技术的整体架构以及关键环节,并提出了一种数字电影沉浸式音频渲染效果的主观评价方法,通过对声床、静态对象和动态对象的主观评价,为解决沉浸式音频渲染算法各异,导致实际还音效果参差不齐的技术卡点,提供了极具参考价值的方法。
——刘知一
高级工程师
中国电影科学技术研究所
(中央宣传部电影技术质量检测所)影像制作技术研究处副处长
作 者 简 介
摘要
本文对数字电影沉浸式音频技术进行了概述,针对数字电影沉浸式音频技术特点,提出一种国产数字电影沉浸式音频技术架构,并针对沉浸式音频渲染技术的特点,制定了一种数字电影沉浸式音频渲染技术主观评价方法,以期能给沉浸式音频处理系统生产和研发企业提供一种有效的评价手段,为观众提供较为一致的沉浸声观影体验,从而推动行业技术创新。
关键词
数字电影;沉浸式音频;主观评价;元数据;渲染
1引言
近百年,电影声音的重放技术经历了单声道、立体声、环绕声和沉浸声4个发展阶段。首部上映的单声道电影是1927年好莱坞剧情片《爵士歌王》,1992年《蝙蝠侠归来》首次引入5.1环绕声,2010年迪士尼推出第一部7.1环绕声影片《玩具总动员3》,2012年影片《勇敢传说》的问世第一次提出沉浸式音频概念。上述声音变革均是围绕声音如何在空间里精准定位展开的,而沉浸式音频技术这种灵活的定位方式,将是未来很长一段时期的发展方向。
2012年杜比推出了杜比全景声,为观众创造出更自然逼真的声场,这是传统5.1与7.1声道系统难以企及的,为电影产业带来了巨大的声音技术变革。随后,国内音频技术企业也纷纷推出自有沉浸声还音系统,如中国多维声(13.1声道)、WANOS全景声系统、音王22.5.8系统、飞达六面声和雷欧尼斯HOLOSOUND等。随着沉浸式音频技术的发展,沉浸声系统已成为当今我国影院的热门配置。
数字电影沉浸式音频采用“对象+元数据”的架构,需通过渲染算法才能将移动对象还原至影厅。目前国内各生产厂家均采用自有渲染算法,因缺少有效且通用的评价手段,导致相关产品还音效果参差不齐,严重影响了沉浸式音频内容的视听体验,且国产品牌知名度小,难以在影院大范围推广,严重阻碍了我国沉浸声技术的发展。
为确保数字电影沉浸式音频系统能够完美呈现导演的创作意图,为观众提供较为一致的沉浸式视听体验,进一步推动市场规范化,为企业提供研发和生产帮助,也为提高国产设备的市场竞争力提供技术支撑,亟需针对沉浸式音频处理技术进行研究,制定相关评价方法。
2沉浸式音频处理技术
2.1 基于声道的沉浸式音频处理技术
基于声道的沉浸式音频技术是在传统 7.1 环绕声基础上增加顶部声道,以此补充空间中的声音信息。沉浸式音频效果在混录端会渲染成基于通道的文件格式,在还原端则无需特殊的解码和渲染设备,但由于还音系统扬声器布局需与混录环节扬声器布局保持一致,造成互操作性差和多版本发行的压力。该项技术的实现流程如图1所示。
图1 基于声道的沉浸式音频制作和还音流程
2.2 基于对象的沉浸式音频处理技术
基于对象的沉浸式音频的核心组成部分为元数据(Metadata),主要通过三维坐标系来描述物体在空间内的特征。对象音频的渲染通过获取影厅的三维空间坐标信息并驱动扬声器系统,为观众营造出与坐标信息一致的虚拟声场位置。基于对象的沉浸式音频采用“元数据+对象”架构,从而实现对象声音在任意空间内的定位和还原,其元数据位置信息采用笛卡尔坐标系,主流渲染算法是幅度矢量合成(VBAP),扬声器布局较为灵活,互操作性强。由于该项技术会产生大量数据和计算量,除声道音频外,还有声源元数据,如声源位置、大小、速度、形状等属性,因此需要搭配特殊渲染工具,且对渲染算法的精度和音频处理器的处理性能都有较高要求。该技术的实现流程如图2所示。
图2 基于对象的沉浸式音频制作和还音流程
2.3 基于场景的沉浸式音频处理技术
基于场景的沉浸式音频是将所有内容渲染到同一全景声虚拟球体上,可被映射至任意的扬声器布局中。其技术特点是声源贴在提前渲染好的全景声虚拟球体上,元数据空间位置格式采用极坐标形式,运用高阶立体音频(Higher Order Ambisonic, HOA)〔以下简称“高阶(HOA)”〕渲染算法,扬声器布局灵活,设备互操作性强,可将基于声道和基于对象的内容转化为高阶(HOA)内容。和基于对象的沉浸式音频技术一样,该项技术会产生大量数据和计算量,除声道音频外,还有声源元数据,造成对渲染算法的精度和音频处理器的处理性能都有较高要求。该技术的实现流程如图3所示。
图3 基于场景的沉浸式音频制作和还音流程
2.4 下一代数字电影沉浸式音频处理技术
将一部完整的沉浸声影片呈现给观众至少需经过制作、发行和放映三个环节。首先将所提供的声音素材混录制作成沉浸式音频素材;之后将其编码为符合相关码流规范的沉浸式音频母版文件,依据SMPTE ST 429-18:2019《数字电影打包⁃沉浸式音频轨道文件》进行封装,形成沉浸式音频发行版;最后使用沉浸式音频播放服务器播放沉浸式音频文件,沉浸式音频处理器接收来自沉浸式音频播放服务器传输的码流信息进行解码,将沉浸式音频文件渲染到相应通道,经过均衡和延时调节,通过扬声器系统将沉浸式音频还原到影厅。
因此沉浸式音频技术应具备制作端操作便捷、沉浸式音频版本相对统一、还音端兼容性强、扬声器布局较为灵活、系统间互操作性强等技术特点。基于对象、元数据和声床的沉浸式音频技术可提供便捷高效的制作方式,幅度矢量合成(VBAP)、高阶(HOA)渲染还音方式不再受限于扬声器系统的布局,为数字电影沉浸式音频技术的发展提供了有力技术支持。随着音频处理芯片性能的提升,基于对象、元数据和声床等制作便捷高效且还音布局灵活的音频处理技术,将是未来我国数字电影沉浸式音频技术发展的主要方向。该项技术的实现流程如图4所示。
图4 下一代数字电影沉浸式音频制作和还音流程
3下一代数字电影沉浸式音频处理技术架构
数字电影沉浸式音频由元数据、声床和对象音频组成。其中,元数据为对象音频提供空间还原的位置、增益等信息,通过渲染工具进行沉浸式音频的空间还原;声床是声音的基础通道,伴随整个制作过程,不需要元数据的支持;对象音频是根据元数据特性进行还音的音频数据。
3.1 数字电影沉浸式音频对象元数据
数字电影沉浸式音频对象元数据用于规定声音对象在三维空间中的响度、位置、大小、距离、运动等信息。数字电影沉浸式音频对象元数据使用笛卡尔坐标系表示音频对象的位置,该坐标系使用三个正交轴(x, y, z)来定位空间中相对于原点的一个点。其中,x轴代表影厅横向/左右位置,y轴代表影厅纵向/前后位置,z轴代表影厅高度/上下位置,如图5所示。
图5 笛卡尔坐标系
采用高阶(HOA)渲染算法时,因其采用极坐标系形式(图6),在进行数字电影沉浸式音频内容渲染时,需要将极坐标系转化为笛卡尔坐标系,转化公式如式(1)—(3)所示:
其中,r代表矢经,θ代表纬度,φ代表经度。
图6 极坐标系
3.2 元数据空间位置映射
数字电影音频对象位置相对于影厅参考点的笛卡尔坐标值需进行归一化处理,(x, y, z)坐标值范围为(0,0,0)至(1,1,1)。相对于影厅回放环境位置,原点位置对应影厅的左前角,x=0对应影厅左墙位置,x=1对应影厅右墙位置,y=0对应影厅前墙位置,y=1对应影厅后墙位置,z=0对应主声道和环绕声道扬声器系统声中心所在位置,z=1对应影厅天花板位置。音频对象位置映射到影厅回放环境的位置关系实例:(0,0,0)代表影厅的左前角,高度为左声道扬声器系统声中心位置;(1,0,0)代表影厅的右前角,高度为右声道扬声器系统中心位置;(0.5,0.5,1)代表影厅天花板中心位置。
数字电影沉浸式音频文件在Audio Vivid系统中进行还音时,需要将Audio Vivid对象位置元数据转换为影院对象元数据,转换公式如式(4)—(6)所示:
其中,xvivid代表Audio Vivid坐标系下的对象x坐标,xth代表影院音频对象的x坐标,yvivid代表Audio Vivid坐标系下的对象y坐标,yth代表影院音频对象的y坐标,zvivid代表Audio Vivid坐标系下的对象z坐标,zth 代表影院音频对象的z坐标。
3.3 数字电影沉浸式音频声床
数字电影沉浸式音频声床是数字电影沉浸式音频的基础单元,是伴随数字电影整个还音过程的声场组。数字电影沉浸式音频声床组一般分7.1DS和9.1OH基础声床,其中7.1DS基础声床顺序为L、R、C、LFE、Lss、Rss、Lrs、Rrs,9.1OH基础声床顺序为L、R、C、LFE、Lss、Rss、Lrs、Rrs、Lts、Rts。
3.4 数字电影沉浸式音频对象
数字电影沉浸式音频对象是用元数据来指导声音对象发声响度、位置、大小、距离、运动等属性的音频轨道,其分为静态对象和动态对象,其中静态对象指数字电影对象声音场景中元数据空间位置信息不随时间变化而变化的声音元素;动态对象指数字电影对象声音场景中元数据空间位置信息随时间变化而变化的声音元素。
3.5 数字电影沉浸式音频还音
数字电影沉浸式音频还音首先对沉浸式音频文件进行解码,生成元数据、声床和对象音频文件,沉浸式音频渲染系统接收到相关信息后,首先根据声床的通道信息将其映射到相应还音通道以实现声床音频文件的还音,之后根据元数据空间位置等信息将对象音频渲染到对应影厅的空间区域中,实现对象音频在影厅内的精准发声。数字电影沉浸式音频声场控制渲染算法是沉浸式音频还音的核心技术,其决定沉浸式音频对象空间还原效果的好坏,直接影响观众的观影体验。
目前主流的沉浸式音频声场控制渲染算法有幅度矢量合成(VBAP)和高阶(HOA)渲染算法。幅度矢量合成(VBAP)是基于三维空间中的正弦法则,其利用空间中3个相邻扬声器形成三维声音矢量,不会影响低频的双耳时间差(ITD)或高频的频谱线索,从而实现三维空间中的虚拟声像定位。由于算法简单,幅度矢量合成(VBAP)是目前最常用的沉浸式音频处理技术。高阶(HOA)则利用球谐函数将所有的内容渲染到一个全景声虚拟球体上,记录声场并驱动扬声器,具有严格的扬声器排布要求,能在扬声器中心位置高质量重建原始声场,在渲染移动对象时,可营造出更流畅、更平滑的虚拟声像听感。
4数字电影沉浸式音频渲染效果评价方法
由于数字电影沉浸式音频采用“对象+元数据”架构,需通过渲染算法将静态和动态对象还原到影厅,目前各生产厂家均采用自有的渲染算法,缺少有效的评价手段,导致还音效果参差不齐,严重影响沉浸式音频内容的视听体验。沉浸式音频渲染采用虚拟声像概念,靠驱动邻近的扬声器系统旨在营造出既定空间位置的效果。由于虚拟声像技术营造一种主观感受,目前无法用客观指标进行评价,本章节针对数字电影沉浸式音频渲染技术的特点,提出了一种能够评价声床、静态对象和动态对象还音效果的主观评价方法。
4.1 声床评价
数字电影沉浸式音频声床通过固定基础还音通道还原至影厅,伴随数字电影还音的整个过程,声床评价应重点考察声音原始素材经过编码、解码带来的音质损伤程度。
声床评价采用带隐藏参考和隐藏锚点的“单/双盲多刺激”方法,A代表参考源,隐藏参考、隐藏中等锚点、隐藏低等锚点和被测对象需随机分配给B、C、D、E,听音员分别评价B、C、D、E相对于A的音质损伤程度。声床评价隐藏参考为音频源,中等锚点为参考源经过截止频率为7 kHz的低通滤波处理,低等锚点为参考源经过截止频率为3.5 kHz的低通滤波处理。
4.2 静态对象评价
数字电影沉浸式音频静态对象的声场还原利用元数据空间位置、增益等信息,通过空间声场渲染算法将静态对象内容渲染到元数据指定的影厅空间位置,该元数据空间位置信息不随时间变化而变化。因此,在对静态对象进行评价时,应重点考察静态对象位置、增益、尺寸的还原与元数据描述信息的一致性,评价指标如表1所示。
表1 静态对象评价指标
静态对象评价时需要为评价人员提供被测对象的参考源,因目前暂无公认的可作为标准参考的渲染系统,本文提出一种以参考源描述信息作为参考源的方法,该方法采用的静态对象评价素材由参考源描述和被测对象组成,A代表静态对象参考源描述,B代表被测对象,评价人员评价B相对于A的重合程度。参考源空间位置信息使用元数据空间位置映射归一化三维坐标系表示,评价点的静态位置选择应覆盖影厅主要区域,静态评价对象参考信息描述如表2所示。
表2 静态评价对象参考源描述
4.3 动态对象评价
数字电影沉浸式音频动态对象的声场还原是利用元数据空间位置、增益等信息,通过空间声场渲染算法将动态对象内容渲染到元数据指定的影厅空间处,该元数据空间位置信息随时间变化而变化。因此,在对动态对象进行评价时,应重点考察动态对象空间运动、运动过程中的物体大小和远近变化特性与元数据描述信息的一致性,评价指标的遴选如表3所示。
表3 动态对象评价指标
表4 动态评价对象参考源描述
5数字电影沉浸式音频渲染效果评价尺度
评价人员对相关指标进行评价时采用百分制,综合评价得分值为项目评价得分值的算术平均值,单项和综合评价等级分为“优”“良”“中”“差”“劣”五级,评分值与评价等级对应关系如表5所示。
表5 评分值与评价等级对应表
5.1 声床评价尺度
声床评价主要考察音频文件经过编码、解码后的音质损伤程度,评价标度如表6所示。
表6 声床音质评价标度
5.2 静态对象评价尺度
评价静态对象时应综合考虑被评价对象位置、增益、尺寸变化与参考源描述信息的一致性,静态对象位置、增益、尺寸变化与参考源描述信息的重合度,静态对象位置、增益、大小重合度评价标度如表7所示。
表7 静态对象位置、增益、大小重合度评价标度
5.3 动态对象评价尺度
动态对象评价应综合考虑被评价对象位置的变化、位置变化时增益和距离的变化与参考源描述信息的重合度,评价尺度如表8所示。
表8 动态对象位置变化、增益和距离变化重合度评价标度
6总结
SMPTE 2098系列沉浸式音频元数据和编解码规范的发布,为实现沉浸式音频技术制版相对统一和系统间互操作提供了较好的技术借鉴。这种基于“元数据+声床+对象”的沉浸式音频制作和渲染理念,颠覆了传统的数字电影声音制作和还音方式,其以便捷高效的制作和灵活的还音布局受到关注,将是未来我国数字电影沉浸式音频技术发展的主要方向。
基于对象的沉浸式音频技术在我国处于发展初期,各生产厂家使用的沉浸式音频渲染算法各异,导致还音效果差异较大,面对上述问题,本文提出了一种能够反映沉浸式音频渲染效果的主观评价方法,规定了声床、静态对象和动态对象的评价指标、参考源和评级尺度。该方法可用于沉浸式音频研发企业提供产品研发、调试和评价,为推动我国数字电影沉浸式音频技术的发展,确保每个影厅的还音效果较为一致,规范沉浸式音频技术市场提供技术保障。
参考文献
(向下滑动阅读)
[1] Methods for the subjective assessment of small impairments in audio systems:ITU-R BS.1116-3-2015 [S],2015.
[2] Method for the subjective assessment of intermediate quality level of audio systems:ITU-R BS.1534-2 [S],2014.
[3] Immersive Audio Metadata: SMPTE ST 2098-1∶2018 [S],2018.
[4] Immersive Audio Bitstream Specification:SMPTE 2098-2:2018 [S] ,2018.
[5] D⁃Cinema Immersive Audio Channels and Soundfield Groups:SMPTE ST 2098-5:2018 [S] ,2018.
[6] Immersive Audio Bitstream Level 0 Plug⁃in: SMPTE ST 2067-201:2019 [S] ,2019.
[7] Immersive Audio Bitstream and PackagingConstraints: IAB Application Profile 1:SMPTE ST 2098-2[S], 2021.
[8] 音频系统小损伤主观评价方法:GY/T 298—2016 [S],2016.
[9] 三维声编解码及渲染:GY/T 298—2016 [S],2016.
[11] 董强国.专业影院用沉浸式音频技术分析和实现方案探索[J].现代电影技术,2020(1):10⁃14.
[12] 国家新闻出版广电总局. 电影 录音控制室、室内影厅B环电声响应规范和测量:GY/T 312—2017 [S]. 北京:中国电影科学技术研究所,2017.
[13] 董强国.数字电影沉浸式还音效果评价方法探讨[J].现代电影技术,2020(5):4⁃8.
[14] 中华人民共和国文化和旅游部.演出用专业音响设备音质主观评价方法: WH∕T 82—2019 [S].北京:全国剧场标准化技术委员会,2019.
[15] 吴志伟.三维声技术在电视节目制作中的应用研究[J].电声技术, 2023(6):87⁃89.
[16] 丛亦玄.论沉浸式声音技术在电影声音创作与制作中的应用与影响[D].上海音乐学院,2023.
[17] 侯佳俊.论沉浸式声音技术在现代音频产业链中的应用[D].上海音乐学院,2023.
[18] 常磊.沉浸式声音技术对当代及未来音乐发展的影响[J].电声技术, 2021(12):18⁃23.
[19] 庄元.余音绕梁 如闻天籁——3D环绕声技术发展述评[J].演艺科技, 2015(3):7.
[20] 黄一伦.沉浸式视听技术在声景研究实践中的应用[J].复旦学报(自然科学版),2024(3):329⁃335.
【本文项目信息】中国电影科学技术研究所(中央宣传部电影技术质量检测所)基本科研业务费项目“数字电影沉浸式音频处理器样机试制研究”(2024⁃DKS⁃10)。
主管单位:国家电影局
主办单位:电影技术质量检测所
标准国际刊号:ISSN 1673-3215
国内统一刊号:CN 11-5336/TB
投稿系统:ampt.crifst.ac.cn
官方网站:www.crifst.ac.cn
期刊发行:010-63245081