打开网易新闻 查看更多图片

本文刊发于《现代电影技术》2024年第2期

专家点评

神经辐射场(Neural Radiance Fields, NeRF)最早由Ben Mildenhall等研究者在2020年欧洲计算机视觉大会(ECCV)上提出并获得当年的最佳论文奖。该技术通过使用稀疏的输入视图集来优化底层连续体积场景函数以实现复杂场景新视图的合成,其丰富和拓展了传统的隐式表达方法,仅仅通过二维图像作为监督即可实现对复杂三维场景的表达。NeRF通过优化训练得到的神经辐射场模型,可以渲染出任意视角、具有复杂几何和外观场景的照片级真实感新视图。得益于其超强的隐式表达能力,近年来NeRF技术得到迅速发展,在新视点合成、三维重建等领域得到成功应用。《基于NeRF的3D场景动画风格迁移及其技术美学价值研究》一文将NeRF引入三维场景动画制作中,提出了一种改进的神经辐射场技术,对拍摄影像进行三维重构,进而完成动画风格迁移,借此形成独特的三维动画场景艺术效果的解决方案。实验表明,NeRF能够针对三维场景实现更好的动画风格迁移效果,较为快速地生成不同风格的动画影片,有望提高影视动画等创作效率,并在一定程度上节约制作成本。该方法为影视动画创作者提供了艺术创作的新思路和新方法,有望进一步拓展视觉艺术创作形式,对相关研究者和从业人员具有较强的参考价值。

——刘世光

教授

天津大学智能与计算学部博士生导师

作 者 简 介

王腾飞

上海政法学院上海纪录片学院讲师,上海电影特效工程技术研究中心特聘研究员,主要研究方向:电影高新技术、电影叙事学等。

上海大学上海电影学院讲师、硕士生导师,主要研究方向:图形图像处理、数字影视技术等。

于 冰

黄东晋

上海大学上海电影学院副教授,影视工程系主任,博士生导师,主要研究方向:人工智能、影视技术、计算机图形学等。

上海大学上海电影学院硕士研究生在读,主要研究方向:电影修复技术、深度学习。

范正辉

摘要

针对传统3D动画场景建模技术存在操作困难,相关行业对3D模型需求量大、计算机硬件要求较高等诸多问题,本文提出一种改进的神经辐射场(NeRF)技术,通过对拍摄影像进行3D重构,进而完成动画风格迁移,借此形成独特3D动画场景艺术效果的解决方案。作为一种新颖的3D重建方法,NeRF受到计算机图像合成领域广泛关注。本文将NeRF引入3D场景动画制作中,在验证本方案可行性与科学性的同时,也为3D动画场景创建提供新思路,充实技术美学价值。

关键词

NeRF;风格迁移;人工智能;3D动画场景

3D动画制作流程往往采用3ds Max、Maya、Blender等软件进行建模并添加模型材质,渲染输出3D动画影像。即便是3D动画场景也依然遵循这样的基本制作流程,因此在制作过程中需要大量人力物力才得以维持,工作繁杂且制作过程辛苦。而在虚拟现实(VR)、游戏场景设计等诸多领域中,对3D场景以及其中相关事物的建模需求量不断攀升,需求与制作形成严重不平衡的局面。因此,本文提出基于改进的神经辐射场(Neural Radiance Fields, NeRF)技术对拍摄影像进行3D重构,进而完成动画风格迁移(AnimeGAN),借此形成独特3D动画场景艺术效果,从而尝试改变传统3D场景动画制作方式,以期为3D艺术创作提供解决相关问题的新途径新方法。

2020年,Midenhall等人[1]首次提出NeRF并将其运用于新视图合成。在实现复杂场景高度真实视觉的合成方面,NeRF是一种新颖的视觉合成与3D创建方法[2],其模型采用多层感知器[3](Multi⁃layer Perceptrons, MLPs)进行隐式神经场景体绘制[4](Volume Rendering of Neural Implicit)并实现视觉图像合成[5],且可以只使用单一场景的多视图图像进行训练。目前国内外相关研究主要集中在3D场景创建领域,只需拍摄较少影像画面,运用NeRF就可以实现创建3D影像场景这一目的。

基于NeRF可以有效解决3D场景动画风格迁移,相较于传统基于VGG⁃19[6]神经学习网络,其不只是局限于二维平面中图像纹理等元素的处理。作为人工智能算法的模型之一,NeRF在3D场景风格迁移运用中具有较强优势。本文将改进NeRF基本算法模型,借助神经网络(Neural Network)学习系列剧集《中国奇谭》的动画风格,并针对其3D场景进行风格化迁移,以期为3D场景艺术化创作提供思路与参考,并进一步充实技术美学价值。

1NeRF研究现状

作为近年来出现的一种新颖的视觉图像合成方式,NeRF通过多层感知场景进行体积表达,能够实现较好的视觉效果呈现,可以有效将单张图像制作成较好的3D影像。此外,NeRF能够实现高质量图像转换,并展现出较好的实验效果,单个图像的影像空间表达等得到较大提升。

传统创作过程中,将二维图像转成3D影像时,专业人士大多参照二维图像并将其创建成3D模型,通过模拟二维图像中的纹理,映射到 3D 纹理中从而完成目标物的建模。基于当下生成式人工智能(Generated AI)的方式创建模型,又极具挑战性,无法较好地完成目标任务。同时在3D风格化方面,也存在其结果与目标样式的相似一致性等诸多问题。

自Midenhall提出NeRF相关研究之后,通过新颖的视角将任意二维转换成3D,并较好地完成风格迁移与表达,这种方法利用体积渲染(Volume Rendering),达到保持跨视图的一致性,自此陆续出现NeRF相关研究成果。2021年Zhan[7]等人发表关于多模态图像合成与编辑的调查报告;2022年Tewari[8]等人发表有关于神经渲染的报告,同年,Chiang[9]等人将NeRF应用于场景表达;依赖于预训练样式,实现超网格的格式化外观。Kolkin[10]等人提出3D风格化问题,运用NeRF可以更加有效地实现图像多样化的问题;Zhang[11]等人提出基于深度学习神经网络技术,进一步提升NeRF计算能力。目前相关研究主要集中在提高NeRF体积渲染,通过训练,将现有的NeRF转化为具有不同风格的场景。训练主要分为两大阶段:第一阶段基于图像中的色彩变换信息进行迁移训练艺术辐射场(Artistic Radiance Fields,ARF),第二阶段则是采用基于匹配的VGG风格化损失,即最近邻特征匹配损失[10](Nearest Neighbour Feature Matching,NNFM)进一步训练ARF,主要从观测方向的局部向量反射、相机姿势、漫反射颜色、高光色调、表面法线方向等进行突破,并对稀疏输入视图等方面进行训练,采用变形场、深度监督与点云等多种方法提高NeRF的渲染精度,如Zhang等[11]提出基于亮度场景的可控制3D场景风格化解决方案,较为有效地解决体积渲染中存在的样式化问题;Sucar等[12]则提示可从相机姿态与隐式场景的表示着手,对图像集中的场景进行优化,间接提高体积渲染技术等。

2NeRF基本原理

作为新型的影像合成技术,NeRF基于五维向量、空间中点位置、摄影机观察的角度与方向等获得物体深度,此外还可基于观察角度下物体在空间中点的色彩信息完成体素渲染,借此得到预测像素值。

四维空间是在传统3D空间基础之上加上时间共同构成。自爱因斯坦相对论诞生以来,空间与时间成为一个不可分割的整体,同时空间和时间可以相互转化。对系统论而言,任何系统都是有层次的,从狭义角度,即随着时间推移,事物不同深度的本质不断演变成事物在发展过程中的不同阶段。层次统一的空间理论与时间、传统空间构成五维空间的理论基础,同时事物正是通过五维空间相关要素之间的相互转化实现发展。在五维空间基础之上加上向量,共同构成五维向量。本文基于对五维空间及其向量的认知,借助计算机有效计算在3D空间中某一点以及在这个点观察方向上所视该点的色彩信息等,记录该点某一特定时期在系统中的状态。

基于上述原理形成NeRF模型下对3D场景的认知基础。NeRF模型则是将3D场景表示为由神经网络相似的辐射场,在这个场中,每一个点都有相关颜色,每个方向都有一个较好的观测视角,点和视角可以较好地构成体积密度,对于NeRF中的五维空间而言,图1中x、y、z代表3D空间中点所处的位置信息,θ代表方位角,φ代表轴视角。在不同方位角度、不同轴视角下,看到3D空间中的物体其色彩有所不同,点的颜色会随着场中的观察方向以及场景内坐标的变化而变化。通过跟踪光线等,就可以合成出图像中每个点的新颖视图﹝图1(a)﹞;对于空间中的任意一点,都可以得出这个点的RGB三基色中所含信息以及该点的深度﹝图1(b)﹞。在同一系统中的不同摄影机视角下,使用体积渲染生成这个点的色彩信息以及密度﹝图1(c)﹞,这意味着NeRF可以实现复杂场景中高真实感视图合成的可能。本文在充分掌握并吸收Midenhall等提出的NeRF原理基础上,对其算法等进行改进,并尝试将相关技术运用于动画风格迁移之中,即充分学习二维场景的风格并以其作为参考,借助NeRF将风格投射到3D场景之中,以验证其可行性。

打开网易新闻 查看更多图片

图1 NeRF原理[2]

3NeRF基础模型风格迁移算法优化

3.1 NeRF进行3D风格效果迁移的步骤

NeRF进行3D风格效果迁移主要包括以下基本步骤:

(1)通过神经网络对目标图片进行风格化学习,如VGG⁃16、VGG⁃19[14]。运用预先训练好的卷积神经网络[15](CNN),有效学习目标图像中的色相、纹理等相关重要信息,为创造高质量的艺术辐射场奠定基础。

(2)对所拍摄的影像中目标场景进行3D空间重建,从不同视点来表达影像世界中的场景,并形成场景云。这种方式可以有效模拟并“还原”真实世界场景,包含场景中的光影等。

(3)经过3D场景重建以及目标图像学习之后,可以有效将图片风格迁移至3D场景中,从而完成对3D目标的艺术化创作。NeRF即可完成3D场景风格迁移,具体流程如图2所示。

图2 NeRF风格迁移实验步骤[13]

3.2 基于优化后的NeRF进行风格迁移的算法

本文在原有风格迁移基础步骤之上,增加针对动画风格中的相关算法。

(1)对拍摄影像中的目标场景,使用COLMAP[6]进行稀疏重建。COLMAP是一种结合了通用运动结构和多视图立体的3D重建管线,可以根据不同视角的照片得到目标场景的稀疏重建结果,其输出包括相机内外参数以及3D点信息的文件。将上述位姿信息转换格式后送入NeRF进行新视角合成,得到重建后的3D模型。

(2)使用ARF算法[5]对重建后的3D模型进行风格化。由于常用于图像风格化的VGG风格损失难以将高频细节迁移到3D场景,ARF算法使用了NNFM,在将风格图像迁移到3D场景的同时保证了多视点一致性。具体而言,对风格图像Is和给定视角的NeRF渲染图像Ir分别提取出VGG特征图Fs和Fr。Fs(i, j)表示特征图Fr第i行第j列像素的特征向量。NNFM如式(1)所示。

其中,N表示Fr的像素总数,D(Fr(i,j),Fs(i', j'))表示两个向量之间的余弦距离。即最小化Fr的每个特征与其在Fs特征空间中最近邻的余弦距离。

(3)为了避免最邻近特征匹配损失导致过度风格化,ARF采用了一个内容保持损失函数来度量内容图与特征图之间的l2距离。

打开网易新闻 查看更多图片

式(2)中,λ是控制风格化强度的权重。ARF通过VGG提取特征图,使用以上损失函数不断优化风格化,以期获得具有多视点一致性、艺术性强的风格化结果。

4优化后NeRF对3D场景动画风格迁移实践

我们以上海美术电影制片厂系列剧集《中国奇谭》为例,使用优化后NeRF对摄影作品进行风格迁移,并验证NeRF的有效性与可行性。在进行相关实验、收集相关数据时,既有使用大疆无人机拍摄的大型建筑物场景,也有利用普通摄影机记录的小型建筑物场景,确保实验过程中数据的多样性,共同用于3D风格化迁移实验;同时,也设有同一场景进行不同风格迁移实验,采用多实验选型与多风格迁移共同增强本实验的科学性。

基于NeRF的风格迁移开展实践。本文截取《中国奇谭》之《小妖怪的夏天》中影像画面(图3)进行实验,实验优先选择小型场景进行风格迁移测试研究,且视点集中在一侧,运用VGG⁃19神经网络对图3进行相关要素学习,以获得目标图像特征。在获取到相应特征后,将所拍到的影像转换成图像序列帧。本实验对相关图像序列每间隔四帧选出特定关键帧(图4),用于对相关场景进行3D重建。以获取在计算机可视范围内对应像素点,借此形成每一像素点的体积云用于生成3D影像空间,即完成3D重建,经过相关算法处理完成之后截取部分具有代表性的图片,整体效果如图5所示。图5较为完整地展示了计算机重建3D空间的过程。在此基础之上,实验借助VGG⁃19神经网络进行特征学习,并迁移至3D重建空间中形成影像(图6)。借助NeRF可以较为有效地将单一图片中的动画风格迁移至3D场景中,本文截取此次实验中的三张图片(图7)进行效果分析。经分析,三幅图像中所标注的红色区域部分,其前景中的水泥制喷泉可以较好地与背景建筑物体区分。风格迁移完成后,有关像素点色彩信息在3D空间中未发生闪烁,且有关色相等并无明显变化,能够较好地与前后景区分,较为成功地完成3D动画风格迁移实验。

图3 《小妖怪的夏天》图片

图4 建筑物序列

图5 建筑物三维重建

打开网易新闻 查看更多图片

图6 建筑物3D风格迁移

图7 建筑物风格迁移效果

为增强本实验各类方法的有效性验证,本文截取《中国奇谭》之《乡村巴士带走了王孩儿和神仙》中图像﹝图8(A)﹞,经过神经网络学习迁移至其他多种不同建筑物体的大型场景,对选用的三组场景﹝图8(B)(C)(D)﹞进行360°旋转扫描实验,将图8(A)的动画影像风格迁移至(B)(C)(D)这三组不同的场景影像其建筑物整体轮廓部分,最终效果与图8(A)的风格较为相似,整体实验结果尚可。与此同时,在本实验过程中,为进一步验证实验的可靠性与可行性,我们将水墨、油画等不同风格动画影像迁移至同一场景之中,进行效果分析(图9),借助图9(A)场景进行三维重建,采用三种不同影像风格进行三维效果迁移,最终呈现效果如图9(B)(C)(D)所示,整体风格迁移较为完善,且不存在色彩闪烁等现象,同时画面的明暗交接等效果较好。因此,基于神经网络所习得的动画影像风格,借助NeRF能够将其较好地进行3D场景迁移,且生成的场景可以接受不同风格动画影像。

图8 同种风格迁移到不同场景效果图

图9 多种风格迁移效果图

经过不同的动画风格学习,改进后的NeRF可以较为有效地对3D场景进行风格化迁移,既可将同一动画风格迁移至不同建筑场景之中,也能实现不同动画风格迁移至同一场景之中。在原有的神经学习网络基础上,通过解析影像画面,借助NeRF将单一图片中的动画风格迁移至三维影像空间之中。从实验结果可知,该方法具备可行性,可以为动画艺术创作提供全新的思路与方法。

5基于NeRF进行动画风格迁移的价值思考

作为在计算机技术支持下的人工智能算法之一,经过相关实验,NeRF能够较好运用于3D场景动画风格迁移中。这种方式将催生出新的艺术创作手法,促使影像画面具有新的艺术形态,如“动画艺术”,并不断促使“技术美学”走上新台阶。通过对图像进行特征学习,NeRF能够有效地将风格迁移到其他图片序列中,且保持3D效果特征,可以视为“技术”通过学习艺术,进而“自行”创造艺术之美的过程。作为计算机技术之一的数字技术,脱离部分物质实体,其艺术材质更多展现为数字化的,形成介入技术美学[16]的典型特征,并为现代技术美学开拓疆域。科技促使哲学美感、伦理美感、文化美感融为一体成为现实可能[17]。

此外,NeRF表现出突破二维平面风格迁移,带来多元化创作方式的特征。通过处理3D图像,使得艺术创作获得巨大解放,促使“艺术复制”的快速发展,从而取代“艺术唯一”。在传统艺术创作之中,艺术作品往往具有唯一性和不可复制性,否则只会沦为赝品;但基于数字技术,尤其是在NeRF支持下,艺术创作突破单一平面,促使对影像画面中的3D目标物形成风格迁移,此时艺术的“复制”不只是单纯的“照搬”,而是经过人工智能学习之后,对影像进行风格迁移,“艺术永恒”逐渐被冲击。

在NeRF等技术支持下,形成的新型艺术创作方式促使“制作”辅助“创作”,形成新型的技术美学话语。通过机器学习[11](Machine Learning)制作更多的艺术作品,而艺术创作可以留给艺术家进行思考。技术只需将艺术符号等进行组装,便可形成新的艺术作品,并给艺术审美文化带来冲击。在计算机技术支持下,影视作品中的相关元素呈现多元化发展趋势,NeRF作为人工智能技术的一种,可以对艺术作品等进行“复制”,从一种“现实”转换为另一种“现实”,促使影像艺术等不再只是对“现实模仿”,而是借助数字技术重新对空间进行改造,制作出更具“幻影”的空间。

随着计算机处理能力以及各类算法的提升,机器学习能够更为高效地整合资源,尤其是未来量子计算将大大满足智能算法的算力要求,计算机将不断参与现代艺术创作,将技术美学推上新的台阶。作为智能算法之一,NeRF参与影像画面的艺术创作,成为后现代主义美学的新秀。技术美学将直接参与艺术创作并推动艺术发展,这也将导致技术必须直接介入美学,在现代社会文化中,不断形成技术、艺术、美学之间的密切联系。同时,人工智能技术也创造全新的现代审美文化,其能够参与艺术化创作,以技术建构的美促进传统艺术观念发生改变,从原有的“个体创作”“全体创作”不断升级为“机器创作”,借助各类学习算法等促使艺术创作观念发生改变。

6结论

通过对COLMAP以及本论文提出的相关算法进行优化改进,并对相关数据进行验证性实验等可知,NeRF能够针对3D场景实现效果更佳的动画风格迁移,较为快速生成不同风格的动画影片,提高影视、动画等创作效率,在一定程度上节约成本,为影视动画创作提供艺术创作新思路新方法,进一步拓展视觉艺术创作的深度与广度,也期待未来出现更好的3D动画效果解决方案。

与此同时,随着人工智能等各类技术不断发展,未来计算机技术、美学、艺术三者将不断融合。这将促使后现代美学不断发展壮大,并冲击传统媒体文化及相关理论研究,改变人们对艺术的认知,艺术创作方式也将发生改变。

注释、参考文献

(向下滑动阅读)

①本文所使用《中国奇谭》等图片来源于互联网且仅用于学术研究,感谢上海美术电影制片厂,最终版权仍属于上海美术电影制片厂。

[1] Mildenhall B, Srinivasan P P, Tancik M, et al. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 405⁃421.

[2] Gao K, Gao Y N, He H J, et al. NeRF: Neural Radiance Field in 3D Vision, Introduction and Review[EB/OL]. (2023⁃11⁃30)[2024⁃01⁃05]. https://arxiv.org/pdf/2210.00379.pdf.

[3] Tolstikhin I, Houlsby N, Kolesnikov A, et al. MLP⁃Mixer: An all⁃MLP Architecture for Vision[EB/OL].(2021⁃06⁃11)[2024⁃01⁃05].https://arxiv.org/pdf/2105.01601.pdf.

[4] Yariv L, Gu J, Kasten Y, et al. Volume Rendering of Neural Implicit Surfaces[EB/OL].(2021⁃12⁃01)[2024⁃01⁃05].https://arxiv.org/pdf/2106.12052.pdf.

[5] Schönberger J L, Zheng E, Frahm J M, et al. Pixelwise view selection for unstructured multi⁃view stereo[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11⁃14, 2016, Proceedings, Part III 14. Springer International Publishing, 2016: 501⁃518.

[6] 董荪,丁友东,钱昀.基于人工智能的风格迁移算法在动画特效设计中的应用[J].装饰,2018(01):104⁃107.

[7] Zhan F, Yu Y, Wu R, et al. Multimodal image synthesis and editing:A survey[EB/OL].(2023⁃08⁃24)[2024⁃01⁃21].https://arxiv.org/pdf/2112.13592.pdf.

[8] Tewari A, Thies J, Mildenhall B, et al. Advances in neural rendering[J]. Computer Graphics Forum, 2022, 41(2): 703⁃735.

[9] Chiang P Z, Tsai M S, Tseng H Y, et al. Stylizing 3d scene via implicit representation and hypernetwork[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2022: 1475⁃1484.

[10] Kolkin N, Kucera M, Paris S, et al. Neural neighbor style transfer[EB/OL]. (2023⁃03⁃24)[2024⁃01⁃21]. https://arxiv.org/pdf/2203.13215.pdf.

[11] Zhang Y, He Z, Xing J, et al. Ref⁃NPR: Reference⁃Based Non⁃Photorealistic Radiance Fields for Controllable Scene Stylization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 4242⁃4251.

[12] Sucar E , Liu S , Ortiz J ,et al.iMAP: Implicit Mapping and Positioning in Real⁃Time[EB/OL].(2021⁃03⁃21)[2024⁃01⁃05]. https://arxiv.org/pdf/2103.12352v1.pdf.

[13] Zhang K, Kolkin N, Bi S, et al. Arf: Artistic radiance fields[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 717⁃733.

[14] Simonyan K, Zisserman A. Very deep convolutional networks for large⁃scale image recognition[EB/OL]. (2015⁃04⁃10)[2024⁃01⁃21]. https://arxiv.org/pdf/1409.1556.pdf.

[15] Gu J, Wang Z, Kuen J, et al. Recent advances in convolutional neural networks[J]. Pattern recognition, 2018, 77: 354⁃377.

[16] 高鑫. 技术美学研究(上) [J]. 现代传播(中国传媒大学学报), 2011(02): 63⁃70.

[17] Jordan M I, Mitchell T M. Machine learning: Trends, perspectives, and prospects[J].Science, 2015.

[18] 高鑫. 技术美学研究(下) [J]. 现代传播(中国传媒大学学报), 2011(03): 69⁃75.

【本文项目信息】2022年度上海政法学院青年基金项目“虚拟技术在电影叙事中的运用”(2022XQN18)。

主管单位:国家电影局

主办单位:电影技术质量检测所

标准国际刊号:ISSN 1673-3215

国内统一刊号:CN 11-5336/TB

投稿系统:ampt.crifst.ac.cn

官方网站:www.crifst.ac.cn

期刊发行:010-63245081