打开网易新闻 查看更多图片

本文刊发于《现代电影技术》2026年第1期

专家点评

刘知一

高级工程师

中国电影科学技术研究所(中央宣传部电影技术质量检测所)影像制作技术研究处副处长

图像亮度增强是影视调色的核心技术环节,通过对画面亮度层级、动态范围、局部对比度精准调控,可以统一影片色调、塑造独特视觉风格、引导视线突出主体等,是连接拍摄素材与最终成片效果的关键桥梁,达芬奇、Adobe Premiere Pro以及Final Cut Pro等工具软件均内置图像亮度自动调节功能。然而现有功能的底层算法,例如基于直方图均衡、基于人类视觉系统(HVS)增强等,在对可见度低、噪声多的低光图像进行亮度自动增强时,容易出现伪影和色彩断层等现象,需要耗费大量时间进行手工调整。《基于物理引导的图像亮度增强神经网络研究》提出了一种新的“物理主干+残差微调”混合架构,通过预设曝光区间约束全局伽马指数与增益系数、仅对局部高频进行细节补偿、采用基于物理先验约束损失函数替代偏微分方程求解等多种技术手段,不仅能在对低光图像亮度智能调节时,实现更稳定的色彩保真和伪影抑制,并且平均推理时间等性能指标突出,在增强效果与计算效率上取得了较好平衡。该论文提出的轻量化混合架构,虽然目前尚需依赖成对数据训练,但在单个GPU显卡算力条件下,能够高质量实现低照度图像信噪比平衡、逆光场景光晕抑制等低光图像智能增强,不仅具备很好的实用性,而且为国产电影级图像处理软件增强人工智能调色功能,赶超国外同类型软件提供了有力的底层核心算法支撑。

基金项目

2025年度国家社科基金艺术学年度项目“智能影像创作与传播的中国路径与自主体系研究”(25AC006)。

作者简介

打开网易新闻 查看更多图片

杨 璨

硕士,北京电影学院声音学院讲师,主要研究方向:综合媒体技术。

鄢凯杰

北京电影学院智能影像工程学院博士研究生在读,主要研究方向:数字电影高新技术。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

陈晓悦

硕士,北京电影学院教学实践中心实验师,主要研究方向:数字电影技术。

刘一苇

硕士,高级工程师,北京航天情报与信息研究所副主任,主要研究方向:影像与声音技术。

打开网易新闻 查看更多图片

摘要

针对低照度图像亮度不足以及噪声、色偏难以同时校正的问题,本研究提出一种基于物理引导的图像亮度增强神经网络。该方法在线性空间中分解图像的亮度与色度,以少量超参数控制的单调色调曲线构成物理主干网络,残差网络仅学习幅度受限的局部补偿,并将多种物理一致性软约束引入作为损失函数的一部分。在低照度街景数据集上的实验结果显示,该神经网络在多种指标上均具有较优表现。研究证实,将可解释的物理模型与数据驱动的神经网络相结合,能显著提升图像亮度增强结果的自然度与稳定性,为跨场景应用提供技术基础。

关键词

神经网络;低照度;图像增强;影视画面增强;交互画面增强

1

引言

图像亮度增强(Image Luminance Enhancement)作为底层视觉任务(Low⁃Level Vision Task)的核心之一,长期以来在电影后期调色、视觉特效(VFX)、高动态范围(HDR)内容生成等领域扮演着关键角色。传统的增强方法主要基于如直方图均衡化(HE)算法一类的统计模型[1]或基于视网膜大脑皮层(Retinex)理论的物理模型[2]。这类方法具备计算高效且可解释性强的优势,但在面对复杂光照环境或非均匀噪声时,往往难以兼顾全局动态范围与局部纹理细节的平衡,易产生光晕效应或色彩偏移。

近年来,随着深度学习(DL)的兴起,以U⁃Net与Transformer为代表的深度神经网络(DNN)架构,通过数据驱动的方法在图像重建与增强任务中取得了显著进展[3]。其凭借强大的特征提取与上下文建模能力,大幅提升了增强效果的视觉质量。然而,纯数据驱动模型通常存在物理一致性缺失的问题:其倾向于过度拟合训练数据的分布,而在处理未见过的场景时,容易产生违反物理规律的伪影。此外,这类模型通常依赖大规模的配对数据集进行监督训练,这在高质量HDR内容生成或视效数据稀缺的场景下难以实现。

为引入物理约束以提升模型的泛化性,物理信息神经网络(Physics⁃Informed Neural Networks, PINN)提供了一种新思路[4]。物理信息神经网络通过将物理方程,特别是偏微分方程(PDE)嵌入损失函数(Loss Function)来约束解空间。然而,将物理信息神经网络直接迁移至复杂的成像链路(ISP Pipeline)面临巨大障碍,成像过程涉及照明、反射、传感器噪声及非线性色调映射(Non⁃Linear Tone Mapping)的多重耦合,难以用单一、显式的偏微分方程精准描述。

针对上述局限,本文提出一种基于物理引导的图像亮度增强神经网络(Physics⁃Guided Image Luminance Enhancement Neural Network)(以下简称“物理引导神经网络”)。首先,通过一个可解释的物理主干网络将图像解耦为亮度与色度分量,并利用全局参数预测网络在保持原始色度比例的前提下重整亮度分布,构建物理上合理的基线;随后,引入轻量级残差子网,在物理基线引导下,仅对局部细节与高频纹理进行受控的非线性补偿;最后,系统构建一组基于物理先验的软约束损失函数,替代复杂的偏微分方程求解。本实验使用的数据集来自Kaggle:Tanvirnwu/LoLI⁃Street;模型源代码开放在GitHub:PangXingQing/loli⁃pgnn。

为验证方法有效性,本文基于LoLI⁃Street低照度街景数据集开展全面实验:通过消融实验验证物理主干网络、软约束等核心组件的必要性;与TriFuse模型[5]从性能与效率双维度进行对比;并通过逆光、低照度、广域梯度三类典型场景的可视化分析,验证模型在伪影抑制、色彩保真与参数稳定性上的优势。

实验结果表明,该网络在像素级误差控制与部署效率上实现显著提升,能在计算资源受限条件下,稳定输出曝光合理、色彩自然、细节丰富的增强图像。本研究不仅证实了可解释物理模型与数据驱动网络融合的有效性,更解决了传统方法与纯深度学习模型的核心矛盾,为高质量影视制作、实时交互系统等跨场景应用提供了兼具效能与鲁棒性的底层视觉增强解决方案。

2

相关研究

2.1 传统图像亮度增强算法

传统亮度增强算法主要分为直方图均衡化、视网膜大脑皮层理论与伽马映射(Gamma Mapping)3大类,其为现代深度学习神经网络提供了重要的物理先验方法。

直方图均衡化及其变体通过重映射像素灰度分布来扩展动态范围。尽管各类改进算法通过分段策略或群体智能优化剪切阈值(Clip Limit)有效提升了全局对比度,但这类统计学方法往往忽略了图像的空间结构,容易在平滑区域引入噪声或导致局部过增强[6,7]。

视网膜大脑皮层理论将图像建模为照明分量与反射分量的乘积,旨在消除不均匀光照以恢复物体本征颜色。多尺度视网膜大脑皮层理论方法通常引入偏微分方程或变分正则化来约束照明层的平滑性与边缘保持特性。虽然该类方法在理论上具备严谨性,但求解偏微分方程计算开销大,且涉及复杂的参数调节,难以满足实时性需求[8]。

在工程实践中,基于伽马映射与色彩空间分离的方法因其高效性与稳定性而被广泛采用。其核心思想是将图像解耦为亮度与色度通道,仅对亮度执行单调的幂律变换,从而在提升亮度的同时严格保持原始色度比例。

本文提出的物理引导神经网络综合了上述各方法的优点,并将其形式化为神经网络中的物理主干网络:通过线性化与解耦操作确保色彩空间的独立性,利用全局统计特征预测受限的伽马曲线,从而为后续的残差学习提供一个数值稳定、无色偏的物理基线。

2.2 基于深度神经网络的图像增强

数据驱动的深度神经网络凭借其强大的特征学习与映射能力,已成为图像增强领域的核心支撑技术。早期基于卷积神经网络(CNN)的方法有效提取图像的低层细节特征。随后,以U⁃Net为代表的编码器-解码器(Encoder⁃Decoder)架构通过下采样扩大感受野(Receptive Field),并利用跳跃连接(Skip Connections)融合深层语义与浅层纹理,成为图像复原任务的主流骨干。然而,基于卷积神经网络的U⁃Net结构受限于卷积核的局部归纳偏置(Inductive Bias),在捕捉长程依赖(Long⁃Range Dependency)和处理全局光照不一致性方面存在先天不足[9]。为解决局部性限制,基于自注意力机制的Transformer架构被提出,这类模型通过其全局建模能力,能够捕捉像素间的长距离关联,有效弥补了卷积神经网络在全局特征提取方面的不足,能够更准确地恢复图像的整体亮度分布与结构一致性。然而,单一使用Transformer架构通常面临巨大的计算开销,且在极低照度下的局部纹理合成上容易出现伪影[10]。

相比之下,混合网络架构通过融合多种方法的优势,成为提升图像亮度解决方案的新研究方向[11—14]。TriFuse模型[5]专门针对真实场景中的低光图像,构建了特征提取、条件去噪与细节增强的3阶段混合架构。DarkIR模型[15]则首次实现了低光照增强、去模糊及去噪的端到端统一处理,采用的非对称编码器-解码器架构,通过任务解耦与区域分工的理念优化全局光照。此外,该模型在轻量化设计上表现出色,相比于其他模型,参数量大幅减少。LYT⁃Net模型[16]专注于资源受限场景的高效部署,通过色彩空间解耦与轻量化模块设计实现低光照增强性能的平衡。

尽管上述代表性方法在不同维度推动了低照度增强的性能上限,但也揭示出当前研究仍存在的3方面问题:一是全局曝光校正与局部纹理复原难以兼顾;二是色彩一致性约束不足导致色偏与伪影;三是在追求效果时往往引入较高的计算开销。针对上述问题,本文提出的物理引导神经网络在结构上以轻量级全连接网络从整图统计特征预测可解释的全局曝光参数,先构建物理合理的亮度基线,再以带跳连的残差编解码器对局部高频细节进行受控补偿,以减少计算量与硬件消耗。

2.3 物理信息神经网络与物理先验思想

传统的深度图像增强模型主要依赖均方误差(MSE)或平均绝对误差(MAE)等像素级损失进行监督训练。然而,纯数据驱动的损失函数往往忽略了成像过程的物理规律,容易导致过拟合、伪影或色彩失真[17]。

物理信息神经网络通过将控制偏微分方程及边界条件作为正则项嵌入损失函数,实现了在少样本或无监督条件下对物理场的精确求解,并早已应用于声场重建等领域[18]。近年来,随着物理先验与深度学习融合技术的不断发展,一系列聚焦低照度图像增强的物理先验架构相继涌现,为解决传统物理信息神经网络的应用局限提供了新思路。RSFNet模型[19]虽最初面向语义分割任务,但其核心设计为图像增强的物理约束提供了重要借鉴,该模型采用非对称编码器(Encoder)学习多模态互补特征,创新的残差空间融合(RSF)模块通过层次化特征聚合策略,结合带有残差连接的空间权重置信门,自适应控制跨模态特征融合过程。LightenDiffusion模型[20]则将物理可解释性与扩散模型(Diffusion Model)的生成能力深度结合,成为无监督低光图像增强的代表性成果,但该模型依赖复杂的潜空间分解与扩散过程,推理速度较慢,难以满足实时应用需求。

鉴于成像系统的非线性与复杂性,物理引导神经网络对物理信息神经网络的思想进行了领域适配。系统不再求解复杂的偏微分方程,而是将成像先验转化为一组可计算的软约束嵌入损失函数,这些软约束主要包括:曝光单调性约束、线性色度保持约束及参数物理区间约束等。通过这种方式使神经网络在不依赖大规模配对数据的情况下,能够自适应地学习到符合物理规律的增强映射。

3

系统设计

3.1 总体架构

物理引导神经网络由带有可解释物理主干的全连接神经网络与基于U⁃Net架构的残差网络两部分构成,如图1所示。

打开网易新闻 查看更多图片

图1 系统总体架构示意图

在处理流程上,考虑到伽马映射带来的非线性失真,系统首先将输入的原始图像映射至线性域并解耦为亮度与色度分量。物理主干网络专注于全局曝光校正,其利用轻量级的全连接网络预测一组受限参数,仅对亮度通道进行单调色调映射,并与保持不变的色度分量重组,进而生成图像的物理基线以便后期进行修正补偿。这一设计确保了在重整图像亮度动态范围的同时,严格保持原始图像的色彩比例。

为弥补物理模型在细粒度纹理与高频信息上的不足,系统引入残差网络。其以原始图像输入与物理基线为双路输入,通过带跳连的卷积结构生成幅度受控的局部补偿,也就是残差。最终的预测输出则由物理基线与残差融合而成。

在模型优化过程中,不再依赖复杂的偏微分方程求解,转而采用将一组带加权的软约束条件直接融入损失函数的策略。这些软约束主要包括:曝光区间的合理性、色彩或白平衡的线性保持、参数的物理范围限制等。这一策略使神经网络在端到端的训练中,能够自适应地平衡亮度增强、色彩还原与细节恢复等多种图像属性。

3.2 物理主干网络设计

物理主干网络的核心目标是在保持原始线性色度比例不变的前提下,通过单调、可控且可解释的方式重整亮度分布。如图2所示,该过程主要包含3个阶段,即线性解耦、参数预测与物理映射。

打开网易新闻 查看更多图片

图2 物理主干网络流程示意图

首先,系统将任意颜色空间的输入图像映射至线性颜色空间,并基于标准亮度加权系数提取线性亮度。为实现色彩保真,系统进一步计算逐像素的色度分量,并在计算过程中引入数值稳定常数。色度分量在后续流程中保持不变,仅作为色彩比例的参考,从而确保亮度调整不会引发色偏。

随后进入参数预测阶段。系统对处于线性颜色空间的图像执行全局平均池化(Global Average Pooling),提取全图的颜色与亮度统计特征向量。该向量被送入一个轻量级的全连接神经网络,并预测出与亮度计算相关的两个关键物理控制参数:全局伽马指数(幂律指数)与增益系数。为保证输出曲线符合物理规律,网络末端采用非线性激活函数与仿射变换,严格将全局伽马指数与增益系数约束在预设的合理曝光区间内,并通过额外的惩罚项防止参数越界。

最后,系统在亮度域以全局伽马指数与增益系数作为参数执行单调幂律映射,获得增强亮度,该亮度与线性色度分量重组得到增强后的线性基线。该基线通过非线性变换映射回原颜色空间后,最终得到物理基线。该流程确保了增强结果在动态范围扩展的同时,严格遵循传统成像管线的物理一致性。

为确保物理主干网络遵循单调可控与数值稳定的原则,系统在训练过程中对关键超参数施加了明确的物理约束。经过多次调试后,各参数的取值范围及作用设定如下。

(1)映射曲线控制。系统将全局伽马指数限制在[0.45,1.10]区间内,以平衡暗部提升与高光压制;增益系数限制在[0.80,1.70]区间,用于控制整体亮度的线性缩放幅度。

(2)数值稳定常数。为防止在提取颜色信息时出现计算错误(例如在极暗区域亮度接近于零导致除法失效),系统设定亮度映射的最小下限为10-6;同时,在计算颜色与亮度的比值时,向分母添加10-3作为稳定项,这不仅避免了除零风险,还能有效抑制暗部噪声被错误放大。

(3)边界保护。设置颜色与亮度的比值上限约为2.0,以防止像素出现极端的颜色溢出;将细化残差的缩放系数设定为(0.00,1.00]区间,严格限制残差分支的调整幅度,确保物理主干网络起主导作用;此外,引入数值为0.3的软缓冲区间,用于在参数接近边界时计算渐进的惩罚损失。

3.3 残差网络模型设计

为在物理基线之上实现细粒度的纹理恢复与局部对比度微调,同时不破坏已确立的全局曝光与色彩结构,系统构建了一个受约束的条件残差网络。如图3所示,其采用经典的U⁃Net架构,通过多尺度上下文聚合与跳跃连接机制,在物理合理性与感知质量间建立平衡。

打开网易新闻 查看更多图片

图3 残差网络流程示意图

网络采用双路通道拼接(Channel⁃wise Concatenation)策略构建四维输入张量。这4个维度分别表示:训练批大小(Batch Size)、原始图像与物理基线的所有属性叠加通道数量、图像的高度、图像的宽度,其中属性通道的具体数值为6(两组颜色空间叠加)。这种设计使网络不仅能感知原始的纹理细节,还能直接获取已经过物理校正的曝光参考。对于每个像素位置,网络能通过比较原始信号与物理基线的差异,学习出哪些区域依然欠曝光或存在伪影,从而将注意力集中在需要修正的局部,而非对全图进行盲目重构。

编码器包含4个下采样阶段。输入首先经过双重卷积(DoubleConv)模块,将属性特征通道从6通道扩展至32通道,在保持轻量化的同时提取浅层纹理特征。随后,通过最大池化层(Max Pooling Layer)逐步降低空间分辨率并倍增通道数,以扩大感受野,使深层特征能够捕获更大范围的光照分布与结构语义。解码器(Decoder)与之对称,利用转置卷积进行上采样,并通过跳跃连接融合编码器同层的高频细节,有效解决了深层网络容易丢失边缘信息的问题。

在解码器末端,系统采用逐点卷积(Pointwise Convolution)层将高维特征投影回3通道颜色空间。为贯彻微调的设计理念,输出层并未直接生成最终图像,而是生成一个幅度受限的残差。具体而言,网络输出经过非线性激活函数压缩至(-1.00,1.00)区间,并乘以一个前文提到的可学习或预设的细化残差缩放系数。这一机制为残差施加了明确的物理上界,强制网络仅在必要区域生成非零响应,而在曝光已合理的区域输出近似为零。

最终的增强输出图像由物理基线与残差叠加而成。这种结构,既利用了U⁃Net架构强大的细节生成能力实现了抑噪与锐化,又通过幅度约束避免了常见的神经网络伪影(如光晕、色偏),确保了增强结果的自然与稳定。

3.4 损失函数与优化目标

物理引导神经网络的核心优势在于摒弃了物理信息神经网络方法中高计算开销的偏微分方程残差求解,转而通过构建一组由物理约束结合感知一致性的复合损失函数来驱动端到端训练,同时实现曝光校正、色彩保真与纹理复原。总优化目标定义为以下各子项的加权和。

3.4.1 重建与一致性损失

(1)像素级重建:衡量预测输出与参考图像间的均方误差,确保基础内容的准确性。

(2)亮度一致性:强制输出图像的亮度分布贴合物理主干网络的预测结果,防止残差网络产生过大的亮度漂移,保证整体曝光的物理合理性。

3.4.2 色彩正则化损失

(1)色度保持:约束增强后的色度比例与原始线性色度保持一致,最大程度减少因亮度调整引发的饱和度失真。

(2)全局色彩均衡:基于灰度世界假设(Gray World Assumption),校正全局白平衡偏差。

(3)特定通道约束:包含中性区域保真与绿色抑制,前者保护非彩色区域(如白墙、水泥地)不发生色偏,后者专门抑制低照度增强中常见的绿色通道伪影。

3.4.3 物理先验约束

物理先验约束专门针对物理主干网络中的参数预测模块,通过惩罚项强制全局伽马指数与增益系数始终落在预设的物理可行区间内(即前文所述的单调区间),避免网络为拟合数据而生成退化的色调曲线。

在总损失中引入权重系数至关重要。由于上述各子项衡量的是不同维度的物理量(如像素值差、参数范围、统计分布),其在数值量纲上存在显著差异。若简单叠加,量级较大的项将主导梯度下降(Gradient Dominance)的方向,导致细节恢复或微小的色彩校正被忽略。此外,不同约束在训练阶段的收敛需求并不一致:曝光相关项宜在早期快速收敛以确立全局结构,而纹理与色度的微调更适合在中后期起效。合理的加权策略能够平衡各任务的梯度贡献。

3.5 训练策略优化

为确保模型在小样本与弱监督条件下能够稳定收敛,并有效抑制偏色与过增强现象,物理引导神经网络引入了针对物理主干网络与残差网络协同架构的特定训练策略。

(1) 参数预测头的中心化、初始化与几何先验

为防止训练初期出现极端曝光预测导致的梯度不稳定,物理主干网络的参数预测头采用中心化初始化策略:输出层的权重与偏置初始化为零,使初始的全局伽马指数与增益系数位于物理可行区间的中点。该策略有效规避了初始阶段的剧烈震荡。此外,结合前述的参数先验损失,系统对越界参数施加带缓冲的二次软惩罚,迫使网络在保持单调性与物理可解释性的约束下搜索最优解。

(2) 有界残差学习与主干主导机制

为贯彻物理为主,数据为辅的设计理念,残差网络的输出被严格限制在特定幅度内。训练过程中,残差首先经过非线性激活压缩至单位区间,随后通过可学习或预设的缩放因子映射至实际作用域,最终融合在非线性色彩空间执行截断(Clipping)操作。这一有界性约束(Boundedness Constraint)确保了由物理主干网络确立的全局亮度与色度关系始终占据主导地位,残差网络仅被允许在极小的数值空间内进行局部纹理补偿,从而从根源上降低了过度锐化、光晕效应及通道漂移的风险。

(3) 曝光锁定与精细化微调

训练流程采用两阶段策略。在主训练阶段完成后,系统进入微调(Fine⁃Tuning)阶段,学习率大幅衰减,同时保持全量参数更新与完整的损失函数约束。由于此时全局伽马指数与增益系数已受到先验项的强力锚定,微调阶段主要驱动网络在局部极小值附近进一步搜索,专注于高频纹理的复原与微妙色彩偏差的修正,实现锁定全局曝光、收敛局部细节的优化目标。

4

实验与分析

4.1 实验设置

实验基于LoLI⁃Street低照度街景数据集构建。数据集被划分为训练集(Train)与验证集(Val),并采用文件名匹配策略构建成对(Paired)样本。所有图像在预处理阶段统一将宽高都调整为128像素,并归一化至非线性颜色空间,以适应网络输入需求。

模型基于PyTorch框架实现,在单张16 GB显存的英伟达(NVIDIA)GPU上进行训练,批次大小设为64。训练过程采用两阶段优化策略。

主训练阶段(Coarse Stage)对数据进行200轮(Epoch)训练:采用数值为5×10-4的较高学习率,旨在快速确定由物理主干网络主导的全局曝光曲线,并促使残差子网完成结构性的对比度恢复。引入早停机制,当验证集的损失函数误差值连续5轮训练无显著下降时自动终止,以防止过拟合。

微调阶段对数据进行50轮训练:学习率衰减至1×10-4,在锁定全局曝光特性的前提下,集中优化色彩一致性并消除局部伪影。同时也引入了与主训练阶段相同的早停机制。

4.2 定量评估与消融研究

为验证物理引导神经网络各组件的有效性,本研究在验证集上对4种模型配置进行了对比消融实验,分别是:只包含残差网络并以此作为其他配置对比基线的配置、只包含残差网络与作用于损失函数的软约束的配置、只包含残差网络与物理主干网络的配置以及包含前述所有内容的完整物理引导神经网络。

表1展示了各模型在重建精度〔峰值信噪比(PSNR)、结构相似性(SSIM)、归一化后的平均绝对误差(MAE)〕与感知质量〔学习感知图像块相似度(LPIPS)、自然图像质量评价(NIQE)〕上的综合表现。对比可知,物理主干网络的引入带来了性能的质变,PSNR的值平均提升约 4~11 dB,同时SSIM的值则显著跃升。这证实了在线性空间进行“亮度-色度分解”与“全局色调映射”是解决低照度问题的关键,该方式为残差网络提供了一个合理的曝光起点,极大降低了拟合难度。虽然在物理残差的基础上引入物理引导神经网络的软约束后各数据提升有限,但在完整的物理引导神经网络中,这些软约束与模型其他部分呈现出显著的协同效应。这些物理一致性约束,进一步抑制了极端样本中的过曝与色偏,使完整的物理引导神经网络在所有指标上均取得最优值。

表1 LoLI⁃Street Val 各模型配置平均指标

打开网易新闻 查看更多图片

从PSNR⁃SSIM散点分布(图 4)可看出,物理引导神经网络的样本点高度集中于坐标系右上方(高精度、高结构相似性区域),而缺乏物理主干网络的模型则呈现明显的离散分布。这表明物理引导神经网络不仅平均性能优异,且对多样化的街景样本具有更强的鲁棒性,有效克服了纯数据驱动方法的不稳定缺陷。

打开网易新闻 查看更多图片

图4 PSNR⁃SSIM 散点图(Val中随机200个样本)

4.3 TriFuse模型对比实验

对比实验选取低照度图像增强领域的当前最优水平(SOTA)模型 TriFuse进行对比。TriFuse是LoLI⁃Street数据集的创建者,并在该数据集上表现出优秀性能。评估仅保留核心项性能指标,并引入效率指标:参数量(Params)、浮点运算次数(FLOPs)与平均推理时间(AIT);实验环境统一基于PyTorch框架,单张NVIDIA GPU推理,图像输入尺寸统一为128像素,批次大小为64,实验结果如表2所示。

表2 物理引导神经网络模型与TriFuse的定量性能对比表

打开网易新闻 查看更多图片

客观性能指标对比方面,TriFuse在通用视觉质量指标上呈现明显优势,这一差异源于 TriFuse 通过Transformer的长距离依赖建模与扩散模型的生成式去噪能力,能够更精准还原图像全局光照分布与结构一致性,在主观视觉感知的自然度与细节丰富度上表现更优;而物理引导神经网络则在像素级误差控制上实现了突破性优势,其平均绝对误差仅为TriFuse的1/4,这一核心优势得益于本文模型的物理引导机制,从底层限制了像素预测的偏差范围。

效率指标对比上,物理引导神经网络展现出优秀的部署能力与架构合理性:尽管参数量高于TriFuse,但通过轻量化架构设计,其浮点运算次数仅为TriFuse的5%,平均推理时间仅为TriFuse的10%,有效规避了TriFuse带来的高额计算开销,更适配低算力设备与实时交互场景。

4.4 定性分析与可视化对比

为直观评估不同配置下的图像增强质量,图5展示了3组典型场景的视觉对比。这些样本清晰地揭示了各消融模块在伪影抑制与色彩复原上的行为差异。

打开网易新闻 查看更多图片

图5 各消融模型可视化对比

(1)逆光场景下的色彩保真与伪影抑制

如图5柴犬样例所示,在强逆光的高动态范围(HDR)场景中,无论是只使用残差网络,还是在此基础上引入软约束后的模型配置都难以兼顾亮度提升与色彩还原,导致天空区域出现网格状伪影,且主体毛发产生不自然的红白偏色。实验表明,无软约束配置的模型极易在数值边缘区域(如极暗或极亮处)发生退化,导致只包含残差网络与物理主干网络的模型在阴影处产生严重的绿色斑块与数值截断。相较之下,物理引导神经网络通过引入物理一致性软约束,有效规范了全局参数的搜索空间,不仅消除了绿色伪影与色调断层,更精准还原了柴犬的棕黄毛色,在保留夕阳暖调氛围的同时实现了天空梯度的平滑过渡。

(2)低照度下的纹理恢复与信噪比平衡

如图5黑猫样例所示,针对黑色物体的纹理恢复主要考验模型对噪声与有效信号的解耦能力。在该场景中,仅包含残差网络与物理主干网络的模型表现出过拟合倾向,过度拉伸了对比度曲线,导致背景高光溢出的过曝现象且主体面部生硬。而仅包含残差网络的模型则倾向于将黑色毛发的高频纹理错误地识别并增强为灰白色噪点。物理引导神经网络展现了最优的信噪比平衡策略,其利用物理先验知识构建了更柔和的增强曲线,在避免背景过曝的前提下,成功保留了黑色毛发的微细纹理与眼部的高光神态,实现了视觉感知的自然化。

(3)广域梯度场景的参数稳定性分析

如图5校园日落样例所示,在天空这类大面积渐变区域与深邃阴影并存的复杂场景中,参数估计的稳定性至关重要。仅包含残差网络的模型在此处暴露了明显缺陷,该模型因上采样或卷积操作在平滑区域引入了带状伪影(Banding Artifacts),在引入物理主干网络后,模型则因参数估计溢出,在画面底部产生了显著的黑斑与色彩崩塌。物理引导神经网络凭借物理一致性约束有效抑制了这种参数漂移现象,确保了全局光照估计的连续性。最终结果中,天空完美呈现了“蓝色时刻”的纯净渐变,且地面暗部细节层次分明,验证了物理约束在防止极端参数预测方面的鲁棒性。

可视化结果证明了本文核心观点的正确性:单独的物理主干网络虽然能提供强有力的曝光引导,但缺乏软约束时极易产生数值不稳定性(如绿色或黑色斑块);只有物理引导神经网络通过物理一致性软约束施加明确的参数先验与平滑性约束,才能在利用物理先验提升亮度的同时,确保结果的鲁棒性与视觉自然度。

5

结论与展望

本文提出一种基于物理引导的图像亮度增强网络,采用物理主干网络结合残差网络微调的混合架构,在小样本与算力受限条件下有效解决了低照度增强中的物理一致性缺失与色彩失真问题。实验结果表明,该网络在测试数据集上表现出良好的像素级误差控制能力与部署效率,能够在计算资源受限条件下稳定输出曝光合理、色彩自然、细节丰富的增强图像。研究证实,将可解释物理模型与数据驱动网络相融合的技术思路,可为图像亮度增强提供切实可行的新路径,同时为高质量影视制作、实时交互画面处理等相关场景应用奠定技术基础。

展望未来,本研究提出的技术方案在影视行业具备广阔且深入的应用前景。在专业制作场景中,模型可适配影视后期调色与视觉特效合成需求,针对低照度夜景、强逆光等复杂光照拍摄素材,实现亮度与细节的精准优化,同时抑制色偏与伪影,显著降低逐帧修复的人工成本;对于经典影视的高清化重制,该方案能够在提升画面亮度、还原暗部细节的同时,较好保留原始胶片质感与色彩基调,助力影视文化遗产的数字化传承。在前沿制作领域,其轻量化推理优势可满足虚拟摄影棚、高帧率虚拟摄制的实时处理需求,通过校准虚拟场景与实拍前景的光照匹配度,减少光影失真问题,为虚拟与真实画面的无缝融合提供技术保障。随着影视行业向沉浸式内容、多模态交互方向发展,该技术可进一步与虚拟现实(VR)或增强现实(AR)影像等新媒介结合,通过动态光照适配与像素级光影模拟,提升沉浸式内容的视觉可信度;其轻量化架构亦可为影视创作工具的普适化发展提供支持,降低高品质影像制作的技术门槛,进而推动全民影视创作生态的多元化发展,为影视行业的技术迭代与形态创新注入持续动力。

参考文献

(向下滑动阅读)

[1] 丁畅, 董丽丽, 许文海. “直方图”均衡化图像增强技术研究综述[J]. 计算机工程与应用, 2017, 53(23): 12⁃17.

[2] 帅姣妍, 顾晓娟. 曝光校正算法及其在短视频中的应用研究[J]. 现代电影技术, 2022(11): 31⁃39.

[3] TRAN L A, TRAN C N, NGUYEN N L, et al. Low⁃light enhancement via encoder⁃decoder network with illumination guidance[EB/OL]. (2025⁃07⁃04)[2025⁃12⁃28]. https://arxiv.org/abs/2507.13360.

[4] KARAKONSTANTIS X, CAVIEDES⁃NOZAL D, RICHARD A, et al. Room impulse response reconstruction with physics⁃informed deep learning[EB/OL]. (2024⁃01⁃02)[2025⁃12⁃28]. https://arxiv.org/abs/2401.01206.

[5] ISLAM M T, ALAM I, WOO S S, et al. LoLI⁃Street: Benchmarking Low⁃Light Image Enhancement and Beyond [EB/OL]. (2024⁃10⁃13)[2025⁃12⁃28]. https://doi.org/10.48550/arXiv.2410.09831.

[6] PATEL O, MARAVI Y P S, SHARMA S. A comparative study of histogram equalization based image enhancement techniques for brightness preservation and contrast enhancement[EB/OL]. (2013⁃11⁃16)[2025⁃12⁃28]. https://arxiv.org/abs/1311.4033.

[7] AEDLA R, DWARAKISH G S, REDDY D V. A comparative analysis of histogram equalization based techniques for contrast enhancement and brightness preserving[J/OL]. International Journal of Signal Processing, Image Processing and Pattern Recognition, 2013, 6(5): 353⁃366[2025⁃12⁃28]. http://dx.doi.org/10.14257/ijsip.2013.6.5.31.

[8] 杨崇智. 基于偏微分方程改进模型的声呐图像增强方法研究[D]. 哈尔滨: 哈尔滨工程大学, 2018.

[9] WANG T, ZHANG K, SHEN T, et al. Ultra⁃high⁃definition low⁃light image enhancement: a benchmark and transformer⁃based method[EB/OL]. (2022⁃12⁃22)[2025⁃12⁃28]. https://arxiv.org/abs/2212.11548.

[10] LORE K G, AKINTAYO A, SARKAR S. LLNet: a deep autoencoder approach to natural low⁃light image enhancement[EB/OL]. (2015⁃11⁃12)[2025⁃12⁃28]. https://arxiv.org/abs/1511.03995.

[11] WANG Z, CUN X, BAO J, et al. Uformer: a general u⁃shaped transformer for image restoration[EB/OL]. (2021⁃11⁃25)[2025⁃12⁃28]. https://arxiv.org/abs/2106.03106.

[12] YUAN N, ZHAO X, SUN B, et al. Low⁃light image enhancement by combining transformer and convolutional neural network[J/OL]. Mathematics, 2023, 11(7): 1657[2025⁃12⁃28]. https://doi.org/10.3390/math11071657.

[13] HE M, WANG R, ZHANG M, et al. SwinLightGAN: a study of low⁃light image enhancement algorithms using depth residuals and transformer techniques[J/OL]. Scientific Reports, 2025, 15: 12151[2025⁃12⁃28]. https://doi.org/10.1038/s41598-025-95329-8.

[14] BI C, QIAN W, CAO J, et al. LightingFormer: transformer⁃CNN hybrid network for low⁃light image enhancement[J].Computer & Graphics, 2024,124:104089.

[15] FEIJOO D, BENITO J C, GARCIA A, et al. DarkIR: Robust Low⁃Light Image Restoration [EB/OL]. (2024⁃12⁃18)[2025⁃12⁃28]. https://doi.org/10.48550/arXiv.2412.13443.

[16] BRATEANU A, BALMEZ R, AVRAM A, et al. LYT⁃NET: Lightweight YUV Transformer⁃based Network for Low⁃light Image Enhancement [EB/OL]. (2024⁃01⁃26)[2025⁃12⁃28]. https://doi.org/10.48550/arXiv.2401.15204.

[17] LIANG D, XU Z, LI L, et al. PIE: physics⁃inspired low⁃light enhancement[EB/OL]. (2024⁃04⁃06)[2025⁃12⁃28]. https://arxiv.org/abs/2404.04586.

[18] PEZZOLI M, ANTONACCI F, SARTI A. Implicit neural representation with physics⁃informed neural networks for the reconstruction of the early part of room impulse responses[EB/OL]. (2023⁃06⁃20)[2025⁃12⁃28]. https://arxiv.org/abs/2306.11509.

[19] SAINI S, NARAYANAN P J. Specularity Factorization for Low⁃Light Enhancement [EB/OL]. (2024⁃04⁃02)[2025⁃12⁃28]. https://doi.org/10.48550/arXiv.2404.01998.

[20] JIANG H, LUO A, LIU X H, et al. LightenDiffusion: Unsupervised Low⁃Light Image Enhancement with Latent⁃Retinex Diffusion Models [EB/OL]. (2024⁃07⁃12)[2025⁃12⁃28]. https://doi.org/10.48550/arXiv.2407.08939.

刘达等:智能时代电影科技发展演进与虚拟现实电影创新提质研究

王慧明等:6G网络赋能沉浸式多媒体与未来电影:从关键能力到应用落地

期刊导读 |《现代电影技术》2026年第1期

打开网易新闻 查看更多图片