新金瓶梅3d ECCV 2024|盲视频去精通通用要道BlazeBVD来了,好意思图&国科大冷落

发布日期:2024-07-29 22:52    点击次数:146

新金瓶梅3d ECCV 2024|盲视频去精通通用要道BlazeBVD来了,好意思图&国科大冷落

着手:机器之心Pro新金瓶梅3d

AIxiv专栏是机器之心发布学术、时刻实质的栏目。畴前数年,机器之心AIxiv专栏接纳报谈了2000多篇实质,遮盖寰球各大高校与企业的顶级推行室,有用促进了学术疏通与传播。要是您有优秀的责任思要共享,迎接投稿大概有关报谈。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

比年,短视频生态的赛谈迅猛崛起,围绕短视频而生的创作剪辑器用在不休败露,好意思图公司旗下专科手机视频剪辑器用 ——Wink,凭借草创的视频画质树立才略独占鳌头,海表里用户量握续攀升。

Wink 画质树建功能火爆的背后,是好意思图在视频剪辑应用需求加快开释布景下,对用户视频画面费解不清、噪点严重、画质低等视频创作痛点的洞悉,与此同期,也成就在好意思图影像接头院(MT Lab)强有劲的视频树立与视频增强时刻解救下,现在已推出画质树立 - 高清、画质树立 - 超清、画质树立 - 东谈主像增强、别离率升迁等功能。

日前,好意思图影像接头院(MT Lab)祛除中国科学院大学更冲破性地冷落了基于 STE 的盲视频去精通 (blind video deflickering, BVD) 新要道 BlazeBVD,用于处理光照精通退化未知的低质地视频,尽可能保握原视频实质和颜色的圆善性,已被野心计视觉顶会 ECCV 2024 接纳。

论文伙同:https://arxiv.org/pdf/2403.06243v1

王老撸

BlazeBVD 针对的是视频精通场景,视频精通容易对时辰一致性形成影响,而时辰一致性是高质地视频输出的必要条款,即使是渺小的视频精通也有可能严重影响不雅看体验。究其原因,一般是由拍摄环境欠安和拍摄诱惑的硬件扫尾所引起,而当图像处理时刻应用于视频帧时,这个问题经常进一步加重。此外,精通伪影和颜色失真问题在最近的视频生成任务中也时时出现,包括基于生成抗拒相聚 (GAN) 和扩散模子 (DM) 的任务。因此在多样视频处理场景中,探索通过 Blind Video Deflickering (BVD) 来排斥视频精通并保握视频实质的圆善性至关迫切。

BVD 任务不受视频精通原因和精通进度的影响,具有闲居的应用长进,现在对此类任务的温暖,主要包括老电影树立、高速相机拍摄、颜色失真处理等与视频精通类型、精通进度无关的任务,以及仅需在单个精通视频上操作,而不需要视频精通类型、参考视频输入等很是教授信息的任务。此外,BVD 现主要聚拢在传统滤波、强制时序一致性和舆图集等要道,是以尽管深度学习要道在 BVD 任务中得回了谬误推崇,但由于短缺先验常识,在应用层面上受到较大阻隔,BVD 仍然濒临诸多挑战。

BlazeBVD: 有用提高盲视频去精通后果

受经典的精通去除要道圭臬时辰平衡 (scale-time equalization, STE) 的启发,BlazeBVD 引入了直方图补助处罚决策。图像直方图被界说为像素值的散播,它被闲居应用于图像处理,以调换图像的亮度或对比度,给定率性视频,STE 不错通过使用高斯滤波平滑直方图,并使用直方图平衡化雠校每帧中的像素值,从而提高视频的视觉自由性。天然 STE 只对一些渺小的精通有用,但它考证了:

直方图比像素值紧凑得多,不错很好地描写光亮和精通讯息。

直方图序列平滑后的视频在视觉上莫得赫然的精通。

因此,哄骗 STE 和直方图的指示来提高盲视频去精通的质地和速率是可行的。

BlazeBVD 通过对这些直方图进行平滑处理,生成奇异帧辘集、滤波光照图和曝光掩码图,不错在光照波动和曝光过度或不及的情况下杀青快速、自由的纹理复原。与以往的深度学习要道比拟,BlazeBVD 初次邃密地哄骗直方图来裁汰 BVD 任务的学习复杂度,简化了学习视频数据的复杂性和资源坑害,其核心是哄骗 STE 的精通先验,包括用于教授排斥全局精通的滤波照明图、用于识别精通帧索引的奇异帧集,以及用于识别局部受过曝或过阴影响的区域的曝光图。

与此同期,哄骗精通先验,BlazeBVD 伙同了一个全局精通去除模块 (GFRM) 和一个局部精通去除模块 (LFRM),有用地矫正了个别相邻帧的全局照明和局部曝光纹理。此外,为了增强帧间的一致性,还集成了一个轻量级的时序相聚 (TCM),在不坑害大批时辰的情况下提高了性能。

图 1:BlazeBVD 要道与已有要道在盲视频去精通任务上的终止对比

具体而言,BlazeBVD 包括三个阶段:

率先,引入 STE 对视频帧在光照空间下的直方图序列进行雠校,索取包括奇异帧集、滤波后的光照图和曝光图在内的精通先验。

其次,由于滤波后的照明映射具有自由的时辰性能,它们将被用作包含 2D 相聚的全局精通去除模块 (GFRM) 的指示条款,以教授视频帧的情态雠校。另一方面,局部精通去除模块 (LFRM) 基于光流信息来复原局部曝光图标志的过曝或过暗区域。

临了,引入一个轻量级的时序相聚 (TCM) 来处理统统帧,其中遐想了一个自允洽掩模加权耗费来提高视频一致性。

通过对合成视频、真的视频和生成视频的概括推行,展示了 BlazeBVD 优胜的定性和定量终止,杀青了比发轫进的模子推理速率快 10 倍的模子推理速率。

图 2:BlazeBVD 的检修和推理经由

推行终止

大批的推行标明,盲视频精通任务的通用要道 ——BlazeBVD,在合成数据集和真的数据集上优于先前的责任,何况消融推行也考证了 BlazeBVD 所遐想模块的有用性。

表 1:与基线要道的量化对比

图 3:与基线要道的可视化对比

图 4:消融推行

以影像科技助力出产力

该论文冷落了一种用于盲视频精通任务的通用要道 BlazeBVD,哄骗 2D 相聚树立受光照变化或局部曝光问题影响的低质地精通视频。其核心是在照明空间的 STE 滤波器内预处理精通先验;再哄骗这些先验,伙同全局精通去除模块 (GFRM) 和局部精通去除模块 (LFRM),对全局精通和局部曝光纹理进行雠校;临了,哄骗轻量级的时序网 (TCM) 提高视频的关系性和帧间一致性,此外皮模子推理方面也杀青了 10 倍的加快。

四肢中国影像与遐想界限的探索者,好意思图不休推出浅薄高效的 AI 功能,为用户带来立异工作和体验,好意思图影像接头院(MT Lab)四肢核心研发核心,将握续迭代升级 AI 才略,为视频创作家提供全新的视频创作形貌新金瓶梅3d,大开更辽远的世界。