如果要给照片或者视频加上各种滤镜效果,现在用手机就可以轻松搞定!但是如果按照梵高的《星空》、蒙克的《呐喊》或者其他知名画家的艺术风格对视频进行一次后处理,将会诞生怎样的作品呢?
一支来自德国弗莱堡大学的研究团队,采用深度学习技术,在这一问题上取得了突破性的进展。
他们开发出了一项新的方法,通过深度神经网络,将从一副画作中提取出来的特定艺术风格,成功地融入到另外一支视频当中。NVIDIA GPU 让他们能够高效完成这项需要庞大计算能力的工作,带来令人惊讶的结果。 在此之前,研究人员已经通过深度学习技术,实现了将一副画作的艺术风格搬到另一张图像上。
比如像下面 B、C、D、E、F 这几张图,就是在一张德国 neckarfront T¨ubingen 小镇照片(A)的基础上,结合了若干著名画家画作风格而生成的作品。 B 是特纳弥诺陶洛斯的沉船风格,1805 C 是梵高的星夜风格,1889 D 是 Der Schrei 的 Edvard Munch 风格,1893 E 是毕加索的疯狂的女人风格,1910 F 是康定斯基风格,1913
研究人员发现,深度神经网络在处理图像时,其神经活动会对笔触、色彩和其它抽象细节等风格信息进行编码,然后再将此风格套用到被神经网络视作为第二帧图像的内容上。
但是,视频中存在大量的动态画面,将静态画作的风格套用到视频的每一帧上并没有那么简单。
弗莱堡大学博士后研究员 Alexey Dosovitskiy 说:如果逐帧套用算法,最终视频的风格会不一致,会出现闪烁的画面。为此,我们提出了更多的限制项,让视频画面看起来更加一致。
给视频加一层梵高《夜间咖啡馆》的“滤镜效果”
Dosovitskiy 与其他研究员希望控制各帧之间的变化程度,让画面风格保持一致,而此举带来了三大难题: 画面中的角色在场景里移动时,应表现出一致的风格; 背景等静态元素,应该在各帧之间维持一致的风格; 角色离开视野后,背景应该回到角色移动前的样子
最终,研究团队通过在算法中加入限制项,来解决各帧之间风格差异太大的问题。他们还通过长期一致性算法来保证画面的连续性。比如当一个区域再次出现时,便会复制刚刚几帧画面中同一场景同一区域的图像,然后构成当前的画面内容。
巧妙地限制深度学习算法,以得到风格更加一致的视频画面
为了实现这一复杂的工作,研究团队使用了 cuDNN 和 NVIDIA GPU 进行加速处理。结果是,将画作风格搬到高分辨率视频的一帧上,耗时 8 到 10 分钟,比使用多核心 CPU 快了 20 倍!
“这是一项极为耗时的工作,从这个结果就能看出 GPU 的重要性”,Dosovitskiy 如此评价。
目前,研究团队已在直播和动画内容上套用过这项算法,两者均表现出了优秀的渲染结果,不过现在仍做不到画面风格的实时转换。
此外,Dosovitskiy 还认为,观众对直播画面的要求肯定会越来越多。他说:“人们对于画面闪烁非常敏感,看视频的时候,就算闪烁的程度极小,还是能感觉到。”
|