本篇文章3434字,读完约9分钟

雷锋。原版权归csdn程序员杂志所有,作者为魏,出版于2016年7月。雷锋。搜索“雷锋”。com "公共号码)已被原作者授权发表。如需转载,请联系。

解密:“无中生有”的计算机视觉

计算机视觉是一门研究如何让机器“看”的科学。麻省理工学院的拉里·罗伯茨在1963年发表了第一篇博士论文“三维实体的机器感知”,这标志着人工智能的一个新的研究方向——cv的开始。今天,经过50多年的发展,让我们来谈谈让计算机视觉“从无到有”的几个有趣的尝试:

解密:“无中生有”的计算机视觉

超分辨率重建;

图像着色;

看图说话;

肖像修复;

自动图像生成。

可以看出,这五次尝试都在一步一步地进行,难度和趣味性都在逐渐提高。由于篇幅有限,本文只谈视觉问题,没有提及太多具体的技术细节。如果你对某一部分感兴趣,你可以写一篇单独的文章供以后讨论。

解密:“无中生有”的计算机视觉

图像超分辨率去年夏天,一个名为“外服2x”的岛屿应用程序在动画和计算机图形学中大受欢迎。借助深度“卷积神经网络”(cnn)技术,waifu 2x可以将图像的分辨率提高2倍,同时还可以降低图像的噪声。简单地说,就是让电脑填充一些不在原始图片中的像素,让卡通看起来更清晰、更真实。让我们看看图1和图2。我真的很想在童年时看到这样一个高清的龙珠!

解密:“无中生有”的计算机视觉

图1龙珠的超分辨率重建效果。右边是原画,左边是外景2x对同一帧动画的超分辨率重建结果

解密:“无中生有”的计算机视觉

图2外付2x超分辨率重建比较,上部是低分辨率和有噪声的动画图像,左下部是直接放大的结果,右下部是外付2x去噪和超分辨率的结果

解密:“无中生有”的计算机视觉

但是,需要指出的是,图像超分辨率的研究始于2009年前后,只有随着“深度学习”的发展,外服2x才能取得更好的效果。在cnn的具体训练中,输入图像是原始分辨率,对应的超分辨率图像作为目标,构成训练“图像对”。经过模型训练,可以得到超分辨率重建模型。外服2x深度网络的原型是基于CUHK唐晓鸥教授团队的研究结果(如图3所示)。有趣的是,这项研究指出,深度模型可以用传统方法进行定性解释。在图3中,可以通过cnn卷积和汇集操作从低分辨率图像获得抽象特征图。在低分辨率特征图的基础上,卷积和汇集也可以用来实现从低分辨率到高分辨率特征图的非线性映射。最后一步是利用高分辨率特征图重建高分辨率图像。事实上,这三个步骤与传统超分辨率重建方法的三个过程是一致的。

解密:“无中生有”的计算机视觉

图3超分辨率重建的算法流程。从左到右依次是:低分辨率图像(输入)、通过卷积和汇集运算获得的低分辨率特征图、通过低分辨率特征图的非线性映射获得的高分辨率特征图和高分辨率重建图像(输出)

解密:“无中生有”的计算机视觉

图像着色顾名思义,图像着色是没有原始颜色的黑白图像的颜色填充。图像着色也是通过卷积神经网络作为黑白图像和相应彩色图像的“图像对”输入的,但仅通过比较黑白像素和rgb像素来确定填充颜色,效果并不好。因为补色的结果应该符合我们的认知习惯,比如,画一个头发亮绿的“王兴仁”会让人觉得很奇怪。因此,早稻田大学最近在siggraph(2016年顶级国际计算机图形学会议)上发表的一篇论文是基于原始深度模型,加入了一个“分类网络”来预先确定图像中物体的类别,以此为“基础”,然后用颜色填充它们。图4分别给出了模型结构图和一个颜色恢复的例子,恢复效果非常逼真。此外,这种工作也可以用于黑白电影的色彩恢复,这可以通过简单地逐帧给视频着色来完成。

解密:“无中生有”的计算机视觉

图4图像着色深度学习网络的结构和效果。输入的黑白图像分为两个分支,上一个用于图像着色,下一个用于图像分类。在图的红色部分,融合了两个分支的深度特征信息。由于它包含了分类网络特征,因此可以起到“基于分类结果辅助图像着色”的作用

解密:“无中生有”的计算机视觉

图片说明人们常说“用图片说明”,文字是除了图片之外描述世界的另一种方式。最近,一项名为“图像字幕”的研究逐渐升温。它的主要目的是通过计算机视觉和机器学习,从图像中自动生成对人类自然语言的描述,即“看图说话”。一般来说,在图像字幕中,利用cnn获取图像特征,然后将图像特征作为语言模型LSTM(RNN的一种)的输入,整个系统被训练成一个端到端的结构,最终输出图像的语言描述(如图5所示)。

解密:“无中生有”的计算机视觉

图5图像字幕网络结构。图像被作为输入。首先,通过微调多标签分类网络获得预测的类别标签,将其与图像的深度特征一起作为底层语言模型lstm的输入,最后进行联合训练。在下图中,左边一个可以完成图像字幕任务,左边两个是单字图像问答任务,右边一个是句子级图像问答任务

解密:“无中生有”的计算机视觉

6月初,荷兰科学家发表了他们在arxiv上的最新研究成果——“通过深层网络恢复人脸等高线图”。如图6所示,在模型训练阶段,首先利用传统的离线边缘化方法从真实人脸图像中获取对应人脸的轮廓图,并将原始图像和轮廓图组成的“图像对”作为深度网络的输入,进行类似超分辨率重建的模型训练。在预测阶段,输入人脸轮廓(左二张草图),通过卷积神经网络的层抽象和后续的“恢复”操作,可以逐步恢复出像照片一样的人脸图像(右一张),并将其与最左边的真实人脸图像进行比较,这就足够真实了。在模型流程图下,还显示了一些人像复原结果。左边一栏是真实的人像,中间一栏是画家画的人脸轮廓图,作为网络输入对人像进行复原,最后得到右边一栏的复原结果——经过视觉检查,刑侦民警再也不用苦练艺术了。

解密:“无中生有”的计算机视觉

图6人像复原算法流程及效果

自动图像生成回过头来看刚才的四个任务,事实上,它们有一个共同点,那就是它们仍然需要依靠一些“材料”来“无中生有地创造一些东西”,例如“肖像复原”或轮廓画来复原肖像。在接下来的工作中,可以从任何随机矢量生成接近真实场景的图像。

解密:“无中生有”的计算机视觉

无监督学习是计算机视觉领域的圣杯。最近,伊恩古德费勒(ian goodfellow)和约舒亚本吉奥(yoshua bengio)提出的“生成对手网”(Generative Factures Nets)(甘)就是这方面的一个开创性工作。这项工作的灵感来自博弈论中的零和博弈。在二进制零和游戏中,两个玩家的兴趣之和为零或一个常数,即一个赢,另一个输。gan中的两个参与者分别是“判别网络”和“生成网络”,如图7所示。

解密:“无中生有”的计算机视觉

图7生成网络和判别网络

其中,“判别网络”的输入是图像,其功能是判断图像是真实的还是由计算机生成的;“生成网络”的输入是一个随机向量,它可以通过网络“生成”一个张和成图像。该合成图像也可以作为“判别网络”的输入,但此时应判断它是在理想条件下由计算机生成的。

解密:“无中生有”的计算机视觉

接下来,《甘》中的零和博弈发生在“鉴别网络”和“生成网络”上:“生成网络”千方百计使自身生成的图像接近真实图像,从而“愚弄”了“鉴别网络”;而“鉴别网络”总是保持警惕,防止“生成网络”逃脱惩罚...你来了又走,如果你像这样重复,这是相当多的“左和右互相战斗。”gan整个过程的最终目标是获得一个能够逼近真实数据分布的“生成网络”,从而掌握整个真实数据的分布,因此被称为“生成对抗网络”。需要强调的是,gan不再像传统的有监督的深度学习那样需要大量带有类别标记的图像,它可以在没有任何图像标记的情况下进行训练,即在无监督的条件下进行深度学习。在2016年初,基于gan,indico research和facebook ai Lab实现了具有深度卷积神经网络的gan(称为dcgan,深度卷积gan)。这项工作发表在iclr 2016上,这是一个关于表征学习的重要国际会议,并在当时的无监督深度学习模式中取得了最佳结果。图8显示了由dcgan生成的一些卧室图像。

解密:“无中生有”的计算机视觉

图8 dcgan生成的卧室图像

更有趣的是,dcgan还可以像word2vec(如图9所示)一样支持语义级别的图像加减。

图9 dcgan“语义加减”示意图

另外,几天前,加州大学洛杉矶分校的丹尼尔·宋-春竹教授,一个“创成式计算机视觉”的研究领域,发布了他们最新的基于创成式计算机视觉的研究成果:它不仅可以自动合成动态纹理,还可以合成声音,这可以说使无监督的计算机视觉向前迈进了一大步。

解密:“无中生有”的计算机视觉

结论如今,在“深度学习”的帮助下,计算机视觉中的大多数任务的表现都被“刷”到了一个新的高度,甚至像“无中生有”这样的“肖像复原”和“图像生成”的精彩对话也可以高质量地实现,这真是令人兴奋。然而,事实上,它离颠覆人类的所谓人工智能“奇点”还很远,可以预言,计算机视觉或人工智能不能实现真正意义上的“无中生有”,即具有“自我意识”。

解密:“无中生有”的计算机视觉

然而,我们也很高兴能够见证和体验这一计算机视觉乃至整个人工智能的革命浪潮,并相信未来将会有许多无中生有的奇迹。站在潮水的顶端,我激动得晚上睡不着觉。

来源:罗盘报中文网

标题:解密:“无中生有”的计算机视觉

地址:http://www.lzn4.com/lpbxw/11978.html