本篇文章11028字,读完约28分钟
苹果发现这个过程可以产生高度逼真的图像,这已经在质量和用户研究方面得到了证明。
本文由戈壁风险投资授权的我黑马(微信号:gobivc)发布。
几天前,苹果发布了其第一篇关于人工智能(ai)的学术论文,通过积极的训练从模拟和无监督的图像中学习,主要描述了在计算机视觉系统中提高图像识别的方法,这也可能标志着苹果新的研究方向。
以下是本报告的全文:
摘要
随着图形技术的发展,用合成图像训练机器学习模型变得越来越容易,这有助于避免昂贵的注释图像费用。然而,通过合成图像训练机器学习模型可能不会获得令人满意的结果,因为合成图像和真实图像之间存在差异。为了减少这种差异,苹果公司提出了一种模拟+无监督学习的方法,即通过计算机生成图像或合成图像来训练算法的图像识别能力。
事实上,这种模拟+无监督学习需要将未标记的真实图像数据与带注释的合成图像相结合。在很大程度上,它需要一种新的基于生成对抗网络的机器学习技术,通过两个神经网络的相互对抗来生成更逼真的图像。苹果公司对标准的gan算法做了几个关键的修改,以保留注释、避免伪影和训练稳定性:自正则化(self-regulation)-局部对抗损失-使用改进的图像来升级鉴别器。
苹果发现这个过程可以产生高度逼真的图像,这已经在质量和用户研究方面得到了证明。苹果已经通过训练模型评估了眼睛水平和姿势,并对计算机生成的图像进行了定量评估。通过使用合成图像,苹果的图像识别算法取得了很大进展。在没有使用任何标准真实数据的情况下,苹果在mpiigaze数据集上取得了最高水平的结果。
介绍
随着大容量深层神经学习网络的兴起,大规模标注训练数据集变得越来越重要。然而,具有大量数据的标准数据集非常昂贵且耗时。由于这个原因,使用合成图像代替真实图像来训练算法的想法开始出现,因为注释可以自动化。使用xbox360外围kinect评估人体姿势和其他任务都是通过使用合成数据完成的。
(图1:模拟+无监督学习:通过计算机生成的图像或合成图像来训练算法的图像识别能力)
然而,由于合成图像和真实图像之间的差距,使用合成图像训练算法可能会导致许多问题。由于合成图像通常不够真实,神经网络学习只能知道合成图像中的细节,但不能完全识别真实图像,进而不能为算法提供准确的学习。一种解决方案是改进模拟器,但是增加真实性的计算通常非常昂贵,并且渲染器的设计更加困难。此外,即使是顶级渲染器也可能无法模仿真实图像中的所有特征。因此,真实性的缺乏可能导致算法过度拟合合成图像中的不真实细节。
本文中,苹果公司提出了模拟+无监督学习的方法,其目的是利用没有真实数据的模拟器来提高合成图像的真实性。提高真实性可以更好地帮助训练机器学习模型,并且不需要收集任何数据,也不需要人类继续标记图像。除了增加真实性之外,模拟+无监督学习还应该保留用于训练机器学习模型的注释信息,例如,应该保留图1中的注视方向。此外,由于机器学习模型对合成数据中的伪像非常敏感,模拟+无监督学习也应该产生没有伪像的图像。
苹果公司为 模拟+无监督 学习开发出新的方法,称之为simgan,它可以利用称之为 精炼器网络(refiner network) 的神经网络从模拟器中提炼合成图像。图二中展示了这种方法的概述:第一,黑盒子模拟器中生成合成图像,然后利用 精炼器网络 对其进行提炼。为了增加真实性,也就是 模拟+无监督 学习算法的首要需求,我们需要利用类似生成式对抗网络(gan)来训练 精炼器网络 ,进而产生判别网络无法区分真假的精炼图像。苹果公司开发了一种新的模拟+无监督学习方法,叫做simgan,它可以通过使用神经网络从模拟器中提取合成图像。图2显示了这种方法的概述:首先,合成图像是在黑盒模拟器中生成的,然后由细化网络进行细化。为了增加真实性,即模拟+无监督学习算法的主要要求,我们需要使用类似的创成式对抗网络(Generative Survey Network,gan)来训练细化器网络,然后产生不能区分真假的细化图像。
其次,为了保留合成图像上的标注信息,苹果需要利用自正则化损失来弥补对抗损失,并对合成图像和细化图像进行修改。此外,我们还使用完全卷积神经网络在像素级进行操作,并保持全局结构,而不是作为一个整体修改图像内容。
第三,gan框架要求训练两个神经网络相互对抗。他们的目标往往不稳定,容易产生假象。为了避免漂移和更强的伪像,这使得鉴别更加困难,我们需要将鉴别器的接收区域限制为局部接收,而不是整个图像接收,这导致每个图像中多个局部对抗损失。此外,苹果公司还引入了一种提高训练稳定性的方法,即使用细化图像代替当前细化网络中的现有图像来升级鉴别器。
1.1相关工作
Gan框架需要两个神经网络竞争损失,即生成器和鉴别器。其中,生成器网络的目标是在真实图像上绘制随机向量,而鉴别器网络的目标是区分生成图像和真实图像。甘网络最早是由I. Goudoever等人引入的,它可以帮助生成逼真的视觉图像。从那以后,gan做了许多改进,并被投入到有趣的应用中。
(图2:simgan概观:我们利用 精炼器网络 提炼模拟器产生的输出图像,并最大限度地减少局部对抗性损失,并进行自正则化。(图2: Simgan概述:我们使用细化器网络来细化模拟器生成的输出图像,最小化局部对抗损失,并执行自正则化。
对抗损失会欺骗鉴别器网络,从而使其将合成图像误认为真实图像。自正则化可以最小化合成图像和真实图像之间的差异,包括保留注释信息,并允许使用细化的图像来训练机器学习模型。精炼网络和鉴别网络将交替升级。(
X.wang和a. gupta使用结构化的gan来学习表面法线,然后将它们与style gan相结合来生成自然的室内场景。我们建议用对抗性训练来训练循环生成模型。此外,最近推出的igan可以帮助用户在交互模式下改变图像。Cogan与m-y Liu等人开发的gan相结合,可以在不需要图像元组的情况下以多种模式联合分发图像,这有利于开发联合发布解决方案。由x. chen开发的infogan是gan信息论的扩展,它允许有意义的陈述学习。
甘被oncel tuzel用来解决人脸图像的超高分辨率问题。李(c. li)和王(m. wand)提出了马尔科夫链用于有效的纹理合成。w .洛特等人利用拮抗损失预测lstm网络中的视觉序列。在(l. yu)等人提出了seqgan的框架,并通过使用gan来加强学习。最近的许多问题显示了与生成模型领域相关的问题。例如,pixelrnn可以通过使用rnn的softmax损失来预测像素顺序。生成网络侧重于使用随机噪声矢量来生成图像。与我们的模型相比,生成的图像没有标注信息,因此不能用于训练机器学习模型。
已经做出了许多努力来探索合成数据用于各种预测任务,包括视线评估、rgb图像文本检测和分类、字体识别、对象检测、深度图像中的手部姿势评估、rgb-d场景识别、城市场景的语义分割和人体姿势评估。a. gaidon等人的研究表明,用合成数据训练深层神经网络可以提高其性能。我们的工作是对这些方法的补充,我们使用未标记的真实数据来提高模拟器的真实性。
Y.ganin和v. lempitsky使用数据域自适应设置中的合成数据来理解在合成图像和真实图像域变化期间保持不变的特性。王(z. wang)等人使用合成和真实数据来训练级联卷积码的自动编码器,以便理解其字体检测器convnet的低级表示。为了减少真实数据和合成数据之间的域转换,张和其他人学习了多通道编码。与经典的领域自适应方法相反,它利用特定的特征来适应特定的预测任务,并且我们可以通过对抗性训练来弥补图像分布之间的差距。这种方法使我们能够生成非常逼真的图像,可以用来训练任何机器学习模型和执行更多潜在的任务。
2模拟+无监督学习
模拟+无监督学习的目标是使用一组未标记的真实图像来学习属于函数参数的细化器r (x)。我们用x吧。表示精炼的图像,然后会得到x?:= r(x ).在模拟+无监督学习中,最关键的要求是细化图像x?以便它看起来更像真实的图像,同时保留来自模拟器的注释信息。因此,我们建议通过最小化两个损失的组合来学习:
Xi是e ith合成的训练图像,x是相应的细化图像。第一部分是真实性的成本,即给合成图像增加真实性的成本。第二部分表示通过最小化合成图像的细化图像的差异来保存注释信息的成本。在下一节中,我们将扩展这个公式并提供一个优化的算法。
2.1拮抗损失
为了增加合成图像的真实性,苹果需要在合成图像和真实图像之间建立联系。在理想情况下,细化器可能无法将给定图像分类为真实图像或高度细化的图像。这就需要使用对立的鉴频器,即网络D,它可以训练辨别一幅图像是真实图像还是精细图像,而是一个鉴频器网络参数。抗损失训练细化器网络,负责欺骗d网络将细化图像误认为真实图像。苹果公司利用gan方法建立了一个包含两个神经网络的极端博弈模型,并升级了精炼网络R和鉴别网络d。鉴别器网络通过最小化以下损失来更新参数:
这相当于两级分类问题引起的交叉熵误差。)输入合成图像和1?d(。)是真实的形象。到目前为止,我们已经实现了D作为convnet的最后一个输出层,这个样本可能是一个精确的图像。为了训练这个网络,每一小批随机选择的样本由精细的合成图像和真实图像组成。对于每个yj,交叉熵的目标标签损失层是0,每个x?我都对应于1。然后,通过随机梯度下降(sgd),用小批量的梯度损失进行升级。在苹果的实践中,真实性损失函数使用如下训练的鉴别器网络D:
通过最小化损失减少函数,细化网络的能力使得鉴别器不能从合成图像中区分细化图像。除了生成逼真的图像之外,细化网络还应该保存模拟器的注释信息。例如,用于评估视力的学习变换不应该改变注视的方向,而手部姿势评估不应该改变肘部的位置。这是训练机器学习模型使用带有模拟器注释信息的精细图像的必要部分。为了实现这个目标,苹果公司提出使用自正则化,这可以最小化合成图像和细化图像之间的差异。
(算法1)
(图3:局部拮抗损失的图示。鉴别器网络输出wxh概率图。对抗损失函数是局部块上交叉熵损失的和。(
因此,在苹果的实施中,整体精炼损耗函数(1)是:
(4)当||。|1是l1范数,R被认为是一个完全复杂的神经网络,没有跳跃或汇集。合成图像在像素级被修改,而不是作为整体修改图像内容。例如,在完全连接的编码器网络中就是这种情况,保留了全局结构和注释。苹果通过交替最小化lr()和ld()来学习细化器和鉴别器的参数。当更新R的参数时,它们将保持不变,而当更新D时,它们将保持不变。我们在算法1中描述了整个训练过程。
(图4:使用精细图像历史的示意图。有关相关信息,请参考文本描述。(
2.2局部对抗损失
细化网络的另一个关键要求是,它应该学会模拟真实的图像特征,而不引入任何伪影。当训练强鉴别器网络时,细化网络倾向于过分强调一些图像特征来欺骗当前的鉴别器网络,导致偏差和伪像。关键的一点是,我们从细化图像中采样的任何局部补丁都应该具有与真实图像相似的统计数据。因此,可以定制局部鉴别器网络来对局部图像块进行分类,而不是定义全局鉴别器网络。
这不仅限制了接受域,还限制了鉴别器网络的容量,并且为每个图像提供了更多的样本来学习鉴别器网络。同时,由于每幅图像都有多个实际损失值,也提高了网络的训练精度。
在实现中,鉴别器D被设计成一个完整的卷积网络,并输出伪w-h概率图。在后者中,w h是图像中局部面片的数量。当训练精炼网络时,对局部面片的交叉熵损失值求和,如图3所示。
2.3用细化图像的历史更新鉴别器
对抗训练的另一个问题是鉴别器网络只关注最新的精细图像。这可能会导致(I)与对抗训练不一致,以及(ii)重新引入被鉴别者遗忘的人工产物。精炼网络在整个训练过程中的任何时间产生的任何精细图像对于鉴别器来说都是假图像。因此,鉴别器应该能够识别这些图像是假的。基于这一观察,我们引入了一种利用精细图像的历史来提高对抗训练稳定性的方法,而不是在当前的小批量中进行微小的改变。我们稍微改进了算法1,并增加了以前网络生成的精细图像的缓冲。假设b是这个缓冲区的大小,假设b是算法1中使用的最小批量大小。
(图5:simgan输出的图像示例。左为mpiigaze采集的实拍图像,右为优化后的unityeye合成图像。从图中可以看出精细合成图像中的皮肤纹理和虹膜区都更近似真实而非合成图像。)(图5:5:simgan输出的图像示例。左边是mpiigaze采集的实拍图像,右边是优化后的unityeye合成图像。从图中可以看出,精细合成图像中的皮肤纹理和虹膜区域比合成图像更接近真实图像。(
(图6:具有两个nxn卷积层的resnet块,每个卷积层具有f特性图。(
在鉴别器训练的每次迭代中,通过从当前细化网络中采样b/2图像并从缓冲器中收集额外的b/2图像来更新参数。保持缓冲区B的大小不变。每次迭代后,苹果公司用新生成的精细图像随机替换缓冲区中的b/2样本。这个过程如图4所示。
3.实验
我们使用mpiigaze [40 40,43]上的外观估计数据集和纽约大学[35]的手势数据集来评估我们的方法。我们在所有的实验中使用了完全复杂的精炼网络和resnet块(图6)。
3.1基于外观的注视估计
注视估计是许多人机交互(hci)任务的关键因素。然而,直接由眼睛图像进行估计是有挑战性的,特别是在图像质量不佳时。例如智能手机或笔记本电脑前置摄像头采集到的眼睛图像。因此,为了生成大量注释数据,最近几次方法[40,43]用大量合成数据训练它们的模型。在这里,我们展示使用simgan生成的精细合成图像训练显著提高了任务的表现。凝视估计是许多人机交互(hci)任务中的一个关键因素。然而,直接从眼睛图像进行估计是具有挑战性的,尤其是当图像质量差的时候。例如,由智能手机或笔记本电脑的前置摄像头捕获的眼睛图像。因此,为了产生大量的注释数据,最近的方法[40,43]用大量的合成数据训练它们的模型。在这里,我们展示了由simgan生成的精细合成图像训练显著提高了任务的性能。
凝视估计数据集包括使用unityeyes生成的1200万个样本,一个眼睛凝视合成器,以及来自mpiigaze数据集的21,000个实拍样本。mpiigaze的图像样本都是在各种不令人满意的光照条件下拍摄的图像。Unityeyes图像都是在同一渲染环境中生成的。
定性结果:图5展示了合成生成的眼睛注视图像以及经过处理的实拍图像。如图所示,我们观察到合成图像的显著质量改进:simgan成功捕获皮肤纹理,传感器噪点以及虹膜区的外观。请注意,我们的方法在改善真实性的同时保留了注释信息(注视方向)。定性结果:图5显示了合成的眼睛凝视图像和处理后的实拍图像。如图所示,我们观察到合成图像的质量有了显著提高:simgan成功地捕获了皮肤纹理、传感器噪声和虹膜区域的外观。请注意,我们的方法在保留注释信息(注视方向)的同时提高了真实性。
视觉图灵测试:为了定量评估精细图像的视觉质量,我们设计了一个简单的用户研究,并要求受试者区分图像是真实拍摄的还是合成的。每个受试者都有50幅实拍图像和50幅张和成图像。在实验中,受试者不断观看20幅混合图像,受试者很难区分真实图像和精细图像之间的差异。在我们的总体分析中,10名受试者在1000次试验中的准确率仅为517倍(p=0.148),这与随机选择相似。表1显示了混淆矩阵。相比之下,当使用原始图像和实拍图像进行测试时,我们向每个受试者展示了10个实拍图像和10个合成图像。在这种情况下,受试者在200个实验中正确选择了162次(第10-8页),结果明显优于随机选择。
(表1:使用真实图像和合成图像的视觉图灵测试。人体分类的平均准确率为51.7%,表明自动生成的精细图像达到了视觉真实性的水平。(
(图7:使用mpiigaze真实拍摄样本的眼睛注视估计的定量结果。该曲线描述了不同测试量下系统预测的误差。使用精细图像代替合成图像可以显著提高系统性能。(
定量结果:我们训练了一个与[43]类似的简单的卷积神经网络(cnn)来对眼睛的注视方向进行预测。我们在unityeyes上训练,并在mpiigaze上进行测试。图7和表2比较了cnn分别使用合成数据以及simgan生成的精细数据的不同表现。我们观察到simgan输出训练的表现有很大的提高,绝对百分比提高了22.3%。我们还发现训练结果和训练数据呈正相关 此处的4x指的是培训数据集的100%。定量评估证实了图5中观察到的定性改进的价值,并且表明使用simgan能使机器学习模型有更好的表现。表3展示了同现有技术的比较,在精细图像上训练cnn的表现优于mpigaze上的现有技术,相对改善了21%。这个巨大的改进显示了我们的方法在许多hci任务中的实际价值。定量结果:我们训练了一个类似于[43]的简单卷积神经网络来预测眼睛注视方向。我们在unityeyes上训练,在mpiigaze上测试。图7和表2比较了使用合成数据和simgan生成精细数据的cnn的不同性能。我们观察到simgan输出训练的性能有了很大的提高,绝对百分比提高了22.3%。我们还发现,训练结果和训练数据之间存在正相关,其中4x表示100%的训练数据集。定量评估证实了在图5中观察到的定性改进的价值,并且表明使用simgan可以使机器学习模型表现得更好。与现有技术相比,表3显示,训练cnn在精细图像上的性能优于现有技术在MPI calculate上的性能,相对提高了21%。这一重大改进显示了我们的方法在许多人机交互任务中的实用价值。
实现细节:精炼网络r是一个剩余网络(resnet)。每个resnet块由两个卷积层组成,包含63个要素图,如图6所示。55x35输入图像与3x3滤波器卷积,输出64个特征图。输出通过四个resnet块传递。最后,resnet块的输出被传送到1×1卷积层,并且生成对应于精细合成图像的特征图。
(表2: 使用合成数据和simgan输出进行训练的比较。在无需监督真实数据的情况下,使用simgan输出的图像进行训练表现出22.3%的优势。)(表2:使用合成数据和simgan输出的训练比较。在不监控真实数据的情况下,使用simgan输出图像进行训练显示出22.3%的优势。(
(表3: simgan与mpiigaze现有技术进行比较。r=真实图像,s=合成图像。误差是以度为单位的平均眼睛注视估计误差。对精细图像的训练带来了2.1度的改进,相对现有技术提高了21%。)(表simgan和mpiigaze现有技术之间的比较..R=真实图像,s=合成图像。误差是以度数表示的平均眼睛注视估计误差。精细图像的训练带来了2.1度的改善,比现有技术高21%。)
鉴别器网络D包含五个扩展层和两个最大的合并层,它们是:(1)conv3x3,步幅= 2,特征图= 96,(2)conv3x3,步幅= 2,特征图= 64,(3)maxpool3x3,步幅= 1,(4)conv3x3,步幅。(5)con v1,stride = 1,要素图= 32,(6)con v1,stride = 2,(7)softmax。
对抗网络是完全复杂的,并且被设计成使得研发中最后一个神经元的接受域是相似的。首先,我们训练R网络1000步的自正则化损失,D是200步。然后,对于d的每次更新,r在算法中被更新两次。也就是说,kd设置为1,kg设置为50。
眼睛注视估计网络类似于[43],但稍作修改,以更好地利用我们的大型合成数据集。输入是一个35x55的灰度图像,它经过五个卷积层,然后是三个完全连接的层,最后一个层编码三维凝视矢量:(1)conv3x3,特征图= 32,(2)conv3x3,特征图= 32,(3) conv3v3,特征图= 64,(4)max- pool3x3,和。特征图= 80,(6)conv3x3,maxpool2x2,stride = 2,(8)fc9600,(9)fc1000,(10)fc3,(11)eu- clidean损失。所有网络都以0.001的恒定学习率和512的批量进行训练,直到验证误差收敛。
3.2基于深度图像的手势图像仿真
接下来,苹果将使用这种方法来模拟各种手势的深度图像。本次研究主要使用了纽约大学提供的纽约大学手势数据库,其中包含了72,757个训练样本和8,251个测试样本,这些样本由三台kinect摄像机采集,每个测试样本包括一幅正面手势图像和两幅侧面手势图像。每个深度图像样本都标记有手势信息,从而生成合成图像。图10显示了手势数据库中的一个示例。对数据库样本进行预处理,利用合成图像从真实图像中提取相应的像素点。在使用深度学习网络convnet进行处理之前,将每个图像样本的分辨率统一调整为224*224,背景值设置为零,前景值设置为原始深度值减去2000。(背景分辨率假定为2000)。
图10: NYU手势数据库。左图显示了深度图像样本;右边的图片显示了经过处理的合成图像。
定性描述:图11显示了 生成对抗网络 ( simgan)对手势数据库的计算结果。由图可知,真实深度图像的噪声已经边缘化,且分布不连续。simgan能够有效对原有图像噪声进行学习并模拟,从而产生出更加真实精细的合成图像,且不需要在真实图像上做出任何标记或注释。定性描述:图11显示了生成对抗网络(simgan)对手势数据库的计算结果。从图中可以看出,真实深度图像的噪声已经被边缘化并且不连续地分布。Simgan可以有效地学习和模拟原始图像噪声,从而产生更真实、更精细的合成图像,而无需对真实图像做任何标记或注释。
图11:NYU手势数据库的精细测试图像示例。左图显示的是真实图像,右图显示的是合成图像,右图显示的是来自苹果公司的世代对抗网络的相应细化输出图像。
实际图像中的主要噪声源是非平滑边缘噪声。学习网络可以学习模拟真实图像中存在的噪声,重要的是不需要标记和注释。
定量分析:
苹果公司采用一种类似于stacked hourglass人体姿态算法的cnn仿真算法应用于真实图像、合成图像以及精细化合成图像处理,与nyu手势数据库中的测试样本进行对比。通过对其中14个手关节变换进行算法训练。为了避免偏差,我们用单层神经网络来分析算法对合成图像的改进效果。图12和表4显示了关于算法对手势数据库进行处理的定量结果。其中由simgan输出的精细化合成图像显著优于基于真实图像进行训练而产生的图像,其更为逼真,比标准合成图像高出了8.8%,其中仿真 模拟输出的注释成本为零。同时要注意的是,3x代表图像训练选取了所有角度。苹果公司使用类似于叠加沙漏的人体姿势算法的cnn模拟算法来处理真实图像、合成图像和精细合成图像,并将其与纽约大学姿势数据库中的测试样本进行比较。通过14个手部关节变换的算法训练。为了避免偏差,我们使用单层神经网络来分析算法对合成图像的改善效果。图12和表4显示了用该算法处理手势数据库的定量结果。其中,simgan输出的细化合成图像明显优于基于真实图像训练生成的图像,更加逼真,比标准合成图像高8.8%,模拟输出的标注代价为零。同时,应该注意,3x意味着选择所有角度进行图像训练。
图12:手势估计的量化结果,纽约大学手势测试集的真实深度图像。
图表显示图像与背景之间函数的累积曲线。可见,simgan输出的精细化合成图像显著优于基于真实图像进行训练而产生的图像,其更为逼真,比标准合成图像高出了8.8%。 重要的是,我们的学习网络不需要对真实图像进行标记。图表显示了图像和背景之间函数的累积曲线。可以看出,simgan输出的细化合成图像明显优于基于真实图像训练生成的图像,真实图像更加逼真,比标准合成图像高8.8%。重要的是,我们的学习网络不需要标记真实的图像。
表4:训练生成的各种手势图像的相似性。
synthetic data为一般网络训练产生的合成图像,real data为真实图像,refined synthetic data为生成对抗网络simgan输出的精细化合成图像。3x表示对真实图像进行多角度模拟。合成数据是由一般网络训练生成的合成图像,真实数据是真实图像,精细合成数据是由simgan生成的精细合成图像。3x表示真实图像的多角度模拟。
实现细节:手势图像识别的架构与眼睛图像相同,但输入图像分辨率为224*224,滤波器大小为7*7,剩余网络值为10。网络d的特征如下:(1)conv7x7,
stride=4,要素图=96,(2) conv5x5,stride=2,要素图=64,(3) maxpool3x3,stride=2,(4) conv3x3,stride=2,要素图=32,(5) conv1x1,stride=1,要素图=32,(6) conv1x1,stride=1,要素图=2,(7) softmax .
首先,研发网络将进行500次自我调节培训,然后引进研发网络进行200次培训;然后,每次更新数据网络时,数据网络都会相应地更新两次。在手势估计中,我们使用堆叠沙漏网络算法来输出64*64的热点图。我们引入[-20,20]随机数据集从不同角度训练图像。直到验证误差有效收敛,网络训练结束。
3.3对抗训练的修正分析
首先,苹果比较了局部对抗训练和全球对抗训练的形象偏差。在全局对抗中,判别网络使用完整的连接层,使得整个图像相对更精细。局部对抗训练使生成的图像更加逼真,如图8所示。
图8:左边显示全球对抗训练的结果,右边显示局部对抗训练的结果。
显示了全球对抗训练与局部对抗训练的结果偏差。左图中生成的图像更精细但不真实,而右图中生成的图像相对真实。
接下来,在图9中,示出了用重复训练的历史细化图像更新辨别网络并将其与由标准对抗生成的合成图像进行比较的结果。如图所示,经过反复训练雕刻而成的历史精致图像会产生更逼真的阴影。例如,在标准对抗训练中,眼角没有阴影。
图9:使用历史精细图像更新判别网络的结果。
左:标准合成图像;中间图像:用历史数据更新判别网络后的图像结果;右图:用近期历史数据更新判别网络的图像结果。如图所示,通过使用经过反复训练的历史精细图像,可以创建更逼真的阴影。
4.结论和下一步
在文中,苹果公司提出了一种 模拟+无监督 的机器学习方法,能够有效提高模拟图像的真实感。并描述了一种新的生成对抗网络simgan,并将其应用于未经标注的真实图像,获得了最好的结果。下一步,苹果公司将继续探索为合成图像建立更为逼真的精细图像,同时研究如何对视频进行处理。本文中,苹果公司提出了一种模拟+无监督的机器学习方法,可以有效地提高模拟图像的真实感。描述了新一代对抗网络simgan,并将其应用于未标记的真实图像,取得了最佳效果。在下一步中,苹果将继续探索如何为合成图像创建更真实、更精细的图像,同时研究如何处理视频。