宝珠道人,AI + 科普 | 道哥求关注 阅读原文 有人说,AI 技术经过最近十多年的快速发展,近一两年已经进入了下半场,取得的进展不如从前了。我并不这样认为,也许 AI 基础模型方面的发展一定程度上告别了之前大跨步前进,进入了稳步发展的阶段,但对于将 AI 技术应用于各行各业来说,黄金时代才刚刚开启。各种有趣的进展层出不穷,今天我们就谈一谈其中的一个领域:基于生成对抗网络的图像生成。 ------- 枯燥的理论部分,不感兴趣的可跳过 -------- 生成对抗网络(GANs)是 Goodfellow 等人在 2014 年提出的一个基于深度学习的生成模型。GANs 包括两个深层神经网络:一个是用来捕获真实数据分布的生成器 G 和一个用来确定样本是来自模型分布还是真实数据分布的判别器 D。该框架利用损失函数 V(D,G)进行零和博弈,具体优化公式如下: 其中 为真实数据, 为真实数据分布, 为噪声, 为噪声分布(通常为高斯分布或均匀分布)。 以上公式可解释为: 的目标是根据真实数据分布来生成尽可能“真”的样本,通过最小化上述公式中的 来实现; 的作用是将 生成的样本判别为“假”,将真实数据判别为“真”,通过最大化上述公式中的 D 进行优化。整个框架可以通过反向传播进行训练,这意味着 从 的决策中获得反馈,然后在下一次迭代中学习如何更好地欺骗 。 ------- 枯燥的理论部分结束 -------- 将以上零和博弈原则应用到图像生成领域,催生了一些有趣的任务,包括:从无到有生成高精度人脸图像,从低分辨率到高分辨率的图像超分辨率,还有图像风格转换。 这些任务在前几年陆续被提出来,但两年之前,这些任务上的生成能力还不够强大,效果还不那么逼真。这两年取得的进展可以用 amazing 来形容。看下面三个具体例子。 1、高精度人脸图像生成 首先介绍英伟达公司在 2018 年 12 月提出的一个高精度人脸图像生成的工作。这个算是一个石破惊天的工作,首先看下 arXiv 论文链接(https://arxiv.org/pdf/1812.04948.pdf)中的两个生成效果图。 从图片中可以看到,该论文方法生成的人脸与真实人脸几无差异,无论是整体上还是细节上。至少从我站上一个普通人的角度上来看,若是没有人告诉我些图像这是生成的,我是发现不了。而在此之前,虽然可以生成比较像的人脸,但大多分辨率不高,而且细节部分不够精致。 这个工作更大的意义在于人工智能图像生成进入了“眼见不再为实”的阶段,我第一次看到这些图片时的巨大心理冲击主要也在于此。 技术的发展进入到新的阶段,一方面凸显了人工智能安全、可控发展的必要性,比如控制不要让本着不良目的虚拟生成的内容在网络上流传,发展其有效鉴别技术,另一方面,也催生了一批新型应用场景,例如下图所示的卡通化人脸生成。图像生成技术的发展让人脸卡通化变成一个低门槛,可快速复制的行业,这恐怕是一个让很多漫画从业者颤抖的消息。 2、图像超分辨率 接下来再介绍一个图像超分辨率方面有趣的工作《PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models》,发表在 CVPR 2020。 虽然说图像超分辨在三四年前就有一些激动人心的工作,比如 CVPR 2017 上的 SRGAN。但是,超分辨率的倍数一般还在宽高 4 倍(对应超分辨率到面积大 16 倍的图像)左右的范畴,PULSE 做到了将一个 16*16 的小图像超分辨率到 1024*1024,效果如下图所示: 可以看到,这个生成效果也是非常惊人的。 更重要的是,这意味着现在的技术已经可以从一个个非常小的人脸,例如照片拍到的比赛看台上的成百上千个人脸,生成出一个个高清晰度的人脸,虽然是虚拟生成的,但论文作者以及广大网友的测试表明,生成的人脸与真实人脸还是有一定的相似度。 更宽泛一点来说,对于监控视频分析等业务,从视频流中远处的小人脸重构出相似的高精度人脸,便于案情分析等,也在一定程度上成为可能。 另外值得一提的是,作者代码和模型开源后,人们发现基于作者的开源模型,大部分时候倾向于生成白人人脸,把美国前总统奥巴马的小图像输进去也是。这一现象引起了一场关于种族歧视的大辩论,以至于深度学习先驱,图灵奖得主 Yann LeCun 教授只不过针对这个问题发表了一些技术性的观点,也受到了网络暴民的群起攻之,最后不得不在推特上说 farewell everyone。 3、图像风格转换—虚拟试衣 最后再介绍一个图像风格转换方面的工作,具体的,虚拟试衣。这是图像风格转换在电商这一垂直应用领域中的一个具体场景。具体来说,人们在购物网站浏览时,看到漂亮的衣服但经常困扰的是衣服究竟适不适合自己。不同于在实体店可以马上试穿,网络上只能靠脑补想象,失手的时候不可避免。对于卖家来说,会导致退货率高居不下,对于买家来说,也会浪费时间和精力。 随着这两年图像生成技术的进步,生成图像的质量和细节得到显著提升,虚拟试衣的实用性也得到了极大的提升,下图是亚马逊在 2018 年的虚拟试衣效果图: 可以看到,衣服上身后什么效果,已经大致有谱了。最近,亚马逊在 CVPR 2020 上又进一步将这项工作进行了扩展,可以生成混搭的虚拟试衣。具体的,给定一张自己图像,以及一张甚至多张购物网站上参考图像的情况下,该方法能够生成混搭的穿衣效果,如下图所示: 以上。 阅读原文