压缩版styleGAN，合成高保真图像，参数更少、计算复杂度更低

机器之心报道

作者：小舟、陈萍

一个名为 MobileStyleGAN 的新架构大大减少了基于样式 GAN 的参数量，降低了计算复杂度。

近年来在生成图像建模中，生成对抗网络（GAN）的应用越来越多。基于样式（style-based）的 GAN 可以生成不同层次的细节，大到头部形状、小到眼睛颜色，它在高保真图像合成方面实现了 SOTA，但其生成过程的计算复杂度却非常高，难以应用于智能手机等移动设备。

近日，一项专注于基于样式的生成模型的性能优化的研究引发了大家的关注。该研究分析了 StyleGAN2 中最困难的计算部分，并对生成器网络提出了更改，使得在边缘设备中部署基于样式的生成网络成为可能。该研究提出了一种名为 MobileStyleGAN 的新架构。相比于 StyleGAN2，该架构的参数量减少了约 71 %，计算复杂度降低约 90 %，并且生成质量几乎没有下降。

StyleGAN2（上）与 MobileStyleGAN（下）的生成效果对比。

论文作者已将 MobileStyleGAN 的 PyTorch 实现放到了 GitHub 上。

论文地址：
https://arxiv.org/pdf/2104.04767.pdf

项目地址：
https://github.com/bes-dev/MobileStyleGAN.pytorch

该实现所需的训练代码非常简单：

StyleGAN2（左）与 MobileStyleGAN（右）的生成效果展示。

下面我们来具体看一下 MobileStyleGAN 架构的方法细节。

MobileStyleGAN 架构

MobileStyleGAN 架构是在基于样式生成模型的基础上构建的，它包括映射网络和合成网络，前者采用的是 StyleGAN2 中的映射网络，该研究的重点是设计了一个计算高效的合成网络。

MobileStyleGAN 与 StyleGAN2 的区别

StyleGAN2 使用基于像素的图像表征，并旨在直接预测输出图像的像素值。而 MobileStyleGAN 使用基于频率的图像表征，旨在预测输出图像的离散小波变换 (DWT)。当应用到 2D 图像，DWT 将信道转换成四个大小相同的信道，这几个信道具有较低的空间分辨率和不同的频带。然后，逆向离散小波变换(IDWT) 从小波域重建基于像素的表征，如下图所示。

StyleGAN2 利用跳远生成器（skip-generator），通过对同一图像的多个分辨率的 RGB 值进行显式求和来形成输出图像。该研究发现，当在小波域中对图像进行预测时，基于跳远连接（skip connection）的预测头对生成图像的质量影响不大。因此，为了降低计算复杂度，该研究采用网络中最后一个块的单个预测头替换跳远生成器。但从中间块中预测目标图像对于稳定的图像合成具有重要意义。因此，该研究为每个中间块添加一个辅助预测头，根据目标图像的空间分辨率对其进行预测。

StyleGAN2 和 MobileStyleGAN 的预测的区别。

如下图所示，调制卷积包括调制、卷积和归一化（左）。深度可分离调制卷积也包括这些部分（中）。StyleGAN2 描述了用于权重的调制 / 解调，该研究分别将它们应用于输入 / 输出激活，这使得描述深度可分离调制卷积更加容易。

StyleGAN2 构造块使用 ConvTranspose（下图左）来 upscale 输入特征映射。而该研究在 MobileStyleGAN 构造块（下图右）中使用 IDWT 当作 upscale 函数。由于 IDWT 不包含可训练参数，该研究在 IDWT 层之后增加了额外的深度可分离调制卷积。

StyleGAN2 和 MobileStyleGAN 的完整构造块结构如下图所示：

基于蒸馏的训练过程

类似于此前的一些研究，该研究的训练框架也基于知识蒸馏技术。该研究将 StyleGAN2 作为教师网络，训练 MobileStyleGAN 来模仿 StyleGAN2 的功能，训练框架如下图所示。

压缩版styleGAN，合成高保真图像，参数更少、计算复杂度更低

成品油价第五涨来了 92号汽油进入“8元时代”

媒体:日本改造16处机场和港口为介入台海做实质准备

“老虎”被查！6天前还在会见外宾，曾连续卸任重要职务

老外跳舞影响行人，保安只敢柔性劝阻，旁边女舞伴表情得意

南京江南美容美发，这是剪了个啥头？1000多！

男子开国产新能源车越野爬到半坡汽车自燃起火冒浓烟

网传小伙不满餐厅设计，拿着剪刀把悬挂的日本国旗一剪两半！

外媒披露美将在G20会议上继续对华施压

何立峰会见德国经济代表团

12306回应“卧铺下铺挂帘”，下铺别人到底能不能坐？

内蒙古加时逆转四川总分2-1！琼斯47分中绝平球三大国手空砍66分

央妈：人均存款近11万！网站调查数据显示，85%的人拖后腿了

12306开票秒空？官方：中间站车票按比例发售，可等待候补

突然宣布：关闭所有门店！“经营举步维艰，公司决议解散”！两周前还在促销，供应商：凌晨收到闭店邮件

上海一洋房以单价100万、总价3.1亿成交，记者实探：地处闹中取静文艺街区，独栋带花园

直红！U23亚洲杯第4红：肘击中国队10号，日本后卫被罚下

泽连斯基：已无足够导弹用于防卫！为何不帮乌拦截导弹？白宫：乌克兰又不是以色列，美国无意参战

京沪战火爆冲突！方硕戴昊推搡+曾凡博等违规入场 5人夺权被驱逐

网上很多人质疑：怎么好多地方都有“日本人学校”，目的何在？谁同意的？

高圆圆办婚礼派对的知名米其林餐厅意外关闭近年曾推亲民优惠套餐、上网卖蛋糕，还是⋯⋯

压缩版styleGAN，合成高保真图像，参数更少、计算复杂度更低

成品油价第五涨来了 92号汽油进入“8元时代”

媒体:日本改造16处机场和港口 为介入台海做实质准备

“老虎”被查！6天前还在会见外宾，曾连续卸任重要职务

老外跳舞影响行人，保安只敢柔性劝阻，旁边女舞伴表情得意

南京江南美容美发，这是剪了个啥头？1000多！

男子开国产新能源车越野 爬到半坡汽车自燃起火冒浓烟

网传小伙不满餐厅设计，拿着剪刀把悬挂的日本国旗一剪两半！

外媒披露美将在G20会议上继续对华施压

何立峰会见德国经济代表团

12306回应“卧铺下铺挂帘”，下铺别人到底能不能坐？

内蒙古加时逆转四川总分2-1！琼斯47分中绝平球 三大国手空砍66分

央妈：人均存款近11万！网站调查数据显示，85%的人拖后腿了

12306开票秒空？官方：中间站车票按比例发售，可等待候补

突然宣布：关闭所有门店！“经营举步维艰，公司决议解散”！两周前还在促销，供应商：凌晨收到闭店邮件

上海一洋房以单价100万、总价3.1亿成交，记者实探：地处闹中取静文艺街区，独栋带花园

直红！U23亚洲杯第4红：肘击中国队10号，日本后卫被罚下

泽连斯基：已无足够导弹用于防卫！为何不帮乌拦截导弹？ 白宫：乌克兰又不是以色列，美国无意参战

京沪战火爆冲突！方硕戴昊推搡+曾凡博等违规入场 5人夺权被驱逐

网上很多人质疑：怎么好多地方都有“日本人学校”，目的何在？谁同意的？

高圆圆办婚礼派对的知名米其林餐厅意外关闭 近年曾推亲民优惠套餐、上网卖蛋糕，还是⋯⋯

媒体:日本改造16处机场和港口为介入台海做实质准备

男子开国产新能源车越野爬到半坡汽车自燃起火冒浓烟

内蒙古加时逆转四川总分2-1！琼斯47分中绝平球三大国手空砍66分

泽连斯基：已无足够导弹用于防卫！为何不帮乌拦截导弹？白宫：乌克兰又不是以色列，美国无意参战

高圆圆办婚礼派对的知名米其林餐厅意外关闭近年曾推亲民优惠套餐、上网卖蛋糕，还是⋯⋯