2.FSDR学习-摘要梳理后篇

news/2024/7/21 5:26:39 标签: 图像处理, 计算机视觉, 迁移学习

一.研究方向

图片风格迁移:风格迁移(style transfer),指的是保留图片内容(content),将图片转换为目标风格(style)。
目前的风格迁移几乎大部分都是在GAN(生成对抗网络)的基础上组合AdaIn(适应性实体正则化),加上vgg网络构成的感知损失(content loss)等来进行优化;还有较为经典的pixel2pixel、cycle gan等利用成对数据或者cycle loss进行图像翻译(Image Translation)任务等。
在这里插入图片描述
风格迁移后,普通的城市照片可以拥有各种各样的艺术感。

原始的风格迁移的速度是非常慢的。在GPU上,生成一张图片都需要10分钟左右,而如果只使用CPU而不使用GPU运行程序,甚至需要几个小时。这个时间还会随着图片尺寸的增大而迅速增大。这其中的原因在于,在原始的风格迁移过程中,把生成图片的过程当做一个“训练”的过程。每生成一张图片,都相当于要训练一次模型,这中间可能会迭代几百几千次。从头训练一个模型要比执行一个已经训练好的模型要费时太多。而这也正是原始的风格迁移速度缓慢的原因。
在这里插入图片描述
经过图像迁移后,我的电脑壁纸完全变了风格!

二.当前研究出现的问题

在这里插入图片描述
从这段我们可以得知,之前的算法对整张图片统一做随机化,不是很符合图像迁移,因为图片中有些领域和图片是无关的,但是领域相关的特征需要随机化。如果一概而论的做随机化,导致一些领域无关的也做了随机化,最后得到的是一个次优的结果。

三.本文算法思想

核心思想:图片经过JPEG压缩,FSDR通过显式解耦成64个不同的频率分量,通过这64个FCs去分辨他们是领域相关还是无关(domain),最终使那些领域无关的保持不动,随机化那些领域相关的FCs。

FC:Frequency component 频率分量
解耦: 数学中是指使含有多个变量的数学方程变成能够用单个变量表示的方程组,即变量不再同时共同直接影响一个方程的结果,从而简化分析计算。通过适当的控制量的选取,坐标变换等手段将一个多变量系统化为多个独立的单变量系统的数学模型,即解除各个变量之间的耦合。最常见的有发电机控制,锅炉调节等系统。(来自百度百科)

经过显式解耦图片可以得到和领域无关的特征,可以使其影响最小。
FSDR步骤:

  1. 做谱分析(FSDR-SA)基于实证研究分辨DIFs和DVFs是有效的。
  2. 通过做谱学习(FSDR-SL)在动态和迭代学习过程中自动学会怎么分辨DIFs和DVFs。
    在这里插入图片描述
    通过DCT分到64个FCs,然后分辨不变的DIFs和变化的DVFs之后随机化的结果优于SSDR,更贴近Ground Truth。

DCT:Discrete Cosine Transform 离散余弦变换
将所有图片转到频率空间,然后将得到的信号转换为64个FCs。
DIF:domain invariant FCs (DIFs) 域不变的FCs
DVF:domain variant FCs (DVFs) 域可变的FCs
SSDR:传统的空间域随机化

以上是我对摘要的再一次解读,这一次我梳理清晰了文章的研究方向和核心思想。一篇学术文章的摘要是最重要的,读者读完后就应该明白文章的写作目的和阐述的大致内容。


http://www.niftyadmin.cn/n/1686133.html

相关文章

java iterator 将int_Java IntStream iterator()用法及代码示例

IntStream iterator()返回此流的元素的迭代器。这是终端操作,即可能会遍历流以产生结果或副作用。用法:PrimitiveIterator.OfInt iterator()Where, PrimitiveIterator.OfInt is an Iteratorspecialized for int values.返回值:IntStream iterator()返回此…

数据结构(补充)22.顺序表

一.顺序表的定义: 线性表的顺序存储又叫顺序表,它由一组地址连续的存储单元依次存储线性表中的数据元素。 特点: 逻辑上相邻的两元素在物理位置上也相邻。线性表中任意元素都可以随机存取(随机访问)。通常用高级语言…

1.线性表算法题

1. 顺序表中删除具有最小值的元素(假设唯一)并由函数返回被删除的元素,空出位置由最后一个元素填补,若顺序表为空,则显示出错信息并退出运行。 算法大致思想是扫描整个顺序表寻找最小值,辅助变量k为记录最…

3.FSDR学习-文章解读

语义分割:从像素级别来理解图像的。将标签或类别与图片的每个像素关联的一种深度学习算法。它用来识别构成可区分类别的像素集合。例如,自动驾驶汽车需要识别车辆、行人、交通信号、人行道和其他道路特征。 有些类似ps抠图 无监督学习:直接对…

2023最新ChatGPT商业运营网站源码+支持ChatGPT4.0+新增GPT联网功能+支持ai绘画+实时语音识别输入+用户会员套餐+免费更新版本

2023最新ChatGPT商业运营网站源码支持ChatGPT4.0新增GPT联网功能支持ai绘画实时语音识别输入用户会员套餐免费更新版本 一、AI创作系统二、系统程序下载三、系统介绍四、安装教程五、主要功能展示六、更新日志 一、AI创作系统 提问:程序已经支持GPT3.5、GPT4.0接口…

面试必考的:并发和并行有什么区别?

并发和并行最开始都是操作系统中的概念,表示的是CPU执行多个任务的方式。这两个概念极容易混淆。 所谓"同时"进行 我们现在使用的windows操作系统,是可以"同时"做很多件事儿的。比如我们可以一边看电影,一边聊QQ&#xf…

java并行约简_如果可能的话,我应该总是使用并行流吗?

StreamAPI的设计目的是使编写计算变得容易,从而使计算从执行方式中抽象出来,从而使顺序和并行之间的切换更容易。然而,仅仅因为它容易,并不意味着它总是一个好主意,事实上,它是一个坏的放弃的想法.parallel…

估计流量矩阵的方法

一、流量矩阵(Traffic Matrices) 为了更好的监控和预测网络,需要对网络进行测量,但是直接获取数据中心的流量特征来测量比较困难。所以我们提出流量矩阵来间接测量网络,流量矩阵用来表示网络中各个不同节点之间的所有…