产品经理也能动手实践的AI（八）- Resnet Unet GANS RNN

正文共： 2336字 22图

预计阅读时间： 6分钟

最后一节课了，很多更细致的内容会在part2展开，新的part2会在6月28号放出来，据说共7节，并且会有2节专门讲swift。

1.概览

更细致的创建Databunch
从头创建一个CNN
ResNet
U-net
GAN
RNN

2.1 核心机器学习概念

很多，但是都一笔带过，说在part2中详细讲解

2.2 FastAI

split_none：创建databunch的过程，不划分训练/验证组时也要进行这样一个文件转化
data.one_batch：获取一个batch的数据

2.3 Python

PIL/Pillow：Python Imaging Library
parallel：并行处理任务，可以变快

3.1 创建DataBunch详细讲解

共分4个步骤：创建图片合集、训练集划分、打标签、（图片变形）、创建数据集

3.2 从头创建一个卷积神经网络

初始图片是28x28的尺寸，因为stride是2，所以每一次Conv2d后尺寸就会缩小一倍，但是kernel有8个，所以输出的channel有8个。

最后Flatten将矩阵转化成一个10个数的vector，从而可以和结果0-9进行比对。

model = nn.Sequential(    nn.Conv2d(1, 8, kernel_size=3, stride=2, padding=1), # 14x14    nn.BatchNorm2d(8),    nn.ReLU(),    nn.Conv2d(8, 16, kernel_size=3, stride=2, padding=1), # 7x7    nn.BatchNorm2d(16),    nn.ReLU(),    nn.Conv2d(16, 32, kernel_size=3, stride=2, padding=1), # 4x4    nn.BatchNorm2d(32),    nn.ReLU(),    nn.Conv2d(32, 16, kernel_size=3, stride=2, padding=1), # 2x2    nn.BatchNorm2d(16),    nn.ReLU(),    nn.Conv2d(16, 10, kernel_size=3, stride=2, padding=1), # 1x1    nn.BatchNorm2d(10),    Flatten()     # remove (1,1) grid)

3.3 ResNet

是不是层越多，效果越好呢？实验证明并不是，但为什么呢？也许是方法不对，所以就发现了ResNet

这就是ResNet的核心，一个ResBlock的工作原理：2个卷积层之后，把结果和输入值相加

为什么ResNet的效果好，如下图y轴表示的是loss，ResNet可以更平滑的找到低点

近些年还流行一个DenseNet，适用于小规模数据/图像分割，可以达到更好的效果。而它和ResNet的唯一区别就是最后相加的时候，采取合并的方式，cat([x,x.orig])。

3.4 U-net

看形状就知道这是U-net，而且很容易看出分2部分，下降的部分和stride 2 的cnn一样，叫做encoder；

而上升的部分，叫decoder，类似于放大一张图，试想一下可以有几种方式：

更多细节请参考源代码

UnetBlock DynamicUnet

unet_learner

3.5 GAN

GAN的本质就是一个具备复杂的loss function的神经网络，本课讲解了这个loss fn是如何一步步进化的：

MSE loss：只比较生成图像和目标图像每个像素点的MSE，能实现去水印的效果，但是并没有让图片变清晰
Critic：增加一个评论家的角色，训练成可以鉴别清晰和模糊图像的神经网络，然后将区分效果作为loss，也就是越分不清哪张图是清晰的，loss就越低。所以这样图片就清晰了，但是动物的眼睛还是模糊的
Feature loss/Perceptual loss：来衡量图片特征的接近程度，运用pytorch的hook函数，将训练过程中每个Activations的特征值存下来，进行比较
GAN：将generator和critic整合到一起，相当于Generator每次输出图片，都用于critic的训练，而critic训练好的模型，可以作为generator的loss function