fastai深度学习官方教程代码笔记Lesson3-2

第三课的第二部分，介绍了如何用cnn来进行回归预测的方法，其中采用了一个头部姿势的数据集。回归问题的处理和分类有一些不同，主要体现在预测的结果是一个连续的坐标值。下面对代码进行解读：

数据集简介可以参考：https://blog.csdn.net/LEE18254290736/article/details/89371932
课程内容：https://www.kaggle.com/hortonhearsafoo/fast-ai-v3-lesson-3-head-pose

%reload_ext autoreload
%autoreload 2
%matplotlib inline
from fastai.vision import *

#下载并且解压BiWi数据集
path = untar_data(URLs.BIWI_HEAD_POSE, './data/biwi_head_pose.tgz', './data')
#从文件中读取数据并且处理缺失值，并且忽略最后的6行数据
#注意这里读取的是校准rgb摄像头的文件，包含了平移和旋转的矩阵
#由于同时采集了深度信息和rgb图像，两个摄像头的位置不同，因此需要校准两张图片的坐标，使得坐标对齐
cal = np.genfromtxt(path/'01'/'rgb.cal', skip_footer=6); cal

array([[517.679,   0.   , 320.   ],
       [  0.   , 517.679, 240.5  ],
       [  0.   ,   0.   ,   1.   ]])

#图片路径
fname = path/'09/frame_00667_rgb.jpg'
#定义函数，根据图片路径返回对应的标记文件路径
#这里做了一些修改，因为下面获取数据集的时候，处理的文件路径的相对路径已经包含了path，因此不需要在加上path
def img2txt_name(f): return f'{str(f)[:-7]}pose.txt'
#打开图片文件并显示
img = open_image(fname)
img.show()

output_3_0.png

#通过上面的函数获取图片标记文件，并且读取标记的坐标，坐标为三维
ctr = np.genfromtxt(img2txt_name(fname), skip_header=3); ctr

array([187.332 ,  40.3892, 893.135 ])

#坐标偏移校准，将深度信息的坐标校准到rgb图片（由于两台相机的坐标信息不同导致需要相互转换）
def convert_biwi(coords):
    c1 = coords[0] * cal[0][0]/coords[2] + cal[0][2]
    c2 = coords[1] * cal[1][1]/coords[2] + cal[1][2]
    return tensor([c2,c1])
#获取图片的标记点，并且对坐标校准
def get_ctr(f):
    ctr = np.genfromtxt(img2txt_name(f), skip_header=3)
    return convert_biwi(ctr)
#根据图片坐标生成光流，并转换成ImagePoints对象
#ImagePoints包含了一系列的点，坐标都是从-1到1，表示的是点在图像范围内的位置比例，以中心点为0点
def get_ip(img,pts): return ImagePoints(FlowField(img.size, pts), scale=True)
#获取上述图片的标记点
get_ctr(fname)

tensor([263.9104, 428.5814])

#获取标记点
ctr = get_ctr(fname)
#将标记点转换为ImagePoints对象并在原始图像中显示
img.show(y=get_ip(img, ctr), figsize=(6, 6))

output_6_0.png

#创建数据集
data = (PointsItemList.from_folder(path)
        #根据函数结果将数据集分成测试和验证集，如果条件为true，则分到验证集，
        #这里是把文件夹13的数据分到了验证集
        .split_by_valid_func(lambda o: o.parent.name=='13')
        #使用函数对数据集进行标记，对输入的每个数据使用函数，将获得的结果作为这个数据的标签，
        #这里获得的标签是一个tensor，内容是对应的坐标点
        .label_from_func(get_ctr)
        #变换图片扩充训练集，同时对标签坐标变换，尺度则变换为120*160
        .transform(get_transforms(), tfm_y=True, size=(120,160))
        #生成数据集，并归一化
        .databunch(num_workers=0).normalize(imagenet_stats)
       )
#显示数据集中的图片
data.show_batch(3, figsize=(9,6))

output_7_0.png

# 训练模型，创建resnet34模型
learn = create_cnn(data, models.resnet34)

#寻找合适的学习率
learn.lr_find()
learn.recorder.plot()

#采用合适的学习率学习5轮
lr = 2e-2
learn.fit_one_cycle(5, slice(lr))

#保存模型，并且读取后展示预测结果
learn.save('stage-1')
learn.load('stage-1');
learn.show_results()

#这里展示的get_transforms的各种参数，包括选择角度，缩放尺度，明度，对称变化系数，仿射变换概率系数，照明变化概率系数
tfms = get_transforms(max_rotate=20, max_zoom=1.5, max_lighting=0.5, max_warp=0.4, p_affine=1., p_lighting=1.)
#这里重新设置了数据集，猜测其中的get_transforms应该用tfms来替换
data = (PointsItemList.from_folder(path)
        .split_by_valid_func(lambda o: o.parent.name=='13')
        .label_from_func(get_ctr)
        .transform(get_transforms(), tfm_y=True, size=(120,160))
        .databunch(num_workers=0).normalize(imagenet_stats)
       )

#定向展示单条训练集预测数据的方法
def _plot(i,j,ax):
    x,y = data.train_ds[0]
    x.show(ax, y=y)
#用于显示多条带预测标记的训练集数据
plot_multi(_plot, 3, 3, figsize=(8,6))

output_13_0.png