第三课的第二部分,介绍了如何用cnn来进行回归预测的方法,其中采用了一个头部姿势的数据集。回归问题的处理和分类有一些不同,主要体现在预测的结果是一个连续的坐标值。下面对代码进行解读:
数据集简介可以参考:https://blog.csdn.net/LEE18254290736/article/details/89371932
课程内容:https://www.kaggle.com/hortonhearsafoo/fast-ai-v3-lesson-3-head-pose
%reload_ext autoreload
%autoreload 2
%matplotlib inline
from fastai.vision import *
#下载并且解压BiWi数据集
path = untar_data(URLs.BIWI_HEAD_POSE, './data/biwi_head_pose.tgz', './data')
#从文件中读取数据并且处理缺失值,并且忽略最后的6行数据
#注意这里读取的是校准rgb摄像头的文件,包含了平移和旋转的矩阵
#由于同时采集了深度信息和rgb图像,两个摄像头的位置不同,因此需要校准两张图片的坐标,使得坐标对齐
cal = np.genfromtxt(path/'01'/'rgb.cal', skip_footer=6); cal
array([[517.679, 0. , 320. ],
[ 0. , 517.679, 240.5 ],
[ 0. , 0. , 1. ]])
#图片路径
fname = path/'09/frame_00667_rgb.jpg'
#定义函数,根据图片路径返回对应的标记文件路径
#这里做了一些修改,因为下面获取数据集的时候,处理的文件路径的相对路径已经包含了path,因此不需要在加上path
def img2txt_name(f): return f'{str(f)[:-7]}pose.txt'
#打开图片文件并显示
img = open_image(fname)
img.show()
#通过上面的函数获取图片标记文件,并且读取标记的坐标,坐标为三维
ctr = np.genfromtxt(img2txt_name(fname), skip_header=3); ctr
array([187.332 , 40.3892, 893.135 ])
#坐标偏移校准,将深度信息的坐标校准到rgb图片(由于两台相机的坐标信息不同导致需要相互转换)
def convert_biwi(coords):
c1 = coords[0] * cal[0][0]/coords[2] + cal[0][2]
c2 = coords[1] * cal[1][1]/coords[2] + cal[1][2]
return tensor([c2,c1])
#获取图片的标记点,并且对坐标校准
def get_ctr(f):
ctr = np.genfromtxt(img2txt_name(f), skip_header=3)
return convert_biwi(ctr)
#根据图片坐标生成光流,并转换成ImagePoints对象
#ImagePoints包含了一系列的点,坐标都是从-1到1,表示的是点在图像范围内的位置比例,以中心点为0点
def get_ip(img,pts): return ImagePoints(FlowField(img.size, pts), scale=True)
#获取上述图片的标记点
get_ctr(fname)
tensor([263.9104, 428.5814])
#获取标记点
ctr = get_ctr(fname)
#将标记点转换为ImagePoints对象并在原始图像中显示
img.show(y=get_ip(img, ctr), figsize=(6, 6))
#创建数据集
data = (PointsItemList.from_folder(path)
#根据函数结果将数据集分成测试和验证集,如果条件为true,则分到验证集,
#这里是把文件夹13的数据分到了验证集
.split_by_valid_func(lambda o: o.parent.name=='13')
#使用函数对数据集进行标记,对输入的每个数据使用函数,将获得的结果作为这个数据的标签,
#这里获得的标签是一个tensor,内容是对应的坐标点
.label_from_func(get_ctr)
#变换图片扩充训练集,同时对标签坐标变换,尺度则变换为120*160
.transform(get_transforms(), tfm_y=True, size=(120,160))
#生成数据集,并归一化
.databunch(num_workers=0).normalize(imagenet_stats)
)
#显示数据集中的图片
data.show_batch(3, figsize=(9,6))
# 训练模型,创建resnet34模型
learn = create_cnn(data, models.resnet34)
#寻找合适的学习率
learn.lr_find()
learn.recorder.plot()
#采用合适的学习率学习5轮
lr = 2e-2
learn.fit_one_cycle(5, slice(lr))
#保存模型,并且读取后展示预测结果
learn.save('stage-1')
learn.load('stage-1');
learn.show_results()
#这里展示的get_transforms的各种参数,包括选择角度,缩放尺度,明度,对称变化系数,仿射变换概率系数,照明变化概率系数
tfms = get_transforms(max_rotate=20, max_zoom=1.5, max_lighting=0.5, max_warp=0.4, p_affine=1., p_lighting=1.)
#这里重新设置了数据集,猜测其中的get_transforms应该用tfms来替换
data = (PointsItemList.from_folder(path)
.split_by_valid_func(lambda o: o.parent.name=='13')
.label_from_func(get_ctr)
.transform(get_transforms(), tfm_y=True, size=(120,160))
.databunch(num_workers=0).normalize(imagenet_stats)
)
#定向展示单条训练集预测数据的方法
def _plot(i,j,ax):
x,y = data.train_ds[0]
x.show(ax, y=y)
#用于显示多条带预测标记的训练集数据
plot_multi(_plot, 3, 3, figsize=(8,6))