1. 前言
今天用多半天的时间把QQ空间里的几篇年前的旧文搬到了这里,算是完成了博客搬家。QQ空间里还剩下一些记录自己数学学习路线的学习日志,属于私人性质,不再搬运了。过完春节,快马加鞭地重修完高阶偏导数后,终于感觉到疲惫了,潜意识里觉得是时候做点东西了,一是练练手,二是换换脑子,用新鲜东西刺激一下自己,好把学习效率保持下去。于是,我选择了自己最感兴趣的人脸识别,期望能够通过摄像头识别出我自己来。正好,前两天济南新闻上说济南火车站可以刷脸进站了,招行也可以刷脸取现了,感情人家都已经大规模商用了,我这儿才刚开始研究,落后啊,继续落后啊。不管它了,知识为我所有、为我所用才是最重要的。别废话了,咱言归正传吧。
说到人脸识别,简单讲就是让程序能够识别出图像的哪个部分是人脸,然后在这个基础上考虑如何应用的问题。像早已冲出国门、走向世界的美图秀秀,以及上面说的刷脸进站、刷脸取现等都是基于人脸识别技术开发出的商用软件产品,而这一切技术的背后都离不开机器学习,更直白的说是离不开数学算法。
我想做的事情是用python写一个小程序,通过读取USB摄像头的视频流识别出我自己来。事情看起来很简单,但实际做起来需要好几个程序协作才能达成目标。首先感谢一个日本程序员,是他提供了实现思路及样例代码,国内有很多Blog和公众号转发了这篇文章,度娘可以搜到,其中一个Blog的链接如下:
度娘能搜到的都与上面相同,千篇一律。我刚开始看到这篇文章的时候很是激动一番,觉得肯定很容易实现了,但实际动手做起来才知道坑很多。作者虽然给了思路和代码,但忽略了很多关键细节,对ML刚入门的同学来说很难实现该文章描述的案例。幸运的是,菜鸟如我,虽然期间跳坑无数,死磕了近1周的时间,我还是爬出了所有的坑,达成了最初的设想,感谢那些为了我的好奇心英勇就义的脑细胞。
这个系列博文的目标不是要取代原博文,而是作为原博文的可操作版,把原博文缺失的细节补上,手把手教会你重现实例。所以,如果你只是想快速了解整个实例,请移步上面给出的链接去看原博文,那篇博文只需花费你几分钟的时间;如果你是个行动派,那就直接参照这个系列博文操练起来,这会花费你半天到几天的时间,请自行斟酌。
2. 准备工作
1)首先需要准备一个USB摄像头,能够支持Ubuntu之类的linux操作系统;
2)PC机上安装好Ubuntu14以上64位版本(尽量双系统不要虚拟机,不然模型训练速度会慢得像蜗牛),可以安装win7/win10,但我没有试过在64位win系统上安装tensorflow,虽然tensorflow已经支持win 64位系统;
3)请确定python3已安装,我给的代码都是在python3下调试通过的,python2只是简单试过,不保证在python2下能正常运行;
4)安装Tensorflow,如果你是独显,且支持CUDA,请安装GPU版本,否则选择CPU版本,我的机器安装的是GPU版本,OS是Ubuntu16.04麒麟,安装Tensorflow的操作说明请问度娘或谷歌,又或者参考本人的另一篇博文:
Google TensorFlow for GPU安装、配置大坑
5)安装opencv2,请安装openCV3.0以上版本(该版本支持python3和python2),参考如下两个链接:
http://www.cnblogs.com/freeweb/p/5794447.html
http://blog.csdn.net/qingyuanluofeng/article/details/51558270
操作指令以第一个链接为准,给第二个的原因是它给出了OpenCV3.0的安装方法,第一个是2.14的且是支持python2的,但第一个给出的指令已经足够用了,第二个博文指令啰嗦,当遇到如何支持python3的问题时供参考用;
6)安装keras、sklearn、PIP等,它们的安装说明网上有的是,也简单,这里就不多说了;
以上准备工作关键是前5步,后面第6步可以暂时不作操作,当执行程序时如果提示某个模块无法导入,再安装该模块也可。
3. 获取并显示USB摄像头实时视频
其实,利用OpenCV获取USB摄像头的视频流并展示出来非常简单,拢共不超过30行代码:
#-*- coding: utf-8 -*-
import cv2
import sys
from PIL import Image
def CatchUsbVideo(window_name, camera_idx):
cv2.namedWindow(window_name)
#视频来源,可以来自一段已存好的视频,也可以直接来自USB摄像头
cap = cv2.VideoCapture(camera_idx)
while cap.isOpened():
ok, frame = cap.read() #读取一帧数据
if not ok:
break
#显示图像并等待10毫秒按键输入,输入‘q’退出程序
cv2.imshow(window_name, frame)
c = cv2.waitKey(10)
if c & 0xFF == ord('q'):
break
#释放摄像头并销毁所有窗口
cap.release()
cv2.destroyAllWindows()
if __name__ == '__main__':
if len(sys.argv) != 2:
print("Usage:%s camera_id\r\n" % (sys.argv[0]))
else:
CatchUsbVideo("截取视频流", int(sys.argv[1]))