选题:基于tensorflow的视频物品检测
Real-Time Object Recognition App with Tensorflow and OpenCV
一个实时对象识别应用程序
1.准备工作
软件:PyCharm 最新版
python 3.6.5
这两个库: OpenCV
Tensorflow
手机下载IP摄像头,进行设置。
配置修改文件:object_detection_app.py
里面的代码和IP摄像头进行配置:
cam_url='http://admin:123456@192.168.1.101:8080/ ' #用户名:密码@IP摄像头的局域网地址
video_capture=cv2.VideoCapture(cam_url)
运行操作:
1.电脑和手机都必须是无线网络,且手机IP摄像头要打开。
2.运行object_detector_app.py文件
2.python object_detection_app.py / python object_detection_multithreading.py可选参数(默认值):
照相机的设备索引--source=0
视频流中帧的宽度--width=480
视频流中帧的高度--height=360
工人人数--num-workers=2
队列大小--queue-size=5
从HLS流获取视频,而不是从摄像头‘-流输入=http://somertmpserver.com/hls/live.m3u8'
将流发送到livestreamingserver‘-Stream-Output=-stream=http://somertmpserver.com/hls/live.m3u8'
3.原理-目标检测
传统的目标检测一般使用滑动窗口的框架,主要包括三个步骤:
利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域;
提取候选区域相关的视觉特征。比如人脸检测常用的Harr特征;行人检测和普通目标检测常用的HOG特征等;
利用分类器进行识别,比如常用的SVM模型。
现在的目标检测是基于深度学习的目标检测,R-CNN是Region-based Convolutional Neural Networks的缩写,中文翻译是基于区域的卷积神经网络,是一种结合候选区域(Region Proposal)和卷积神经网络(CNN)的目标检测方法。
深度学习相关的目标检测方法也可以大致分为两派:
基于候选区域的,如R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN;
端到端(End-to-End),无需候选区域的,如YOLO、SSD。
目前来说,基于候选区域的方法依然占据上风,但端到端的方法速度上优势明显,后续的发展拭目以待。
基于深度学习的目标检测介绍,请看如下网站:
https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247483981&idx=1&sn=54775b0a245c449b84d476178d389796&chksm=fb727e91cc05f787fb2b5db18bf73db946f6aa22434ef0a638a9d8e90f162fbd268ec1f75fa5&scene=21#wechat_redirect
4.开始研究项目
项目文件:
1.anchor_generator文件夹-猜测属于训练模型
RPN进行提取框,CNN进行分类。
anchor是锚的意思,这里指的是锚框,也就是目标检测里面的那个框。
有关地方:Tensorflow Object Detection API
网站:https://github.com/tensorflow/models/tree/master/research/object_detection
在anchor_generator文件下有个文件BUILD 是一个文件结构的形式,在这里是使用里Bazel.
关于Bazel的详细介绍看后续文章以及Bazel官网和相应的博客介绍。
Bazel官网:https://docs.bazel.build/versions/master/bazel-overview.html
相关博客介绍:https://mp.weixin.qq.com/s?src=11×tamp=1562836923&ver=1722&signature=O5tdfdeD1YqwD00yBrpZ6KTkAs9yI4WT3-5b*PEcbQQnt*PvsgECufT8v3IUsynwstB5JIWIs51EBCvassKMXmD1aUrhNAFIaF9HBf3h8W3USvPzaFIT0W7yxUrkAzR0&new=1
详情看网站:https://blog.csdn.net/qq_31813549/article/details/79706310
Tensorflow环境搭建
1. Tensorflow的依赖包:Protocol Buffer和Bazel
Protocol Buffer是谷歌开发的处理结构化数据的工具。当要将这些结构化的用户信息持久化或者进行网络传输时,就需要先将它们序列化。所谓序列化,是将结构化的数据变成数据流的格式,
简单地说就是变为一个字符串。如何将结构化的数据序列化,并从序列化之后的数据流中还原出原来的结构化数据,统称为处理结构化数据。
Protocol Buffer序列化之后得到的数据bauhinia可读的字符串,而是二进制流,其定义的数据格式文件一般保存在.proto文件中,每一个message代表了一类结构化的数据。
Bazel是谷歌开源的自动化构建工具,谷歌内部绝大部分的应用都是通过它来编译的。Bazel对Python支持的编译方式只有三种:py_binary,py_library,py_test。其中py_binary将Python
程序编译成可执行文件,py_test编译Python测试程序,py_library将Python程序编译成库函数供其他py_binary和py_test调用。
详情看官网:https://blog.csdn.net/myGFZ/article/details/79926395
Bazel
Bazel是google开源的自动化构建工具,相比传统的makefile,Ant,Maner,Bazel在速度、可伸展性、灵活性以及对不同程序语言和平台上的支持都要出色。
Bazel的一个基本概念是工作空间(workspace),一个workspace可以简单的理解为一个文件夹(类似于eclipse中的工程目录),在这个根目录下需要一个WORKSPACE文件,定义了对外部资源的依赖关系。
在一个workspace内,Bazel通过BUIL文件来找到需要编译的目标,BUILD文件指定了每一个编译目标的输入、输出以及编译方式。以python为例,Bazel对python支持的编译方式有三种:py_binary(可执行文件)、py_library(链接库)以及py_test(测试程序)。
BUILD文件是由一系列的编译目标组成,每一个编译目标第一行指定编译方式,例如示例中的py_library和py_binary。每一条编译目标的主体是编译的具体信息,通过name、srcs、deps等属性完成。其中:
1 name #是一个编译目标的名称
2 srcs #编译所需的源码
3 deps #编译所需的依赖关系
例如,在BUILD中定义两个编译目标:
#第一个
py_binary(
name = "hello_lib",
srcs = [
"hello_lib.py",
],
deps=[
":hello_lib",
],
)
#第二个
py_library(
name = "hello_lib",
srcs = [
"hello_lib.py",
]
)