1. 概述
1.1. 基于传统计算机视觉的算法
这类算法通常涉及图像预处理、特征提取和分类器分类。例如,使用Selective Search算法从待检测图像中提取区域候选框,然后通过CNN(卷积神经网络)进行特征学习和目标检测。
1.2. 深度学习方法
随着深度学习技术的发展,目标检测算法得到了快速发展。常见的深度学习方法包括但不限于:
1.2.1. Two Stage
R-CNN系列
如Faster R-CNN、Faster R-CNN V2等,这些算法通过区域建议网络(RPN)生成候选区域,然后使用深度学习模型对这些区域进行分类和边界框回归。
这是一种two-stage
方法,其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高
,缺点是训练慢,推理也慢
。
1.2.2. One Stage
one-stage方法,如Yolo和SSD,其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度快,但是均匀的密集采样的一个重要缺点是训练比较困难,这主要是因为正样本与负样本(背景)极其不均衡(参见Focal Loss),导致模型准确度稍低。
YOLO(You Only Look Once)
YOLO是一种端到端的目标检测算法,它直接从图像像素到边界框和类别标签的映射,无需手动设计特征。
SSD (Single Shot MultiBox Detector)
SSD是一种单次检测器,能够在不同尺度上检测不同大小的对象,并且运行速度较快。
DETR系列
如DETR、DETR-Inception等,这些算法采用Transformer架构,通过编码器-解码器结构处理图像,实现高效的目标检测。
专门针对特定应用的算法:例如,在工业缺陷检测中,可以采用基于机器视觉的包装袋缺陷检测方法,该方法通过提取特征值如长度、宽度、面积等进行缺陷识别和分类。
其他辅助技术:除了主流的目标检测算法外,还有一些辅助技术如图像锐化(拉普拉斯滤波、Sobel算子、Canny算子等)用于增强图像质量,以提高检测的准确性。
总结来说,机器视觉检测算法涵盖了从传统计算机视觉到最新的深度学习技术,不断进化以适应不同的应用需求。
2. YOLO检测器
本文主要介绍一下YOLO检测器的训练和推理,支持YOLO检测器的Package有几个:
- Ultralytics
YOLO 官方团队推出的 CV 训练与推理框架,不仅支持目标检测任务,还支持分割、姿态识别、分类等更多任务。
- OpenMMLab Detection Toolbox and Benchmark
https://github.com/open-mmlab/mmdetection
- SuperGradients
可用于训练和使用 YOLO-NAS 模型,YOLO-NAS 是一种新的先进的目标检测模型,该包提供了方便的接口和工具来进行相关操作.
- Darknet
YOLO 系列模型最初使用的框架,虽然使用起来相对较为复杂,但对于深入理解和定制 YOLO 模型训练和推理过程有较大帮助。
3. Ultralytics环境准备
3.1. 环境准备
pip install ultralytics
3.2. 数据集准备
- 采用
ultralytics
准备的测试dataset
https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco128.yaml
3.3. 配置说明
- 配置文件
~/.config/Ultralytics/settings.json
dataset目录
"datasets_dir": "/data/yolo/datasets"
- 目录结构
/data/yolo/datasets$ tree -L 3 .
.
└── my_coco128
├── coco128.yaml
├── images
│ └── train2017
└── labels
└── train2017
5 directories, 1 files
- coco128.yaml
注意,
path
是相对datasets_dir
而言,而train
和val
是相对path
而言
path: my_coco128 # dataset root dir
train: images/train2017 # train images (relative to 'path') 128 images
val: images/train2017 # val images (relative to 'path') 128 images
test: # test images (optional)
# Classes
names:
0: person
1: bicycle
2: car
3: motorcycle
4: airplane
5: bus
权重目录
weights_dir
目录下保存pretrained-models,比如yolo11n.pt
、yolo11s.pt
等,YOLO模型初始化时需要使用
。否则,找不到权重文件。
"weights_dir": "weights"
- 目录结构
/data/yolo$ tree weights/
weights/
├── yolo11n-cls.pt
├── yolo11n-obb.pt
├── yolo11n-pose.pt
├── yolo11n.pt
└── yolo11n-seg.pt
0 directories, 5 files
4. YOLO检测器训练
- 训练命令
yolo detect train data=/home/shuzhang/ai/code/learn/machine-learning/yolo/dataset/yolo/my_coco128.yaml epochs=2 device=1
- 推理测试
模型可以修改为自己训练的模型路径即可。
yolo detect predict model=yolo11n.pt source='https://ww3.sinaimg.cn/mw690/633f0027ly1hlops5ht58j20yi18w7fr.jpg'
5. 其他测试case
$ yolo --help
WARNING ⚠️ argument '--help' does not require leading dashes '--', updating to 'help'.
Arguments received: ['yolo', '--help']. Ultralytics 'yolo' commands use the following syntax:
yolo TASK MODE ARGS
Where TASK (optional) is one of {'segment', 'classify', 'obb', 'detect', 'pose'}
MODE (required) is one of {'track', 'train', 'export', 'val', 'predict', 'benchmark'}
ARGS (optional) are any number of custom 'arg=value' pairs like 'imgsz=320' that override defaults.
See all ARGS at https://docs.ultralytics.com/usage/cfg or with 'yolo cfg'
1. Train a detection model for 10 epochs with an initial learning_rate of 0.01
yolo train data=coco8.yaml model=yolo11n.pt epochs=10 lr0=0.01
2. Predict a YouTube video using a pretrained segmentation model at image size 320:
yolo predict model=yolo11n-seg.pt source='https://youtu.be/LNwODJXcvt4' imgsz=320
3. Val a pretrained detection model at batch-size 1 and image size 640:
yolo val model=yolo11n.pt data=coco8.yaml batch=1 imgsz=640
4. Export a YOLO11n classification model to ONNX format at image size 224 by 128 (no TASK required)
yolo export model=yolo11n-cls.pt format=onnx imgsz=224,128
5. Streamlit real-time webcam inference GUI
yolo streamlit-predict
6. Ultralytics solutions usage
yolo solutions count or in ['heatmap', 'queue', 'speed', 'workout', 'analytics', 'trackzone'] source="path/to/video/file.mp4"
7. Run special commands:
yolo help
yolo checks
yolo version
yolo settings
yolo copy-cfg
yolo cfg
yolo solutions help
Docs: https://docs.ultralytics.com
Solutions: https://docs.ultralytics.com/solutions/
Community: https://community.ultralytics.com
GitHub: https://github.com/ultralytics/ultralytics
检测
分类
分割
姿态估计(关键点检测)
除了人体关键点检测,也可做其他物体的关键点检测,有时间可以训练一个试试
OBB检测(Oriented Bounding Box,任务即定向边界框任务)
6. 参考
YOLO和SSD检测器
https://zhuanlan.zhihu.com/p/32525231
https://zhuanlan.zhihu.com/p/33544892Github目标检测器Topic
https://github.com/topics/object-detectionYolo官方开发包(V8、V11等),ultralytics支持Yolo训练和推理等
https://docs.ultralytics.com训练个性化数据,参考
https://www.digitalocean.com/community/tutorials/train-yolov5-custom-data