1 使用教程

Prometheus通用目标检测使用教程如下图所示:

tutorial_objdet_1.jpg

具体请参考相应链接:

2 算法原理

YOLOv5结构如下:

YOLOv5.jpg

其主要创新如下:

2.1 CSPNet(Cross Stage Partial Network)网络模块

翻译为跨阶段局部网络,主要目的是缓解以前需要大量推理计算的问题:

  • 增强了CNN的学习能力,能够在轻量化的同时保持准确性。
  • 降低计算瓶颈
  • 降低内存成本

CSPNet通过将梯度的变化从头到尾地集成到特征图中,在减少了计算量的同时可以保证准确率。

2.2 Neck尺度特征融合模块

YOLOv5的Neck和YOLOv4中一样,都采用FPN+PAN的结构。FPN是自顶向下,将高层的强语义特征传递下来,对整个金字塔进行增强,不过只增强了语义信息,对定位信息没有传递。PAN就是针对这一点,在FPN的后面添加一个自底向上的金字塔,对FPN补充,将低层的强定位特征传递上去,又被称之为“双塔战术”。

2.3 损失函数的改进

20220125160256992.png

2.4 数据集

2.4.1 行人检测数据集

  • Caltech行人数据库:该库是目前规模较大的行人数据库,库中的图像来源于车载摄像机,与现实生活中图像的实际遮挡频率一致,其中包含质量不太好的图像。数据集分为训练集和测试集,但测试集的标注信息尚未公开。该数据库为评估已有的行人检测器的性能提供了一个较好的平台。地址:http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
  • WiderPerson数据集:WiderPerson数据集是一个行人检测基准数据集,其中的图像从各种场景中选择,不再局限于交通场景。该数据集一共包含13382张图像,并用各种遮挡标记了大约40万条注释。其中8000、1000、4382张图像分别作为训练、验证和测试子集。地址:http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson/
  • 夜间行人数据集NightOwls:与白天条件相比,夜间行人检测更具挑战性,因为光照、反射、模糊和对比度不断变化。NightOwls由40个序列中的27.9万帧组成,由行业标准相机在3个国家/地区的夜间记录,包括不同的季节和天气条件。所有帧都经过完全标注,并包含额外的目标属性,例如遮挡、姿势和难度,以及用于跨多个帧识别同一目标的跟踪信息。地址:https://www.nightowls-dataset.org/
  • EuroCity-Persons数据集:EuroCity-Persons在超过47300张图像中手动标记了超过238200个行人实例,比以前用于基准测试的行人数据集大了近一个数量级。该数据集在整个欧洲范围采集得到,以保证多样性。地址:https://eurocity-dataset.tudelft.nl/eval/overview/home

2.4.2 车辆检测数据集

  • UA-DETRAC数据集:UA-DETRAC是一个具有挑战性的真实世界多目标检测和多目标跟踪基准。该数据集包括在中国北京和天津的24个不同地点使用Cannon EOS 550D相机拍摄的10小时视频。视频以每秒25帧(fps)的速度录制,分辨率为960×540像素。UA-DETRAC数据集中有超过14万个帧,手动注释了8250个车辆,总共有121万个标记的对象边界框。地址:http://detrac-db.rit.albany.edu/
  • VisDrone数据集:VisDrone数据集覆盖了中国从北到南14个不同城市的不同城市/郊区。作为有史以来最大的此类数据集,VisDrone能够在无人机平台上对视觉分析算法进行广泛的评估和研究。地址:http://aiskyeye.com/
  • UAVDT数据集:无人机数据集对于目标跟踪而言是一大挑战,近年来,正对无人机的数据集也越来越多,UAVDT是ICCV2018提出的一个数据集,共包含80000帧图片,不仅可以用于目标跟踪,也可以用于目标检测等。地址:https://paperswithcode.com/dataset/uavdt

2.5 训练方案

16430954657571.jpg

训练流程如上图所示,分为2种方式,也可以结合使用:

  • 采集图像,用SpireImageTools进行标注
  • 将已有数据集转换为Spire格式,方便查看修改

具体图像标注与训练过程,后面会录制一个视频详细说明。