基于K-Means算法的SSD-Mobilenet模型优化研究
信息技术与网络安全
刘津龙,贾郭军
(山西师范大学 数学与计算机科学学院, 山西 临汾041000)
摘要:SSD-Mobilenet目标检测模型是将SSD和Mobilenet进行结合衍生出的一种轻量化模型,同时具备了两模型各自的优势,即多尺度检测和模型轻量化。在原模型中特征提取层使用了人为设置的先验框,这样的设置存在一定的主观性,并不适用于对特定场景下单一类别目标的识别与定位。为解决这一问题,本文提出了使用K-Means算法对目标真实框的宽高比进行聚类分析,提升模型在特定场景下对单一类别目标的检测能力,规避了人为设置的主观先验性。使用Pascal VOC 2007数据集对该模型进行训练和评估,实验结果显示,模型的mAP值比Fast RCNN提高了4.5%,比Faster RCNN提高了1.5%,比SSD-300提高了3.4%,比YOLOv2提高了2.4%。
中图分类号:TP391
文献标识码:A
DOI:10.19358/j.issn.2096-5133.2021.01.007
引用格式: 刘津龙,贾郭军。 基于K-Means算法的SSD-Mobilenet模型优化研究[J].信息技术与网络安全,2021,40(1):37-44.
文献标识码:A
DOI:10.19358/j.issn.2096-5133.2021.01.007
引用格式: 刘津龙,贾郭军。 基于K-Means算法的SSD-Mobilenet模型优化研究[J].信息技术与网络安全,2021,40(1):37-44.
Research on SSD-Mobilenet model optimization based on K-Means algorithm
Liu Jinlong,Jia Guojun
(School of Mathematics and Computer Science,Shanxi Normal University,Linfen 041000,China)
Abstract:The SSD-Mobilenet target detection model is a lightweight model derived from the combination of SSD and Mobilenet. It also has the advantages of the two models, namely multi-scale detection and lightweight model. In the original model, the feature extraction layer uses artificially set a priori boxes. Such settings are subjective and unsuitable for the recognition and positioning of single-category targets in specific scenarios. In order to solve this problem, this paper proposes to use the K-Means algorithm to perform cluster analysis on the aspect ratio of the real frame of the target, which improves the model′s ability to detect a single category of targets in a specific scenario, and avoids the subjective apriority of artificial settings. This paper uses the Pascal VOC 2007 data set to train and evaluate the model. The experimental results show that the mAP value of the model is 4.5% higher than Fast-RCNN, 1.5% higher than Faster-RCNN, 3.4% higher than SSD-300, YOLOv2 increased by 2.4%.
Key words :object detection;K-Means;SSD-Mobilenet;anchor box;cluster
0 引言
目标检测是将目标从图像中提取出来的计算机视觉技术,是计算机视觉领域的重要组成部分,是一切计算机视觉任务的基础,具有较高的研究价值。运动目标检测是从不断变化的序列图像中进行目标的识别和定位,分为静态背景下的目标检测和动态背景下的目标检测。目前,解决目标检测问题的思路主要有如下两种:一是依赖于目标的先验知识,提前为运动目标建模,然后在图像序列中实时找到匹配的目标;二是不依赖于先验知识,直接从图像序列中检测到运动目标,并进行类别判定。
传统的目标检测一般使用滑动窗口的检测机制,主要包括以下三个步骤:第一步利用不同尺寸的滑动窗口[1]在滑动途中覆盖的某一部分作为候选区域;第二步提取候选区域相关的视觉特征形成特征向量,例如人脸检测常用的Harr特征[2],行人检测和普通目标检测常用HOG特征[3];第三步利用提取到的特征对目标进行识别和定位。该类目标检测算法的窗口区域选择策略没有针对性,时间复杂度高,窗口冗余相对较多。手工设计的特征对目标可能出现的多样性变化没有较强的鲁棒性,比如形态变化和光照影响等。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003315
作者信息:
刘津龙,贾郭军
(山西师范大学 数学与计算机科学学院, 山西 临汾041000)
此内容为AET网站原创,未经授权禁止转载。