關(guān)于SSD目標(biāo)檢測模型的人臉口罩識(shí)別

更新時(shí)間：2022年11月29日 11:13:39 作者：Mabel-mql

這篇文章主要介紹了關(guān)于SSD目標(biāo)檢測模型的人臉口罩識(shí)別問題，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教

基本環(huán)境

torch1.2.0
Pillow8.2.0
torchvision0.4.0
CUDA版本可查看自己電腦，這里使用CUDA10.0
visual studio 2019
scipy1.2.1
numpy1.17.0
matplotlib3.1.2
opencv_python4.1.2.30
tqdm4.60.0
h5py2.10.0

安裝

建議創(chuàng)建一個(gè)虛擬環(huán)境，本文使用到的是在Pycharm環(huán)境下

打開pytorch的官方安裝方法：

https://pytorch.org/get-started/previous-versions/

但是可以先進(jìn)入：

https://download.pytorch.org/whl/torch_stable.html

找到自己需要下載自己需要的即可。

找到自己的下載路徑，然后再命令窗口定位，再使用

pip install +下載好的whl文件即可

再安裝相關(guān)依賴包需要先激活環(huán)境，進(jìn)行安裝。

同時(shí)安裝CUDA和visual studio 2019可參考網(wǎng)上教程，這里不細(xì)講。

數(shù)據(jù)集的準(zhǔn)備

本文使用VOC格式進(jìn)行訓(xùn)練，

訓(xùn)練前將標(biāo)簽文件放在VOCdevkit文件夾下的VOC2007文件夾下的Annotation中，文件格式為xml。

圖片文件放在VOCdevkit文件夾下的VOC2007文件夾下的JPEGImages中，格式為jpg，如下圖所示。

數(shù)據(jù)集處理

整個(gè)項(xiàng)目的文件如下（里面包含一些個(gè)人測試的代碼)：

第一步需要運(yùn)行voc_annotation.py，并更改其代碼里面的一些參數(shù)（annotation_mode、classes_path、trainval_percent、train_percent、VOCdevkit_path都可以修改，但也可以只修改以下內(nèi)容即可)：

需要修改model_data文件里面的voc_classes.txt內(nèi)容，例如本例中修改如下:

即可生成訓(xùn)練用的2007_train.txt以及2007_val.txt。

圖片處理

本例統(tǒng)一輸入進(jìn)來的圖片是300*300大小的3通道圖片。

對輸入進(jìn)來的圖片進(jìn)行判斷是否為RGB，如果不是則進(jìn)行轉(zhuǎn)RGB
對圖像進(jìn)行統(tǒng)一大小裁剪，為防止圖片失真，在其添加上灰條。
對圖片進(jìn)行數(shù)據(jù)增強(qiáng)，通過翻轉(zhuǎn)，隨機(jī)選取等操作。

模型訓(xùn)練

訓(xùn)練文件train.py中也要修改部分參數(shù)

classes_path一定要對應(yīng)自己的分類文件，以及自己權(quán)重文件的位置。經(jīng)過多次epochs后，權(quán)值會(huì)生成在logs文件夾。

在訓(xùn)練開始前還需要更改其他py文件的內(nèi)容：

在summary.py文件中:

m=SSD300（7，‘vgg’).to(device）中7代表的是分類的個(gè)數(shù)，這里需要修改為2，因?yàn)橹槐纠环譃榱?類。

下面（3，300，300)代表輸入的是300*300大小的3通道圖片。

運(yùn)行train.py文件進(jìn)行模型訓(xùn)練，若出現(xiàn)out of memory問題，可以減小每次訓(xùn)練的batch_size的大小。

模型預(yù)測

模型預(yù)測先要去修改ssd.py文件中的model_path(在自己保存權(quán)值的logs文件當(dāng)中選取一個(gè)權(quán)值文件，放到model_data文件夾中，并修改下面的路徑,其次classes_path也要進(jìn)行對應(yīng)的修改：

這里單獨(dú)調(diào)用攝像頭進(jìn)行預(yù)測，相關(guān)代碼如下所示：

import time

import cv2
import numpy as np
from PIL import Image

from ssd import SSD


#口罩識(shí)別模型
if __name__ == "__main__":
   ssd = SSD()
   video_path      = 0
   video_save_path = ""
   video_fps       = 25.0
   # 指定測量fps的時(shí)候，圖片檢測的次數(shù)
   test_interval = 100
   capture=cv2.VideoCapture(video_path)
   if video_save_path!="":
       fourcc = cv2.VideoWriter_fourcc(*'XVID')
       size = (int(capture.get(cv2.CAP_PROP_FRAME_WIDTH)), int(capture.get(cv2.CAP_PROP_FRAME_HEIGHT)))
       out = cv2.VideoWriter(video_save_path, fourcc, video_fps, size)

   ref, frame = capture.read()
   if not ref:
       raise ValueError("未能正確讀取攝像頭（視頻），請注意是否正確安裝攝像頭（是否正確填寫視頻路徑）。")

   fps = 0.0
   while(True):
       t1 = time.time()
       # 讀取某一幀
       ref, frame = capture.read()
       if not ref:
           break
       # 格式轉(zhuǎn)變，BGRtoRGB
       frame = cv2.cvtColor(frame,cv2.COLOR_BGR2RGB)
       # 轉(zhuǎn)變成Image
       frame = Image.fromarray(np.uint8(frame))
       # 進(jìn)行檢測
       frame = np.array(ssd.detect_image(frame))
       # RGBtoBGR滿足opencv顯示格式
       frame = cv2.cvtColor(frame,cv2.COLOR_RGB2BGR)
       
       fps  = ( fps + (1./(time.time()-t1)) ) / 2
       print("fps= %.2f"%(fps))
       frame = cv2.putText(frame, "fps= %.2f"%(fps), (0, 40), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
       
       cv2.imshow("video",frame)
       if video_save_path!="":
           out.write(frame)

       if cv2.waitKey(10) & 0xff==ord('q'):
           break
   capture.release()
   cv2.destroyAllWindows()