快捷導(dǎo)航

MediaPipe API實(shí)現(xiàn)骨骼識別功能分步講解流程

更新時間：2022年09月21日 11:18:54 作者：FeathersMouch

MediaPipe是用于構(gòu)建多模態(tài)（例如視頻、音頻或任何時間序列數(shù)據(jù)）、跨平臺（即eAndroid、IOS、web、邊緣設(shè)備）應(yīng)用ML管道的框架。這篇文章主要介紹了MediaPipe API實(shí)現(xiàn)骨骼識別功能分步流程

骨骼識別的應(yīng)用場景

如今，當(dāng)前疫情大環(huán)境之下。很多人，因?yàn)榫蛹肄k公或者其他原因悶在家里不能外出健身。那么，借助骨骼識別和卷積神經(jīng)網(wǎng)絡(luò)模型，計算機(jī)視覺開發(fā)者可以通過相對應(yīng)的API，結(jié)合相對輕量化一些的卷積神經(jīng)網(wǎng)絡(luò)模型，來構(gòu)建如Keep這類的線上鍛煉監(jiān)督APP。

用戶通過將攝像頭對準(zhǔn)自己，使得神經(jīng)網(wǎng)絡(luò)能過精確地通過人體骨骼框架，判斷出用戶是否有在“認(rèn)認(rèn)真真”的做運(yùn)動。

骨骼網(wǎng)絡(luò)也可以應(yīng)用在3D模型構(gòu)建中，通過將獲取到的骨骼網(wǎng)絡(luò)信息，與Unity或虛幻等引擎中的3D模型進(jìn)行動態(tài)綁定，即可得到屬于自己的虛擬人物形象。

骨骼識別的實(shí)現(xiàn)原理

通過觀察MediaPipe的官方文檔，我們可以看到

MediaPipe是通過兩套深度神經(jīng)網(wǎng)絡(luò)：即基于GHUM模型的BlazePose和ResNet50模型的AlphaPose。

以下是MediaPipe官方對于模型的概述：

該檢測器的靈感來自我們自己的輕量級BlazeFace模型，用于MediaPipe 人臉檢測，作為人體檢測器的代理。它明確地預(yù)測了兩個額外的虛擬關(guān)鍵點(diǎn)，將人體中心、旋轉(zhuǎn)和比例牢牢描述為一個圓圈。受萊昂納多的《維特魯威人》的啟發(fā)，我們預(yù)測了一個人臀部的中點(diǎn)、包圍整個人的圓的半徑以及連接肩部和臀部中點(diǎn)的連線的傾斜角。

另外，MediaPipie通過從GHUM模型中獲取到33個定位點(diǎn)，用于對人體骨骼的完整檢測，見下圖：

環(huán)境準(zhǔn)備

請確保你的Python環(huán)境中包含如下的庫，才能順利完成依賴處理并安裝mediapipe

numpy
tensorflow
opencv

使用pip install mediapipe來安裝mediapipe模塊

pip install mediapipe

代碼實(shí)戰(zhàn)

我這里準(zhǔn)備了一個特別視頻用于檢測骨骼API檢測。但是在開始之前，我們要先把我們使用的模塊導(dǎo)入進(jìn)來

import time
import cv2
import mediapipe as mp
import sys

首先我們初始化MediaPipe標(biāo)志點(diǎn)繪制器和MediaPipe姿態(tài)檢測器

# 初始化MediaPipe繪圖工具，以及樣式
mp_drawing = mp.solutions.drawing_utils
mp_drawing_styles = mp.solutions.drawing_styles
mp_pose = mp.solutions.pose

初始化OpenCV窗口

# 初始化OpenCV窗口
window = cv2.namedWindow("Gi", cv2.WINDOW_FULLSCREEN)

使用cv2.VideoCapture()讀取視頻

cap = cv2.VideoCapture('data.flv')

設(shè)置捕獲器的緩沖區(qū)大小

# 設(shè)置視頻緩沖區(qū)
cap.set(cv2.CAP_PROP_BUFFERSIZE, 2)

初始化FPS計數(shù)器和FPS計數(shù)時間

# 初始化FPS計時器和計數(shù)器
fps_start_time = 0
fps = 0

定義圖像處理函數(shù)processing()

# 定義Processing處理函數(shù)
def processing(image):
    # 使用cv2.putText繪制FPS
    cv2.putText(image, "FPS: {:.2f}".format(
        fps), (10, 85), cv2.FONT_HERSHEY_SIMPLEX, 3, (0, 255, 0), 3)
    # 使用image.flags.writeable = False將圖像標(biāo)記為只讀，以加快處理速度
    image.flags.writeable = False
    # 使用cv2.resize將圖像縮放到適合的尺寸
    image = cv2.resize(image, (640, 480))
    # 使用cv2.cvtColor將圖像轉(zhuǎn)換為RGB
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    # 使用MediaPipe Pose檢測關(guān)鍵點(diǎn)
    results = pose.process(image)
    # 解鎖圖像讀寫
    image.flags.writeable = True
    # 將圖像轉(zhuǎn)換回BGR
    image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
    # 使用draw_landmarks()繪制關(guān)鍵點(diǎn)
    mp_drawing.draw_landmarks(
        image,
        results.pose_landmarks,
        mp_pose.POSE_CONNECTIONS,
        landmark_drawing_spec=mp_drawing_styles.get_default_pose_landmarks_style())
    # 返回處理后的圖像
    return image

初始化MediaPipe Pose類并開始進(jìn)行骨骼檢測

# 初始化MediaPipe Pose類
with mp_pose.Pose(
        min_detection_confidence=0.5,
        min_tracking_confidence=0.5) as pose:
    # 當(dāng)視頻打開時
    while cap.isOpened():
        # 讀取視頻幀和狀態(tài)
        success, image = cap.read()
        # 如果初始化失敗，則推出進(jìn)程
        if not success:
            print("")
            exit(1)
        # 初始化FPS結(jié)束點(diǎn)計時器
        fps_end_time = time.time()
        # 計算FPS
        fps = 1.0 / (fps_end_time - fps_start_time)
        # 重置FPS開始點(diǎn)計時器
        fps_start_time = fps_end_time
        # 創(chuàng)建線程處理圖像
        image = processing(image)
        # 顯示圖像
        cv2.imshow('Gi', image)
        # 按下q鍵退出
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
cap.release()

運(yùn)行與效果

運(yùn)行腳本

python Baby.py

運(yùn)行結(jié)果如下圖：

總結(jié)

MediaPipe提供眾多的API供開發(fā)者使用，例如：目標(biāo)識別，人臉識別，手部識別以及骨骼識別等等。通過內(nèi)置的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行探測，極大程度的節(jié)省了計算機(jī)視覺開發(fā)者的開發(fā)時間，提升了開發(fā)效率。

到此這篇關(guān)于MediaPipe API實(shí)現(xiàn)骨骼識別功能分步講解流程的文章就介紹到這了,更多相關(guān)MediaPipe API骨骼識別內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: