快捷導(dǎo)航

MediaPipe API實現(xiàn)骨骼識別功能分步講解流程

更新時間：2022年09月21日 11:18:54 作者：FeathersMouch

MediaPipe是用于構(gòu)建多模態(tài)（例如視頻、音頻或任何時間序列數(shù)據(jù)）、跨平臺（即eAndroid、IOS、web、邊緣設(shè)備）應(yīng)用ML管道的框架。這篇文章主要介紹了MediaPipe API實現(xiàn)骨骼識別功能分步流程

骨骼識別的應(yīng)用場景

如今，當前疫情大環(huán)境之下。很多人，因為居家辦公或者其他原因悶在家里不能外出健身。那么，借助骨骼識別和卷積神經(jīng)網(wǎng)絡(luò)模型，計算機視覺開發(fā)者可以通過相對應(yīng)的API，結(jié)合相對輕量化一些的卷積神經(jīng)網(wǎng)絡(luò)模型，來構(gòu)建如Keep這類的線上鍛煉監(jiān)督APP。

用戶通過將攝像頭對準自己，使得神經(jīng)網(wǎng)絡(luò)能過精確地通過人體骨骼框架，判斷出用戶是否有在“認認真真”的做運動。

骨骼網(wǎng)絡(luò)也可以應(yīng)用在3D模型構(gòu)建中，通過將獲取到的骨骼網(wǎng)絡(luò)信息，與Unity或虛幻等引擎中的3D模型進行動態(tài)綁定，即可得到屬于自己的虛擬人物形象。

骨骼識別的實現(xiàn)原理

通過觀察MediaPipe的官方文檔，我們可以看到

MediaPipe是通過兩套深度神經(jīng)網(wǎng)絡(luò)：即基于GHUM模型的BlazePose和ResNet50模型的AlphaPose。

以下是MediaPipe官方對于模型的概述：

該檢測器的靈感來自我們自己的輕量級BlazeFace模型，用于MediaPipe 人臉檢測，作為人體檢測器的代理。它明確地預(yù)測了兩個額外的虛擬關(guān)鍵點，將人體中心、旋轉(zhuǎn)和比例牢牢描述為一個圓圈。受萊昂納多的《維特魯威人》的啟發(fā)，我們預(yù)測了一個人臀部的中點、包圍整個人的圓的半徑以及連接肩部和臀部中點的連線的傾斜角。

另外，MediaPipie通過從GHUM模型中獲取到33個定位點，用于對人體骨骼的完整檢測，見下圖：

環(huán)境準備

請確保你的Python環(huán)境中包含如下的庫，才能順利完成依賴處理并安裝mediapipe

numpy
tensorflow
opencv

使用pip install mediapipe來安裝mediapipe模塊

pip install mediapipe

代碼實戰(zhàn)

我這里準備了一個特別視頻用于檢測骨骼API檢測。但是在開始之前，我們要先把我們使用的模塊導(dǎo)入進來

import time
import cv2
import mediapipe as mp
import sys

首先我們初始化MediaPipe標志點繪制器和MediaPipe姿態(tài)檢測器

# 初始化MediaPipe繪圖工具，以及樣式
mp_drawing = mp.solutions.drawing_utils
mp_drawing_styles = mp.solutions.drawing_styles
mp_pose = mp.solutions.pose

初始化OpenCV窗口

# 初始化OpenCV窗口
window = cv2.namedWindow("Gi", cv2.WINDOW_FULLSCREEN)

使用cv2.VideoCapture()讀取視頻

cap = cv2.VideoCapture('data.flv')

設(shè)置捕獲器的緩沖區(qū)大小

# 設(shè)置視頻緩沖區(qū)
cap.set(cv2.CAP_PROP_BUFFERSIZE, 2)

初始化FPS計數(shù)器和FPS計數(shù)時間

# 初始化FPS計時器和計數(shù)器
fps_start_time = 0
fps = 0

定義圖像處理函數(shù)processing()

# 定義Processing處理函數(shù)
def processing(image):
    # 使用cv2.putText繪制FPS
    cv2.putText(image, "FPS: {:.2f}".format(
        fps), (10, 85), cv2.FONT_HERSHEY_SIMPLEX, 3, (0, 255, 0), 3)
    # 使用image.flags.writeable = False將圖像標記為只讀，以加快處理速度
    image.flags.writeable = False
    # 使用cv2.resize將圖像縮放到適合的尺寸
    image = cv2.resize(image, (640, 480))
    # 使用cv2.cvtColor將圖像轉(zhuǎn)換為RGB
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    # 使用MediaPipe Pose檢測關(guān)鍵點
    results = pose.process(image)
    # 解鎖圖像讀寫
    image.flags.writeable = True
    # 將圖像轉(zhuǎn)換回BGR
    image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
    # 使用draw_landmarks()繪制關(guān)鍵點
    mp_drawing.draw_landmarks(
        image,
        results.pose_landmarks,
        mp_pose.POSE_CONNECTIONS,
        landmark_drawing_spec=mp_drawing_styles.get_default_pose_landmarks_style())
    # 返回處理后的圖像
    return image

初始化MediaPipe Pose類并開始進行骨骼檢測

# 初始化MediaPipe Pose類
with mp_pose.Pose(
        min_detection_confidence=0.5,
        min_tracking_confidence=0.5) as pose:
    # 當視頻打開時
    while cap.isOpened():
        # 讀取視頻幀和狀態(tài)
        success, image = cap.read()
        # 如果初始化失敗，則推出進程
        if not success:
            print("")
            exit(1)
        # 初始化FPS結(jié)束點計時器
        fps_end_time = time.time()
        # 計算FPS
        fps = 1.0 / (fps_end_time - fps_start_time)
        # 重置FPS開始點計時器
        fps_start_time = fps_end_time
        # 創(chuàng)建線程處理圖像
        image = processing(image)
        # 顯示圖像
        cv2.imshow('Gi', image)
        # 按下q鍵退出
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
cap.release()