在本文中，我們將以深度庫(kù)即 Mediapipe為基礎(chǔ)庫(kù)，以及其他計(jì)算機(jī)視覺(jué)預(yù)處理的CV2庫(kù)來(lái)制作手部地標(biāo)檢測(cè)模型。市場(chǎng)上有很多關(guān)于這種問(wèn)題的用例，例如商業(yè)相關(guān)的虛擬現(xiàn)實(shí)、游戲部分的實(shí)時(shí)體驗(yàn)。

行業(yè)用例

智能家居：這是計(jì)算機(jī)視覺(jué)的現(xiàn)代用例之一，人們使用智能家居來(lái)過(guò)上更舒適的生活，這就是為什么它不再是一個(gè)小眾領(lǐng)域，它也正在蔓延到普通家庭。

智能電視：我們經(jīng)?？吹竭@種用例，你可以用手勢(shì)來(lái)改變音量、改變頻道等等。

游戲：對(duì)于真正的體驗(yàn)，這項(xiàng)技術(shù)越來(lái)越多地融入互動(dòng)游戲。

讓我們建立我們的手部檢測(cè)模型

導(dǎo)入庫(kù)

在這里，我們將導(dǎo)入整個(gè)管道中需要的所有庫(kù)。

import cv2
import numpy as np
import mediapipe as mp
import matplotlib.pyplot as plt

使用 Mediapipe 初始化手的地標(biāo)檢測(cè)模型

第一步是使用有效參數(shù)初始化模型，無(wú)論我們采用哪種檢測(cè)技術(shù)，它可以是Mediapipe 或Yolo，初始化模型很重要，遵循相同的原則，我們將遵循所有給定的步驟：

# First step is to initialize the Hands class an store it in a variable
mp_hands = mp.solutions.hands
 
# Now second step is to set the hands function which will hold the landmarks points
hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.3)
 
# Last step is to set up the drawing function of hands landmarks on the image
mp_drawing = mp.solutions.drawing_utils

代碼分解：

首先，使用mp.solutions.hands初始化變量 mp_hands。
然后使用相同的變量通過(guò)mp.solutions.hands.Hands()為hands設(shè)置函數(shù)。

到目前為止，我們了解了手模型初始化的結(jié)構(gòu)，現(xiàn)在讓我們深入研究函數(shù)中使用的參數(shù)hands。

static_image_mode: 該參數(shù)將布爾值作為其有效值，即它可以是True或False。當(dāng)處理視頻流時(shí)，默認(rèn)條件是 False ，這意味著它會(huì)降低處理延遲，即它會(huì)繼續(xù)專注于特定的手并定位相同的手，直到它追蹤的手消失，當(dāng)我們必須檢測(cè)實(shí)時(shí)流或視頻中的手時(shí)，這可能是有益的，根據(jù)我們的要求，我們必須檢測(cè)圖像上的地標(biāo)，因此我們將值設(shè)置為True。
max_num_hands：此參數(shù)將指示模型將在一個(gè)實(shí)例中檢測(cè)到的最大手?jǐn)?shù)。默認(rèn)情況下，該值為 2，這也是有意義的，盡管我們可以更改它，但我們希望至少檢測(cè)到一雙手。
min_detection_confidence：它提供了置信水平的閾值。最小檢測(cè)置信度的理想范圍是 [0.0,1.0]，默認(rèn)情況下，它保持為 0.5，這意味著如果置信度低于 50%，則在輸出圖像中根本不會(huì)檢測(cè)到手。

最后，我們將使用mp.solutions.drawing_utils，它將負(fù)責(zé)在輸出圖像上繪制所有手的地標(biāo)，這些地標(biāo)由我們的 Hands 函數(shù)檢測(cè)到。

讀取圖像

在這里，我們將首先使用cv2.imread()讀取要在其上執(zhí)行手部檢測(cè)的圖像，并使用matplotlib庫(kù)來(lái)顯示該特定輸入圖像。

# Reading the sample image on which we will perform the detection
sample_img = cv2.imread('media/sample.jpg')
 
# Here we are specifing the size of the figure i.e. 10 -height; 10- width.
plt.figure(figsize = [10, 10])
 
# Here we will display the sample image as the output.
plt.title("Sample Image");plt.axis('off');plt.imshow(sample_img[:,:,::-1]);plt.show()

輸出：

執(zhí)行手部地標(biāo)檢測(cè)

因此，現(xiàn)在我們已經(jīng)初始化了我們的手部檢測(cè)模型，下一步將是處理輸入圖像上的手部地標(biāo)檢測(cè)，并使用上述初始化模型在該圖像上繪制所有 21 個(gè)地標(biāo)，我們將通過(guò)以下步驟。

results = hands.process(cv2.cvtColor(sample_img, cv2.COLOR_BGR2RGB))
 
if results.multi_hand_landmarks:
    
   for hand_no, hand_landmarks in enumerate(results.multi_hand_landmarks):
        print(f'HAND NUMBER: {hand_no+1}')
        print('-----------------------')
        
        for i in range(2):
            print(f'{mp_hands.HandLandmark(i).name}:')
            print(f'{hand_landmarks.landmark[mp_hands.HandLandmark(i).value]}')

輸出：

代碼分解：

第一步，我們使用Mediapipe 庫(kù)中的process函數(shù)將手部地標(biāo)檢測(cè)結(jié)果存儲(chǔ)在變量results中，同時(shí)我們將圖像從 BGR 格式轉(zhuǎn)換為 RGB 格式。
在進(jìn)入下一步時(shí)，我們將首先檢查一些驗(yàn)證，是否檢測(cè)到點(diǎn)，即變量results應(yīng)該存放了一些結(jié)果。
如果是，那么我們將遍歷在圖像中檢測(cè)到的具有手部地標(biāo)的所有點(diǎn)。
現(xiàn)在在另一個(gè)循環(huán)中，我們可以看到只有 2 次迭代，因?yàn)槲覀冎幌腼@示手的 2 個(gè)地標(biāo)。
最后，我們將根據(jù)要求打印出所有檢測(cè)到并過(guò)濾掉的地標(biāo)。

從上面的處理中，我們發(fā)現(xiàn)所有檢測(cè)到的地標(biāo)都被歸一化為通用尺度，但是現(xiàn)在對(duì)于用戶端，這些縮放點(diǎn)是不相關(guān)的，因此我們會(huì)將這些地標(biāo)恢復(fù)到原始狀態(tài)。

image_height, image_width, _ = sample_img.shape
 
if results.multi_hand_landmarks:
 
    for hand_no, hand_landmarks in enumerate(results.multi_hand_landmarks):
        
        print(f'HAND NUMBER: {hand_no+1}')
        print('-----------------------')
        
        for i in range(2):    
            print(f'{mp_hands.HandLandmark(i).name}:') 
            print(f'x: {hand_landmarks.landmark[mp_hands.HandLandmark(i).value].x * image_width}')
            print(f'y: {hand_landmarks.landmark[mp_hands.HandLandmark(i).value].y * image_height}')
            print(f'z: {hand_landmarks.landmark[mp_hands.HandLandmark(i).value].z * image_width}n')

輸出：

代碼分解：

我們只需要在這里執(zhí)行一個(gè)額外的步驟，即我們將從我們定義的示例圖像中獲得圖像的原始寬度和高度，然后所有步驟將與我們之前所做的相同，唯一不同的將是現(xiàn)在地標(biāo)點(diǎn)沒(méi)有專門縮放。

在圖像上繪制地標(biāo)

由于我們已經(jīng)從上述預(yù)處理中獲得了手部地標(biāo)，現(xiàn)在是時(shí)候執(zhí)行我們的最后一步了，即在圖像上繪制點(diǎn)，以便我們可以直觀地看到我們的手部地標(biāo)檢測(cè)模型是如何執(zhí)行的。

img_copy = sample_img.copy()
 
if results.multi_hand_landmarks:
 
    for hand_no, hand_landmarks in enumerate(results.multi_hand_landmarks):
        
        mp_drawing.draw_landmarks(image = img_copy, landmark_list = hand_landmarks,
                                  connections = mp_hands.HAND_CONNECTIONS)
    fig = plt.figure(figsize = [10, 10])
 
    plt.title("Resultant Image");plt.axis('off');plt.imshow(img_copy[:,:,::-1]);plt.show()

輸出：

代碼分解：

首先，我們將創(chuàng)建原始圖像的副本，此步驟是出于安全目的，因?yàn)槲覀儾幌胧D像的原創(chuàng)性。
然后我們將處理之前所做的驗(yàn)證工作。
然后我們將遍歷手的每個(gè)地標(biāo)。
最后，借助mp_drawing.draw_landmarks函數(shù)，我們將在圖像上繪制地標(biāo)。
是時(shí)候使用 matplotlib 繪制圖像了，所以首先，我們將給出圖形大?。ù颂帪?width-10 和 height-10），然后在最后繪制，imshow將 BGR 格式轉(zhuǎn)換為 RGB 格式后的圖像使用函數(shù)，因?yàn)閷?duì)于 RGB 格式更有意義。

結(jié)論

在整個(gè)管道中，我們首先初始化模型，然后讀取圖像，查看輸入圖像，然后進(jìn)行預(yù)處理。我們縮小了地標(biāo)點(diǎn)，但這些點(diǎn)與用戶無(wú)關(guān)，因此我們將其恢復(fù)到原始狀態(tài)，最后我們將在圖像上繪制地標(biāo)。

尾注

這是本文的 github 鏈接：https://github.com/Aman-Preet-Singh-Gulati/hands-landmarks-detection-mediapipe

到此這篇關(guān)于Python使用Mediapipe對(duì)圖像進(jìn)行手部地標(biāo)檢測(cè)的文章就介紹到這了,更多相關(guān)Python Mediapipe手部地標(biāo)檢測(cè)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: