Python3爬蟲中識別圖形驗證碼的實例講解

更新時間：2020年07月30日 14:35:54 作者：愛喝馬黛茶的安東尼

在本篇內(nèi)容里小編給大家分享的是關(guān)于Python3爬蟲中識別圖形驗證碼的實例講解內(nèi)容，需要的朋友們可以學習參考下。

本節(jié)我們首先來嘗試識別最簡單的一種驗證碼，圖形驗證碼，這種驗證碼出現(xiàn)的最早，現(xiàn)在也很常見，一般是四位字母或者數(shù)字組成的，例如中國知網(wǎng)的注冊頁面就有類似的驗證碼，鏈接為：http://my.cnki.net/elibregister/commonRegister.aspx，頁面：

表單的最后一項就是圖形驗證碼，我們必須完全輸入正確圖中的字符才可以完成注冊。

1.本節(jié)目標

本節(jié)我們就以知網(wǎng)的驗證碼為例，講解一下利用 OCR 技術(shù)識別此種圖形驗證碼的方法。

2. 準備工作

識別圖形驗證碼需要的庫有 Tesserocr，如果沒有安裝可以參考第一章的安裝說明。

3. 獲取驗證碼

為了便于實驗，我們先將驗證碼的圖片保存到本地，以供測試。

打開開發(fā)者工具，找到驗證碼元素，可以看到這是一張圖片，它的 src 屬性是 CheckCode.aspx，在這里我們直接將這個鏈接打開：http://my.cnki.net/elibregister/CheckCode.aspx，就可以看到一個驗證碼，直接右鍵保存下來即可，將名稱命名為 code.jpg，如圖 8-2 所示：

這樣我們就可以得到一張驗證碼圖片供下面測試識別使用了。

4. 識別測試

接下來我們新建一個項目，將驗證碼圖片放到項目根目錄下，用 Tesserocr 庫來識別一下該驗證碼試試，代碼如下：

import tesserocr
from PIL import Image
image = Image.open('code.jpg')
result = tesserocr.image_to_text(image)
print(result)

在這里我們首先新建了一個 Image 對象，然后調(diào)用了 Tesserocr 的 image_to_text() 方法，傳入該 Image 對象即可完成識別，實現(xiàn)過程非常簡單，識別結(jié)果如下：

JR42

另外 Tesserocr 還有一個更加簡單的方法直接將圖片文件轉(zhuǎn)為字符串可以達到同樣的效果，代碼如下：

import tesserocr
print(tesserocr.file_to_text('image.png'))

不過經(jīng)測試此種方法的識別效果不如上一種方法好。

5. 驗證碼處理

如上的圖片識別基本沒有難度，只是新建一個 Image 對象，然后調(diào)用 image_to_text() 方法即可得出圖片的識別結(jié)果。

接下來我們換一個驗證碼試一下，命名為 code2.jpg，如圖 8-3 所示：

重新用下面的代碼測試一下：

import tesserocr
from PIL import Image
image = Image.open('code2.jpg')
result = tesserocr.image_to_text(image)
print(result)

這時可以看到如下輸出結(jié)果：

FFKT

發(fā)現(xiàn)這次識別和實際的結(jié)果有所偏差，這是因為驗證碼內(nèi)的多余線條干擾了圖片的識別。

對于這種情況，我們還需要做一下額外的處理，如轉(zhuǎn)灰度、二值化等操作。

我們可以利用 Image 對象的 convert() 方法參數(shù)傳入 L 即可將圖片轉(zhuǎn)化為灰度圖像，代碼如下：

image = image.convert('L')
image.show()

傳入 1 即可將圖片進行二值化處理：

image = image.convert('1')
image.show()

另外我們還可以指定二值化的閾值，上面的方法采用的是默認閾值127，不過我們不能用原圖直接轉(zhuǎn)化，可以先轉(zhuǎn)為灰度圖像，然后再指定二值化閾值轉(zhuǎn)化，代碼如下：

image = image.convert('L')
threshold = 80
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table, '1')
image.show()

在這里我們指定了一個變量 threshold 代表二值化閾值，閾值設置為 80，處理之后我們看一下結(jié)果，如圖 8-4 所示：

經(jīng)過處理之后我們發(fā)現(xiàn)原來的驗證碼中的線條已經(jīng)被去除了，而且整個驗證碼變得黑白分明，這時重新識別驗證碼，代碼如下：

import tesserocr
from PIL import Image
image = Image.open('code2.jpg')
image = image.convert('L')
threshold = 127
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table, '1')
result = tesserocr.image_to_text(image)
print(result)

即可發(fā)現(xiàn)運行結(jié)果變成了：