python爬蟲解決驗證碼的思路及示例

更新時間：2019年08月01日 09:48:31 作者：xiaozhanger

這篇文章主要介紹了python爬蟲解決驗證碼的思路及示例，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

如果直接從生成驗證碼的頁面把驗證碼下載到本地后識別，再構造表單數(shù)據(jù)發(fā)送的話，會有一個驗證碼同步的問題，即請求了兩次驗證碼，而識別出來的驗證碼并不是實際需要發(fā)送的驗證碼。有如下幾種方法解決。

法1:

用session：

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下來balabala對圖像操作，可以用python的相關庫（識別率低，教務網(wǎng)的驗證碼都夠嗆），也可以用云速等第三方驗證碼識別網(wǎng)站提供的有償服務（識別度較高）
 
#再接下來構造表單數(shù)據(jù)balabala

法2:

用cookie：

#綁定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先讀取驗證碼的url
picture = opener.open(checkcode_url).read()
 
#balabala圖像處理
 
# 生成post數(shù)據(jù) 
data = urllib.urlencode(postData)
# 構造request請求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登錄頁面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手動構造cookie：該方法無需識別驗證碼，本人尚未嘗試。

webdriver 操作 cookie 的方法有：

get_cookies() 獲得所有 cookie 信息
get_cookie(name) 返回特定 name 有 cookie 信息
add_cookie(cookie_dict) 添加 cookie，必須有 name 和 value 值
delete_cookie(name) 刪除特定(部分)的 cookie 信息
delete_all_cookies() 刪除所有 cookie 信息

....
#第一次訪問 xxx 網(wǎng)站
driver.get("http://xxx.com")
#將用戶名密碼寫入瀏覽器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次訪問 xxx 網(wǎng)站，將會自動登錄
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

這種方法難點在于確定該網(wǎng)站是用cookie中的什么key值來表示“用戶名”和“密碼”的。而且好像有些cookie是加密過的?？梢韵扔胓et_cookies()進行觀察。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: