python爬蟲(chóng)之自動(dòng)登錄與驗(yàn)證碼識(shí)別
在用爬蟲(chóng)爬取網(wǎng)站數(shù)據(jù)時(shí),有些站點(diǎn)的一些關(guān)鍵數(shù)據(jù)的獲取需要使用賬號(hào)登錄,這里可以使用requests發(fā)送登錄請(qǐng)求,并用Session對(duì)象來(lái)自動(dòng)處理相關(guān)Cookie。
另外在登錄時(shí),有些網(wǎng)站有時(shí)會(huì)要求輸入驗(yàn)證碼,比較簡(jiǎn)單的驗(yàn)證碼可以直接用pytesser來(lái)識(shí)別,復(fù)雜的驗(yàn)證碼可以依據(jù)相應(yīng)的特征自己采集數(shù)據(jù)訓(xùn)練分類器。
以CSDN網(wǎng)站的登錄為例,這里用Python的requests庫(kù)與pytesser庫(kù)寫(xiě)了一個(gè)登錄函數(shù)。如果需要輸入驗(yàn)證碼,函數(shù)會(huì)首先下載驗(yàn)證碼到本地,然后用pytesser識(shí)別驗(yàn)證碼后登錄,對(duì)于CSDN登錄驗(yàn)證碼,pytesser的識(shí)別率很高。
其中的pytesser的下載地址為: pytesser下載
具體代碼如下:
#coding:utf-8 import sys import time import urllib import shutil import pytesser import requests from lxml import etree config = {'gid': 1} def parse(s, html, idx): result = {} tree = etree.HTML(html) try: result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0] result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0] result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0] except IndexError, e: return None valimg = None valimgs = tree.xpath('//img[@id="yanzheng"]/@src') if len(valimgs) > 0: valimg = valimgs[0] validateCode = None if valimg: fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg' config['gid'] = config['gid'] + 1 ri = s.get("https://passport.csdn.net" + valimg) with open(fname, 'wb') as f: for chk in ri: f.write(chk) f.close() validateCode = pytesser.image_file_to_string(fname) validateCode = validateCode.strip() validateCode = validateCode.replace(' ', '') validateCode = validateCode.replace('\n', '') result['validateCode'] = validateCode return result def login(usr, pwd, idx): s = requests.Session() r = s.get('https://passport.csdn.net/account/login', headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', }) while True: res = parse(s, r.text, idx) if res == None: return False url = 'https://passport.csdn.net' + res['path'] form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],} if res.has_key('validateCode'): form['validateCode'] = res['validateCode'] s.headers.update({ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'passport.csdn.net', 'Origin': 'https://passport.csdn.net', 'Referer': 'https://passport.csdn.net/account/login', 'Upgrade-Insecure-Requests': 1, }) r = s.post(url, data=form) tree = etree.HTML(r.text) err_strs = tree.xpath('//span[@id="error-message"]/text()') if len(err_strs) == 0: return True err_str = err_strs[0] print err_str err = err_str.encode('utf8') validate_code_err = '驗(yàn)證碼錯(cuò)誤' usr_pass_err = '帳戶名或登錄密碼不正確,請(qǐng)重新輸入' try_later_err = '登錄失敗連續(xù)超過(guò)5次,請(qǐng)10分鐘后再試' if err[:5] == validate_code_err[:5]: pass elif err[:5] == usr_pass_err[:5]: return False elif err[:5] == try_later_err[:5]: return False else: return True if __name__ == '__main__': main(sys.argv[1], sys.argv[2], 0)
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- python驗(yàn)證碼識(shí)別教程之灰度處理、二值化、降噪與tesserocr識(shí)別
- python驗(yàn)證碼識(shí)別的實(shí)例詳解
- Python驗(yàn)證碼識(shí)別處理實(shí)例
- python驗(yàn)證碼識(shí)別教程之利用滴水算法分割圖片
- python簡(jiǎn)單驗(yàn)證碼識(shí)別的實(shí)現(xiàn)方法
- 詳解Python驗(yàn)證碼識(shí)別
- python驗(yàn)證碼識(shí)別教程之利用投影法、連通域法分割圖片
- 使用python 對(duì)驗(yàn)證碼圖片進(jìn)行降噪處理
- python對(duì)驗(yàn)證碼降噪的實(shí)現(xiàn)示例代碼
- python自動(dòng)化操作之動(dòng)態(tài)驗(yàn)證碼、滑動(dòng)驗(yàn)證碼的降噪和識(shí)別
相關(guān)文章
Python偏函數(shù)實(shí)現(xiàn)原理及應(yīng)用
這篇文章主要介紹了Python偏函數(shù)實(shí)現(xiàn)原理及應(yīng)用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-11-11Python實(shí)現(xiàn)的微信好友數(shù)據(jù)分析功能示例
這篇文章主要介紹了Python實(shí)現(xiàn)的微信好友數(shù)據(jù)分析功能,結(jié)合實(shí)例形式分析了Python使用itchat、pandas、pyecharts等模塊針對(duì)微信好友數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與計(jì)算相關(guān)操作技巧,需要的朋友可以參考下2018-06-06基于Pygame實(shí)現(xiàn)簡(jiǎn)單的貪吃蛇游戲
Pygame是一個(gè)專門(mén)用來(lái)開(kāi)發(fā)游戲的Python模塊,主要用于開(kāi)發(fā)、設(shè)計(jì)?2D?電子游戲。本文主要為大家介紹了通過(guò)Pygame制作一個(gè)簡(jiǎn)單的貪吃蛇游戲,感興趣的同學(xué)可以關(guān)注一下2021-12-12python 如何將帶小數(shù)的浮點(diǎn)型字符串轉(zhuǎn)換為整數(shù)
在python中如何實(shí)現(xiàn)將帶小數(shù)的浮點(diǎn)型字符串轉(zhuǎn)換為整數(shù)呢?今天小編就為大家介紹一下解決方案,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-05-05Python畫(huà)圖工具M(jìn)atplotlib庫(kù)常用命令簡(jiǎn)述
這篇文章主要介紹了Python畫(huà)圖Matplotlib庫(kù)常用命令簡(jiǎn)述總結(jié),文中包含詳細(xì)的圖文示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-09-09Python輕量級(jí)web框架bottle使用方法解析
這篇文章主要介紹了Python輕量級(jí)web框架bottle使用方法解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06Python?Flask實(shí)現(xiàn)后臺(tái)任務(wù)輕松構(gòu)建高效API應(yīng)用
本文介紹如何使用Python?Flask框架實(shí)現(xiàn)后臺(tái)任務(wù),以快速構(gòu)建高效的API應(yīng)用。通過(guò)實(shí)例演示,讀者將學(xué)會(huì)如何利用Flask框架搭建后臺(tái)任務(wù),實(shí)現(xiàn)異步處理和多線程操作等高級(jí)功能,提升應(yīng)用性能和用戶體驗(yàn)2023-04-04