用sleep間隔進行python反爬蟲的實例講解
在找尋材料的時候,會看到一些暫時用不到但是內容不錯的網頁,就這樣關閉未免浪費掉了,下次也不一定能再次搜索到。有些小伙伴會提出可以保存網頁鏈接,但這種基本的做法并不能在網頁打不開后還能看到內容。我們完全可以用爬蟲獲取這方面的數(shù)據(jù),不過操作過程中會遇到一些阻攔,今天小編就教大家用sleep間隔進行python反爬蟲,這樣就可以得到我們想到的數(shù)據(jù)啦。
步驟
要利用headers拉動請求,模擬成瀏覽器去訪問網站,跳過最簡單的反爬蟲機制。
獲取網頁內容,保存在一個字符串content中。
構造正則表達式,從content中匹配關鍵詞pattern獲取下載鏈接。需要注意的是,網頁中的關鍵詞出現(xiàn)了兩遍(如下圖),所以我們要利用set()函數(shù)清除重復元素。
第三步是遍歷set之后的結果,下載鏈接。
設置time.sleep(t),無sleep間隔的話,網站認定這種行為是攻擊,所以我們隔一段時間下載一個,反反爬蟲。
具體代碼
import urllib.request# url request
import re # regular expression
import os # dirs
import time
'''
url 下載網址
pattern 正則化的匹配關鍵詞
Directory 下載目錄
def BatchDownload(url,pattern,Directory):
# 拉動請求,模擬成瀏覽器去訪問網站->跳過反爬蟲機制
headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
# 獲取網頁內容
content = opener.open(url).read().decode('utf8')
# 構造正則表達式,從content中匹配關鍵詞pattern
raw_hrefs = re.findall(pattern, content, 0)
# set函數(shù)消除重復元素
hset = set(raw_hrefs)
# 下載鏈接
for href in hset:
# 之所以if else 是為了區(qū)別只有一個鏈接的特別情況
if(len(hset)>1):
link = url + href[0]
filename = os.path.join(Directory, href[0])
print("正在下載",filename)
urllib.request.urlretrieve(link, filename)
print("成功下載!")
else:
link = url +href
filename = os.path.join(Directory, href)
# 無sleep間隔,網站認定這種行為是攻擊,反反爬蟲
time.sleep(1)
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
# '(Storm-Data-Export-Format.docx)',
# 'E:\stormevents\csvfiles')
# '(Storm-Data-Export-Format.pdf)',
# '(StormEvents_details-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
# '(StormEvents_fatalities-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
# '(StormEvents_locations-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/',
# '(ugc_areas.csv)',
# 'E:\stormevents\csvfiles\legacy')
結果展示
為了讓大家能夠清楚的知道整個反爬過程,這里小編把思路和代碼都羅列了出來。其中可以time.sleep(t)解除網站對于爬蟲的阻攔問題,著重標記了出來

到此這篇關于用sleep間隔進行python反爬蟲的實例講解的文章就介紹到這了,更多相關如何使用sleep間隔進行python反爬蟲內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python threading模塊中l(wèi)ock與Rlock的使用詳細講解
python的thread模塊是比較底層的模塊,python的threading模塊是對thread做了一些包裝的,可以更加方便的被使用。這篇文章主要介紹了Python threading模塊中l(wèi)ock與Rlock的使用2022-10-10
pycharm快捷鍵自動提示documentation問題(auto?Ctrl+Q)
這篇文章主要介紹了pycharm快捷鍵自動提示documentation問題(auto?Ctrl+Q),具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-04-04
matplotlib實現(xiàn)數(shù)據(jù)實時刷新的示例代碼
這篇文章主要介紹了matplotlib實現(xiàn)數(shù)據(jù)實時刷新的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-01-01

