python爬蟲(chóng)控制aiohttp并發(fā)數(shù)量方式
前言
在使用aiohttp并發(fā)訪(fǎng)問(wèn)多個(gè)頁(yè)面時(shí)效率,明顯比串行requests快很多,
但是也存在一個(gè)問(wèn)題,就是網(wǎng)站檢測(cè)到短時(shí)間內(nèi)請(qǐng)求的數(shù)量過(guò)多會(huì)導(dǎo)致頁(yè)面請(qǐng)求不成成功,
頁(yè)面返回429 (too many requests)。
解決上述問(wèn)題
目前想到兩個(gè)方法
1、控制請(qǐng)求的時(shí)間,用sleep延時(shí),來(lái)消耗每一次訪(fǎng)問(wèn)的時(shí)間,減少單位時(shí)間內(nèi)的訪(fǎng)問(wèn)量,這樣肯定是可以,但效率太低
2、控制并發(fā)數(shù)量,控制并發(fā)數(shù)量,普遍推薦用信號(hào)量來(lái)控制使用方法也比較簡(jiǎn)單如下:
from asyncio import tasks from aiohttp.client import ClientSession from lxml import etree from time import sleep import time import asyncio import aiohttp async def read_page_list(page_num,sem): params = { 'page':page_num, } #通過(guò)連接池控制并發(fā)數(shù)量 limit 默認(rèn)為100 0 為無(wú)限制 async with sem: try: async with aiohttp.ClientSession() as session: async with session.get(url=url,params=params,headers=headers) as response: text = await response.text() except Exception as e: print('exception:',e) tree = etree.HTML(text) page_list = tree.xpath('//*[@id="thumbs"]/section[1]/ul/li') # break for li in page_list: pic_small_url = li.xpath('.//img/@data-src')[0] # print(pic_small_url,type(pic_small_url)) # pic_small_url = str(pic_small_url) if 'small' in pic_small_url: temp_url = pic_small_url.replace('small','full') a = temp_url.rfind('/') temp_url1= temp_url[:a] pic_full_url = temp_url1+'/wallhaven-'+temp_url.split('/')[-1] pic_full_url = pic_full_url.replace('th','w') # print(page_num,pic_full_url) pic_list.append(pic_full_url) else: print(page_num,'find small error',pic_small_url) print(page_num,len(page_list),response.status) # await asyncio.sleep(1) #這里可以用硬延時(shí)來(lái)控制程序的訪(fǎng)問(wèn)速度,進(jìn)而控制單位時(shí)間內(nèi)并發(fā)的數(shù)量 # sleep(0.5) #定義信號(hào)量 sem = asyncio.Semaphore(2) start = time.time() #建立任務(wù)列表 tasks = [loop.create_task(read_page_list(i,sem)) for i in range(1,20)] loop.run_until_complete(asyncio.wait(tasks)) print('get page list use time:',time.time()-start)
實(shí)驗(yàn)結(jié)果
如下:
- 經(jīng)試驗(yàn)只有當(dāng)請(qǐng)求頁(yè)面20個(gè) sem=1時(shí)才不會(huì)出現(xiàn)服務(wù)器返回429.
- 當(dāng)把請(qǐng)求頁(yè)面數(shù)量改為10 sem=5是就不會(huì)出現(xiàn)服務(wù)返回429的情況
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python劃分?jǐn)?shù)組為連續(xù)數(shù)字集合的練習(xí)
這篇文章主要給大家分享的是Python劃分?jǐn)?shù)組為連續(xù)數(shù)字集合的練習(xí),下面文章首先對(duì)問(wèn)題進(jìn)行詳細(xì)描述,在根據(jù)問(wèn)題提出解決方案,內(nèi)容詳細(xì),需要的朋友可以參考一下,希望對(duì)你有所幫助2021-11-11Python進(jìn)度條神器tqdm使用實(shí)例詳解
Python進(jìn)度條神器tqdm是一個(gè)快速、可擴(kuò)展的進(jìn)度條工具,可以輕松地為Python腳本添加進(jìn)度條。它可以在循環(huán)中自動(dòng)計(jì)算進(jìn)度,并在終端中顯示進(jìn)度條,讓用戶(hù)了解程序的運(yùn)行情況。tqdm還支持多線(xiàn)程和多進(jìn)程,并且可以自定義進(jìn)度條的樣式和顯示方式。2023-06-06Python自定義聚合函數(shù)merge與transform區(qū)別詳解
這篇文章主要介紹了Python自定義聚合函數(shù)merge與transform區(qū)別詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05Pytorch中torch.flatten()和torch.nn.Flatten()實(shí)例詳解
這篇文章主要給大家介紹了關(guān)于Pytorch中torch.flatten()和torch.nn.Flatten()的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2022-02-02PyTorch深度學(xué)習(xí)LSTM從input輸入到Linear輸出
這篇文章主要為大家介紹了PyTorch深度學(xué)習(xí)LSTM從input輸入到Linear輸出深入理解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05Python?中如何將十六進(jìn)制轉(zhuǎn)換為?Base64
本篇文章將介紹在?Python?中將?hex?轉(zhuǎn)換為?base64?的方法,本文結(jié)合實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2023-06-06python?OpenCV實(shí)現(xiàn)圖像特征匹配示例詳解
這篇文章主要為大家介紹了python?OpenCV實(shí)現(xiàn)圖像特征匹配示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04