python爬蟲進(jìn)階之協(xié)程詳解
python爬蟲–協(xié)程
基本知識(shí)
- event_loop:事件循環(huán),相當(dāng)于一個(gè)無(wú)限循環(huán),我們可以把一些函數(shù)注冊(cè)到這個(gè)事件循環(huán)上,當(dāng)滿足某些條件的時(shí)候,函數(shù)就會(huì)被循環(huán)執(zhí)行。
- coroutine:攜程對(duì)象,我們可以將攜程對(duì)象注冊(cè)到事件循環(huán)中,它會(huì)被時(shí)間循環(huán)調(diào)用。我們可以使用async關(guān)鍵字來(lái)定義一個(gè)方法,這個(gè)方法在調(diào)用時(shí)不會(huì)被立即執(zhí)行,而是返回一個(gè)協(xié)程對(duì)象。
- task:任務(wù),它是對(duì)協(xié)程對(duì)象的進(jìn)一步封裝, 包含了任務(wù)的各個(gè)狀態(tài)。
- future:代表將來(lái)執(zhí)行或還沒(méi)有執(zhí)行的任務(wù),實(shí)際上和task 沒(méi)有本質(zhì)區(qū)別。
- async定義-個(gè)協(xié)程.
- await用來(lái)掛起阻塞方法的執(zhí)行。
協(xié)程的基本使用
import asyncio async def request(url): print('正在請(qǐng)求的url是:',url) print('請(qǐng)求成功:',url) #async修飾的函數(shù),調(diào)用之后返回的一個(gè)協(xié)程對(duì)象 c = request('www.baidu.com') # #創(chuàng)建一個(gè)事件循環(huán)對(duì)象 # loop = asyncio.get_event_loop() # # #將攜程對(duì)象注冊(cè)到loop中,然后啟動(dòng)loop # loop.run_until_complete(c) # #task的使用 # loop = asyncio.get_event_loop() # #基于loop創(chuàng)建一個(gè)task對(duì)象 # task = loop.create_task(c) # print(task) # loop.run_until_complete(task) # print(task) #future的使用 loop = asyncio.get_event_loop() task = asyncio.ensure_future(c) print(task) loop.run_until_complete(task) print(task)
多任務(wù)協(xié)程實(shí)現(xiàn)
import asyncio import time async def request(url): print('正在請(qǐng)求的url是:',url) #在異步協(xié)程中如果出現(xiàn)同步模塊相關(guān)的代碼,那么就無(wú)法實(shí)現(xiàn)異步 #time.sleep(2) await asyncio.sleep(2) print('請(qǐng)求成功:',url) #async修飾的函數(shù),調(diào)用之后返回的一個(gè)協(xié)程對(duì)象 start = time.time() urls = { 'www.123.com', 'www.234.com', 'www.345.com' } #存放多個(gè)任務(wù)對(duì)象 stask = [] for url in urls: c = request(url) task = asyncio.ensure_future(c) stask.append(task) loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(stask)) print(time.time()-start)
多任務(wù)協(xié)程異步實(shí)現(xiàn)
在進(jìn)行多任務(wù)協(xié)程實(shí)現(xiàn)前,還需要建立一個(gè)簡(jiǎn)單的本地http服務(wù)
from flask import Flask import time app = Flask(__name__) @app.route('/azb') def index_azb(): time.sleep(2) return 'Hello azb' @app.route('/xx') def index_xx(): time.sleep(2) return 'Hello xx' @app.route('/hh') def index_hh(): time.sleep(2) return 'Hello hh' if __name__ == '__main__': app.run(threaded=True)
實(shí)現(xiàn)
import requests,asyncio,time start = time.time() urls = [ 'http://127.0.0.1:5000/azb','http://127.0.0.1:5000/xx','http://127.0.0.1:5000/hh' ] async def get_page(url): print('正在下載',url) #request是基于同步,必須使用基于異步的網(wǎng)絡(luò)請(qǐng)求模塊 response = requests.get(url=url) print('下載成功!',url) tasks = [] for url in urls: c = get_page(url) task = asyncio.ensure_future(c) tasks.append(task) loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(tasks)) print('總耗時(shí)',time.time()-start)
aiohttp模塊引入
import requests,asyncio,time,aiohttp start = time.time() urls = [ 'http://127.0.0.1:5000/azb','http://127.0.0.1:5000/xx','http://127.0.0.1:5000/hh' ] async def get_page(url): async with aiohttp.ClientSession() as session: async with await session.get(url) as response: #text()返回字符串形式的響應(yīng)數(shù)據(jù) #read()返回的二進(jìn)制形式的響應(yīng)數(shù)據(jù) #json()返回的就是json對(duì)象 #獲取響應(yīng)數(shù)據(jù)操作之前一定要使用await進(jìn)行手動(dòng)掛起 page_text = await response.text() print(page_text) tasks = [] for url in urls: c = get_page(url) task = asyncio.ensure_future(c) tasks.append(task) loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(tasks)) print('總耗時(shí)',time.time()-start)
到此這篇關(guān)于python爬蟲進(jìn)階之協(xié)程詳解的文章就介紹到這了,更多相關(guān)python協(xié)程爬蟲內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python把對(duì)應(yīng)格式的csv文件轉(zhuǎn)換成字典類型存儲(chǔ)腳本的方法
今天小編就為大家分享一篇Python把對(duì)應(yīng)格式的csv文件轉(zhuǎn)換成字典類型存儲(chǔ)腳本的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-02-02python re.sub()替換正則的匹配內(nèi)容方法
今天小編就為大家分享一篇python re.sub()替換正則的匹配內(nèi)容方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-07-07使用pyhon繪圖比較兩個(gè)手機(jī)屏幕大小(實(shí)例代碼)
這篇文章主要介紹了使用pyhon繪圖比較兩個(gè)手機(jī)屏幕大小,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-01-01Python中的os.path路徑模塊中的操作方法總結(jié)
os.path模塊主要集成了針對(duì)路徑文件夾的操作功能,這里我們就來(lái)看一下Python中的os.path路徑模塊中的操作方法總結(jié),需要的朋友可以參考下2016-07-07python使用for...else跳出雙層嵌套循環(huán)的方法實(shí)例
這篇文章主要給大家介紹了關(guān)于python使用for...else跳出雙層嵌套循環(huán)的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-05-05python判斷、獲取一張圖片主色調(diào)的2個(gè)實(shí)例
一幅圖片,想通過(guò)程序判斷獲得其主要色調(diào),應(yīng)該怎么樣處理?本文通過(guò)python實(shí)現(xiàn)判斷、獲取一張圖片的主色調(diào)方法,需要的朋友可以參考下2014-04-04