python中的協(xié)程深入理解
先介紹下什么是協(xié)程:
協(xié)程,又稱微線程,纖程,英文名Coroutine。協(xié)程的作用,是在執(zhí)行函數(shù)A時,可以隨時中斷,去執(zhí)行函數(shù)B,然后中斷繼續(xù)執(zhí)行函數(shù)A(可以自由切換)。但這一過程并不是函數(shù)調(diào)用(沒有調(diào)用語句),這一整個過程看似像多線程,然而協(xié)程只有一個線程執(zhí)行。
是不是有點(diǎn)沒看懂,沒事,我們下面會解釋。要理解協(xié)程是什么,首先需要理解yield,這里簡單介紹下,yield可以理解為生成器,yield item這行代碼會產(chǎn)出一個值,提供給next(...)的調(diào)用方; 此外,還會作出讓步,暫停執(zhí)行生成器,讓調(diào)用方繼續(xù)工作,直到需要使用另一個值時再調(diào)用next()。調(diào)用方會從生成器中拉取值,但是在協(xié)程中,yield關(guān)鍵字一般是在表達(dá)式右邊(如,data=yield),協(xié)程可以從調(diào)用方接收數(shù)據(jù),也可以產(chǎn)出數(shù)據(jù),下面看一個簡單的例子:
>>> def simple_coroutine(): ... print('coroutine start') ... x = yield ... print('coroutine recive:',x) ... >>> my_co=simple_coroutine() >>> my_co <generator object simple_coroutine at 0x1085174f8> >>> next(my_co) coroutine start >>> my_co.send(42) coroutine recive: 42 Traceback (most recent call last): File "<input>", line 1, in <module> StopIteration
其中x = yield就是精髓部分,意思是從客戶端獲取數(shù)據(jù),產(chǎn)出None,因為yield關(guān)鍵字右邊沒有表達(dá)式, 而協(xié)程在創(chuàng)建完成之后,是沒有啟動的,沒有在yield處暫停,所以需要調(diào)用next()函數(shù),啟動協(xié)程,在調(diào)用my_co.send(42)之后,協(xié)程定義體中的yield表達(dá)式會計算出42,現(xiàn)在協(xié)程恢復(fù),一直運(yùn)行到下一個yield表達(dá)式,或者終止,在最后,控制權(quán)流動到協(xié)程定義體的末尾,生成器拋出StopIteration異常。
協(xié)程有四個狀態(tài),如下:
- 'GEN_CREATED' 等待開始執(zhí)行。
- 'GEN_RUNNING' 解釋器正在執(zhí)行。
- 'GEN_SUSPENDED' 在 yield 表達(dá)式處暫停。
- 'GEN_CLOSED' 執(zhí)行結(jié)束。
當(dāng)前狀態(tài)可以使用inspect.getgeneratorstate來確定,如下:
>>> import inspect >>> inspect.getgeneratorstate(my_co) 'GEN_CLOSED'
這里再解釋下next(my_co),如果在創(chuàng)建好協(xié)程對象之后,立即把None之外的值發(fā)送給它,會出現(xiàn)如下錯誤:
>>> my_co=simple_coroutine() >>> my_co.send(42) Traceback (most recent call last): File "<input>", line 1, in <module> TypeError: can't send non-None value to a just-started generator >>> my_co=simple_coroutine() >>> my_co.send(None) coroutine start
最先調(diào)用 next(my_co) 函數(shù)這一步通常稱為“預(yù)激”(prime)協(xié)程(即,讓協(xié)程向前執(zhí)行到第一個 yield 表達(dá)式,準(zhǔn)備好作為活躍的協(xié)程使用)。
再參考下面這個例子:
>>> def simple_coro2(a): ... print('-> Started: a =', a) ... b = yield a ... print('-> Received: b =', b) ... c = yield a + b ... print('-> Received: c =', c) ... >>> my_coro2 = simple_coro2(14) >>> from inspect import getgeneratorstate >>> getgeneratorstate(my_coro2) 'GEN_CREATED' >>> next(my_coro2) # 協(xié)程執(zhí)行到`b = yield a`處暫停,等待為b賦值, -> Started: a = 14 14 >>> getgeneratorstate(my_coro2) 'GEN_SUSPENDED' #從狀態(tài)也可以看到,當(dāng)前是暫停狀態(tài)。 >>> my_coro2.send(28) #將28發(fā)送到協(xié)程,計算yield表達(dá)式,并把結(jié)果綁定到b,產(chǎn)出a+b的值,然后暫停。 -> Received: b = 28 42 >>> my_coro2.send(99) -> Received: c = 99 Traceback (most recent call last): File "<input>", line 1, in <module> StopIteration >>> getgeneratorstate(my_coro2) 'GEN_CLOSED'
simple_coro2的執(zhí)行過程如下圖所示:
- 調(diào)用next(my_coro2),打印第一個消息,然后執(zhí)行yield a,產(chǎn)出數(shù)字 14。
- 調(diào)用my_coro2.send(28),把28賦值給b,打印第二個消息,然后執(zhí)行yield a + b,產(chǎn) 出數(shù)字 42。
- 調(diào)用my_coro2.send(99),把 99 賦值給 c,打印第三個消息,協(xié)程終止。
說了這么多,我們?yōu)槭裁匆脜f(xié)程呢,下面我們再看看它的優(yōu)勢是什么:
- 執(zhí)行效率極高,因為子程序切換(函數(shù))不是線程切換,由程序自身控制,沒有切換線程的開銷。所以與多線程相比,線程的數(shù)量越多,協(xié)程性能的優(yōu)勢越明顯。
- 不需要多線程的鎖機(jī)制,因為只有一個線程,也不存在同時寫變量沖突,在控制共享資源時也不需要加鎖,因此執(zhí)行效率高很多。
說明:協(xié)程可以處理IO密集型程序的效率問題,但是處理CPU密集型不是它的長處,如要充分發(fā)揮CPU利用率可以結(jié)合多進(jìn)程+協(xié)程。
下面看最后一個例子,傳統(tǒng)的生產(chǎn)者-消費(fèi)者模型是一個線程寫消息,一個線程取消息,通過鎖機(jī)制控制隊列和等待,但一不小心就可能死鎖。
如果改用協(xié)程,生產(chǎn)者生產(chǎn)消息后,直接通過yield跳轉(zhuǎn)到消費(fèi)者開始執(zhí)行,待消費(fèi)者執(zhí)行完畢后,切換回生產(chǎn)者繼續(xù)生產(chǎn),效率極高:
from bs4 import BeautifulSoup import requests from urllib.parse import urlparse start_url = 'https://www.cnblogs.com' trust_host = 'www.cnblogs.com' ignore_path = [] history_urls = [] def parse_html(html): soup = BeautifulSoup(html, "lxml") print(soup.title) links = soup.find_all('a', href=True) return (a['href'] for a in links if a['href']) def parse_url(url): url = url.strip() if url.find('#') >= 0: url = url.split('#')[0] if not url: return None if url.find('javascript:') >= 0: return None for f in ignore_path: if f in url: return None if url.find('http') < 0: url = start_url + url return url parse = urlparse(url) if parse.hostname == trust_host: return url def consumer(): html = '' while True: url = yield html if url: print('[CONSUMER] Consuming %s...' % url) rsp = requests.get(url) html = rsp.content def produce(c): next(c) def do_work(urls): for u in urls: if u not in history_urls: history_urls.append(u) print('[PRODUCER] Producing %s...' % u) html = c.send(u) results = parse_html(html) work_urls = (x for x in map(parse_url, results) if x) do_work(work_urls) do_work([start_url]) c.close() if __name__ == '__main__': c = consumer() produce(c) print(len(history_urls))
首先consumer函數(shù)是一個generator,在開始執(zhí)行之后:
- 調(diào)用next(c)啟動生成器;
- 進(jìn)入do_work,這是一個遞歸調(diào)用,其內(nèi)部將url傳遞給consumer,由consumer來發(fā)出請求,獲取到html信息,返回給produce,
- produce解析html,獲取url數(shù)據(jù),繼續(xù)生產(chǎn)url,
- 當(dāng)所有的url都在history_urls中,也就是說我們已經(jīng)爬取了所有的url地址,結(jié)束遞歸調(diào)用
- 調(diào)用c.close(),關(guān)閉consumer,整個過程結(jié)束。
可以看到,我們的整個流程無鎖,由一個線程執(zhí)行,produce和consumer協(xié)作完成任務(wù),所以稱為“協(xié)程”,而非線程的搶占式多任務(wù)。
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,謝謝大家對腳本之家的支持。
相關(guān)文章
Python模擬鋼琴鍵盤實現(xiàn)演奏數(shù)鴨子歌曲
前幾天上課老師給我們講了兩個模塊,然后利用這兩個模塊來模擬鋼琴鍵盤去簡單地演奏《數(shù)鴨子》今天來分享給大家,感興趣的可以了解一下2022-11-11pycharm實現(xiàn)增加運(yùn)行時內(nèi)存
這篇文章主要介紹了pycharm實現(xiàn)增加運(yùn)行時內(nèi)存方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-02-02Python和Anaconda和Pycharm安裝教程圖文詳解
PyCharm是一種PythonIDE,帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具,這篇文章主要介紹了Python和Anaconda和Pycharm安裝教程,需要的朋友可以參考下2020-02-02