Python使用scrapy采集數(shù)據(jù)過程中放回下載過大頁面的方法
本文實例講述了Python使用scrapy采集數(shù)據(jù)過程中放回下載過大頁面的方法。分享給大家供大家參考。具體分析如下:
添加以下代碼到settings.py,myproject為你的項目名稱
自定義限制下載過大頁面的模塊
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter
class LimitSizePageGetter(ScrapyHTTPPageGetter):
def handleHeader(self, key, value):
ScrapyHTTPPageGetter.handleHeader(self, key, value)
if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE:
self.connectionLost('oversized')
class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory):
protocol = LimitSizePageGetter
希望本文所述對大家的Python程序設(shè)計有所幫助。
相關(guān)文章
Python替換NumPy數(shù)組中大于某個值的所有元素實例
這篇文章主要介紹了Python替換NumPy數(shù)組中大于某個值的所有元素實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06Python3實現(xiàn)網(wǎng)頁內(nèi)容轉(zhuǎn)換成PDF文檔和圖片
pdfkit是把 HTML+CSS 格式的文件轉(zhuǎn)換成 PDF 的一種工具,它是 wkhtmltopdf 這個工具包的 python 封裝。本文將利用pdfkit實現(xiàn)網(wǎng)頁內(nèi)容轉(zhuǎn)換成PDF文檔和圖片效果,感興趣的可以學(xué)習(xí)一下2022-06-06linux環(huán)境下的python安裝過程圖解(含setuptools)
這篇文章主要介紹了linux環(huán)境下的python安裝過程圖解(含setuptools),小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-11-11在VS2017中用C#調(diào)用python腳本的實現(xiàn)
這篇文章主要介紹了在VS2017中用C#調(diào)用python腳本的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07如何使用Selenium實現(xiàn)簡單的網(wǎng)絡(luò)自動化操作指南
Selenium是一個用于Web應(yīng)用測試的工具,Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣,這篇文章主要給大家介紹了關(guān)于如何使用Selenium實現(xiàn)簡單的網(wǎng)絡(luò)自動化操作的相關(guān)資料,需要的朋友可以參考下2024-03-03python excel使用xlutils類庫實現(xiàn)追加寫功能的方法
今天小編就為大家?guī)硪黄猵ython excel使用xlutils類庫實現(xiàn)追加寫功能的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05