記錄一下scrapy中settings的一些配置小結(jié)
更新時間:2020年09月28日 11:16:22 作者:Davide~蘇
這篇文章主要介紹了記錄一下scrapy中settings的一些配置小結(jié),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
本文主要介紹了scrapy settings配置,分享給大家,具體如下:
# 字符編碼 FEED_EXPORT_ENCODING = 'utf-8'
# redis寫法一 # REDIS_URL = 'redis://localhost:6379' # redis寫法二 REDIS_HOST = '192.168.10.223' REDIS_PORT = 6379 # 默認(rèn)的 scrapy redis 會讀取下面的密碼和db REDIS_PARAMS = { 'password': '123456', 'db': redis_db }
# 對于失敗的HTTP請求(如超時)進(jìn)行重試會降低爬取效率,當(dāng)爬取目標(biāo)基數(shù)很大時,舍棄部分?jǐn)?shù)據(jù)不影響大局,提高效率 # RETRY_ENABLED = False # 請求下載超時時間,默認(rèn)180秒 DOWNLOAD_TIMEOUT = 10
# 1:設(shè)置去重組件,使用的是scrapy_redis的去重組件,而不是scrapy自己的去重組件了 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 2:設(shè)置調(diào)度器,使用scrapy——redis重寫的調(diào)度器, # 而不再使用scrapy內(nèi)部的調(diào)度器了 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 3:可以實(shí)現(xiàn)斷點(diǎn)爬取=jondir,(請求的記錄不會丟失,會存儲在redis數(shù)據(jù)庫中, # 不會清除redis的隊列,下次直接從redis的隊列中爬?。? SCHEDULER_PERSIST = True # 4:設(shè)置任務(wù)隊列的模式(三選一): # SpiderPriorityQueue數(shù)據(jù)scrapy-redis默認(rèn)使用的隊列模式( # 有自己的優(yōu)先級)默認(rèn)第一種 SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue" # 使用了隊列的形式,任務(wù)先進(jìn)先出。 # SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue" # 采用了棧的形式:任務(wù)先進(jìn)后出 # SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack" ''' 用來控制當(dāng)接收到的 response 頭信息中的 Content-Length 和內(nèi)容不匹配或者response chunk 未正確結(jié)束時的時所采取的操作。 當(dāng) DOWNLOAD_FAIL_ON_DATALOSS 為 True 的時候拋出 ResponseFailed([_DataLoss]) 錯誤 當(dāng)設(shè)置為 False 時, 校驗未通過的 response 將被忽略并且添加一個名為 dataloss 的 flag 到 response.flag ''' DOWNLOAD_FAIL_ON_DATALOSS = False MONGO_URI = 'mongodb://用戶名:密碼@ip:port'
到此這篇關(guān)于記錄一下scrapy中settings的一些配置小結(jié)的文章就介紹到這了,更多相關(guān)scrapy settings配置內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:
相關(guān)文章
Python編程實(shí)現(xiàn)及時獲取新郵件的方法示例
這篇文章主要介紹了Python編程實(shí)現(xiàn)及時獲取新郵件的方法,涉及Python實(shí)時查詢郵箱及郵件獲取相關(guān)操作技巧,需要的朋友可以參考下2017-08-08Conda中環(huán)境遷移到另一個服務(wù)器的實(shí)現(xiàn)
本文主要介紹了Conda中的環(huán)境遷移到另一個服務(wù)器,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03python爬蟲今日熱榜數(shù)據(jù)到txt文件的源碼
這篇文章主要介紹了python爬蟲今日熱榜數(shù)據(jù)到txt文件的源碼,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-02-02