快捷導(dǎo)航

記錄一下scrapy中settings的一些配置小結(jié)

更新時間：2020年09月28日 11:16:22 作者：Davide~蘇

這篇文章主要介紹了記錄一下scrapy中settings的一些配置小結(jié)，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

本文主要介紹了scrapy settings配置，分享給大家，具體如下：

# 字符編碼
FEED_EXPORT_ENCODING = 'utf-8'

# redis寫法一
# REDIS_URL = 'redis://localhost:6379' 

# redis寫法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默認(rèn)的 scrapy redis 會讀取下面的密碼和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}

# 對于失敗的HTTP請求(如超時)進(jìn)行重試會降低爬取效率，當(dāng)爬取目標(biāo)基數(shù)很大時，舍棄部分?jǐn)?shù)據(jù)不影響大局，提高效率
# RETRY_ENABLED = False
# 請求下載超時時間，默認(rèn)180秒
DOWNLOAD_TIMEOUT = 10

# 1：設(shè)置去重組件，使用的是scrapy_redis的去重組件，而不是scrapy自己的去重組件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2：設(shè)置調(diào)度器，使用scrapy——redis重寫的調(diào)度器，
# 而不再使用scrapy內(nèi)部的調(diào)度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3：可以實(shí)現(xiàn)斷點(diǎn)爬取=jondir，（請求的記錄不會丟失，會存儲在redis數(shù)據(jù)庫中，
# 不會清除redis的隊(duì)列，下次直接從redis的隊(duì)列中爬?。?
SCHEDULER_PERSIST = True
# 4：設(shè)置任務(wù)隊(duì)列的模式（三選一）：
# SpiderPriorityQueue數(shù)據(jù)scrapy-redis默認(rèn)使用的隊(duì)列模式（
# 有自己的優(yōu)先級）默認(rèn)第一種
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了隊(duì)列的形式，任務(wù)先進(jìn)先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了棧的形式：任務(wù)先進(jìn)后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用來控制當(dāng)接收到的 response 頭信息中的 Content-Length 和內(nèi)容不匹配或者response chunk 未正確結(jié)束時的時所采取的操作。
當(dāng) DOWNLOAD_FAIL_ON_DATALOSS 為 True 的時候拋出 ResponseFailed([_DataLoss]) 錯誤
當(dāng)設(shè)置為 False 時， 校驗(yàn)未通過的 response 將被忽略并且添加一個名為 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用戶名:密碼@ip:port'

到此這篇關(guān)于記錄一下scrapy中settings的一些配置小結(jié)的文章就介紹到這了,更多相關(guān)scrapy settings配置內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: