Scrapy爬蟲(chóng)文件批量運(yùn)行的實(shí)現(xiàn)
Scrapy批量運(yùn)行爬蟲(chóng)文件的兩種方法:
1、使用CrawProcess實(shí)現(xiàn)
https://doc.scrapy.org/en/latest/topics/practices.html
2、修改craw源碼+自定義命令的方式實(shí)現(xiàn)
(1)我們打開(kāi)scrapy.commands.crawl.py 文件可以看到:
def run(self, args, opts): if len(args) < 1: raise UsageError() elif len(args) > 1: raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported") spname = args[0] self.crawler_process.crawl(spname, **opts.spargs) self.crawler_process.start()
這是crawl.py 文件中的run() 方法,在此可以指定運(yùn)行哪個(gè)爬蟲(chóng),要運(yùn)行所有的爬蟲(chóng),則需要更改這個(gè)方法。
run() 方法中通過(guò)crawler_process.crawl(spname, **opts.spargs) 實(shí)現(xiàn)了爬蟲(chóng)文件的運(yùn)行,spname代表爬蟲(chóng)名。要運(yùn)行多個(gè)爬蟲(chóng)文件,首先要獲取所有的爬蟲(chóng)文件,可以通過(guò)crawler_process.spider_loader.list() 實(shí)現(xiàn)。
(2)實(shí)現(xiàn)過(guò)程:
a、在spider目錄的同級(jí)目錄下創(chuàng)建存放源代碼的文件夾mycmd,并在該目錄下創(chuàng)建文件mycrawl.py;
b、將crawl.py 中的代碼復(fù)制到mycrawl.py 文件中,然后進(jìn)行修改:
#修改后的run() 方法 def run(self, args, opts): #獲取爬蟲(chóng)列表 spd_loader_list = self.crawler_process.spider_loader.list() #遍歷各爬蟲(chóng) for spname in spd_loader_list or args: self.crawler_process.crawl(spname, **opts.spargs) print("此時(shí)啟動(dòng)的爬蟲(chóng):"+spname) self.crawler_process.start()
同時(shí)可以修改:
def short_desc(self): return "Run all spider"
c、在mycmd文件夾下添加一個(gè)初始化文件__init__.py,在項(xiàng)目配置文件(setting.py)中添加格式為“COMMANDS_MODULES='項(xiàng)目核心目錄.自定義命令源碼目錄'”的配置;
例如:COMMANDS_MODULE = 'firstpjt.mycmd'
隨后通過(guò)命令“scrapy -h”,可以查看到我們添加的命令mycrawl
這樣,我們就可以同時(shí)啟動(dòng)多個(gè)爬蟲(chóng)文件了,使用命令:
scrapy mycrawl --nolog
到此這篇關(guān)于Scrapy爬蟲(chóng)文件批量運(yùn)行的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Scrapy 批量運(yùn)行內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python訪問(wèn)類(lèi)中docstring注釋的實(shí)現(xiàn)方法
這篇文章主要介紹了python訪問(wèn)類(lèi)中docstring注釋的實(shí)現(xiàn)方法,涉及python類(lèi)注釋的訪問(wèn)技巧,非常具有實(shí)用價(jià)值,需要的朋友可以參考下2015-05-05分析并輸出Python代碼依賴(lài)的庫(kù)的實(shí)現(xiàn)代碼
這篇文章主要介紹了分析并輸出Python代碼依賴(lài)的庫(kù)的實(shí)現(xiàn)代碼,需要的朋友可以參考下2015-08-08詳解Ubuntu16.04安裝Python3.7及其pip3并切換為默認(rèn)版本
這篇文章主要介紹了詳解Ubuntu16.04安裝Python3.7及其pip3并切換為默認(rèn)版本,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2019-02-02Python?隊(duì)列Queue和PriorityQueue解析
這篇文章主要介紹了Python?隊(duì)列Queue和PriorityQueue,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-09-09python如何寫(xiě)入dbf文件內(nèi)容及創(chuàng)建dbf文件
這篇文章主要介紹了python如何寫(xiě)入dbf文件內(nèi)容及創(chuàng)建dbf文件,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-08-08基于python計(jì)算滾動(dòng)方差(標(biāo)準(zhǔn)差)talib和pd.rolling函數(shù)差異詳解
這篇文章主要介紹了基于python計(jì)算滾動(dòng)方差(標(biāo)準(zhǔn)差)talib和pd.rolling函數(shù)差異詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-06-06