Scrapy框架中的Pipeline使用詳解
前言
Scrapy 中的 Pipeline 為我們提供了處理數(shù)據(jù)的功能,在實際開發(fā)中我們經(jīng)常使用它來清洗/驗證數(shù)據(jù)、去重和數(shù)據(jù)保存。在一個項目中會存在多種 Pipeline ,每個 Pipeline 都是一個 class ,其中包含了一些處理的 Item 的方法。 Item 會在這些 Pipeline 中按順序依次傳遞,如果其中一個 Pipeline 丟棄了 Item ,那么后面未執(zhí)行到的 Pipeline 將不會收到這個 Item 。
自定義 Pipeline
自定義 Pipeline 其實很簡單,只需要實現(xiàn)指定的方法即可。
process_item (self,item,spider)
解釋:
該方法必須實現(xiàn),處理數(shù)據(jù)的工作都在這個方法中進行,方法返回 dict 、Item 、 Twisted Deferred 或者是 DropItem 異常。
參數(shù):
- item : 被爬取的 Item ;
- spider : 爬取 Item 時所使用的 Spider 。
Tip : 如果在 process_item 方法中丟棄了 Item ,那么這個 Item 將不會向后續(xù) Pipeline 傳遞這個 Item 。
open_spider(self,spider)
解釋:
爬蟲開始運行時,將會在這個方法中執(zhí)行一些初始化工作,例如打開數(shù)據(jù)庫、打開文件等。
參數(shù):
- spider : 當前正在使用的
Spider close_spider(self,spider)
解釋:
爬蟲關(guān)閉時,將會在這個方法中執(zhí)行一些后續(xù)工作,例如關(guān)閉數(shù)據(jù)庫、關(guān)閉文件等。
參數(shù):
- spider : 當前正在使用的 Spider
from_crawl(self,crawler)
解釋:
方法為類方法,通過初始化 crawler 對象返回 Pipeline 實例。我們可以通過 crawler 返回所有 Scrapy 核心組件。
特殊的 Pipeline
在一些項目中我們不僅要爬取網(wǎng)頁的數(shù)據(jù),還需要爬取文件或圖片,并保存在本地。這時我們就需要用到 Scrapy 中特殊的 Pipeline :FilesPipeline 和 ImagesPipeline ,它們具有一些相同的方法和結(jié)構(gòu)與,我們稱這種 Pipeline 為 MediaPipeline 。FilesPipeline 和 ImagesPipeline 都包含如下特性:
- 避免重復下載數(shù)據(jù)
- 指定存儲位置
ImagesPipeline 又包含如下特性:
- 圖片轉(zhuǎn)換為 JPG 格式或者 RGB 格式
- 生成縮略圖
- 限制圖片下載的最大/最小寬高
Tip:Scrapy Pipeline 避免重復下載的方法是將要下載的文件的 URL 放入一個隊列中,并且和 Response 關(guān)聯(lián),從而避免了重復下載。
FilesPipeline
FilesPipeline 下載文件的工作流程非常簡單,一共有四個步驟:
- 爬蟲把獲取到的 Item 和希望下載的文件的 URL 保存到 file_urls 中;
- 爬蟲返回的 Item 進入到 Pipeline 內(nèi)部;
- Item 按照順序傳遞到 FilesPipeline 時,file_urls 中的 URL 會被內(nèi)置的調(diào)度器和下載器下載。在這個時候 Item 是被鎖定的,直到需要下載的文件下載完成或者報錯,Item 才解除鎖定;
- 下載完成后,結(jié)果將被保存在 files 中,files 是一個列表,每條數(shù)據(jù)是 dict 類型。
ImagesPipeline
ImagesPipeline 是繼承自 FilesPipeline ,也就是說它的大部分步驟和 FilesPipeline 一樣。 唯一不同的是 ImagesPipeline 將需要下載的圖片 URL 保存到了 image_urls 中,下載完成的結(jié)果保存到 images 中。
Tip:Pipeline 中不僅僅包含了這兩個特殊的 Pipeline ,因為 FilesPipeline 和 ImagesPipeline 是比較常用的,因此我在這里進行了講解。更多的內(nèi)置 Pipeline 大家可以去 Scrapy 官網(wǎng)查看具體的文檔。
我們在編寫完 Pipeline 后需要在 settings.py 文件中進行注冊,將我們編寫的 Pipeline 注入到 Scrapy 中。
ITEM_PIPELINS= { '自定義Pipeline 路徑':'優(yōu)先級' }
總結(jié)
本篇文章主要講解了 Pipeline 的理論知識,雖然很短,但是這些知識是 Pipeline 的核心知識。下一節(jié)我將通過代碼的形式來展現(xiàn) Pipeline 的使用。
到此這篇關(guān)于Scrapy框架中的Pipeline使用詳解的文章就介紹到這了,更多相關(guān)Pipeline使用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python使用Dijkstra算法實現(xiàn)求解圖中最短路徑距離問題詳解
這篇文章主要介紹了Python使用Dijkstra算法實現(xiàn)求解圖中最短路徑距離問題,簡單描述了Dijkstra算法的原理并結(jié)合具體實例形式分析了Python使用Dijkstra算法實現(xiàn)求解圖中最短路徑距離的相關(guān)步驟與操作技巧,需要的朋友可以參考下2018-05-05python中浮點數(shù)比較判斷!為什么不能用==(推薦)
這篇文章主要介紹了python中浮點數(shù)比較判斷!為什么不能用==,本文給大家分享問題解決方法,需要的朋友可以參考下2023-09-09詳解numpy矩陣的創(chuàng)建與數(shù)據(jù)類型
這篇文章主要介紹了詳解numpy矩陣的創(chuàng)建與數(shù)據(jù)類型,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-10-10淺談PyTorch的可重復性問題(如何使實驗結(jié)果可復現(xiàn))
今天小編就為大家分享一篇淺談PyTorch的可重復性問題(如何使實驗結(jié)果可復現(xiàn)),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02Python 統(tǒng)計Jira的bug 并發(fā)送郵件功能
這篇文章主要介紹了Python 統(tǒng)計Jira的bug 并發(fā)送郵件,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-01-01