亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

scrapy框架ItemPipeline的使用

 更新時間:2022年08月15日 11:37:59   作者:卑微小鐘  
本文主要介紹了scrapy框架ItemPipeline的使用,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

Item Pipeline簡介

Item管道的主要責任是負責處理有蜘蛛從網(wǎng)頁中抽取的Item,他的主要任務是清晰、驗證和存儲數(shù)據(jù)。
當頁面被蜘蛛解析后,將被發(fā)送到Item管道,并經(jīng)過幾個特定的次序處理數(shù)據(jù)。
每個Item管道的組件都是有一個簡單的方法組成的Python類。
他們獲取了Item并執(zhí)行他們的方法,同時他們還需要確定的是是否需要在Item管道中繼續(xù)執(zhí)行下一步或是直接丟棄掉不處理。

調(diào)用時間: 當Item在Spider中被收集之后,它將會被傳遞到Item Pipeline,一些組件會按照一定的順序執(zhí)行對Item的處理。

功能:

  • 清理HTML數(shù)據(jù)
  • 驗證爬取的數(shù)據(jù)(檢查item包含某些字段)
  • 查重(并丟棄)
  • 將爬取結果保存到數(shù)據(jù)庫中

一、一個自己的Pipeline類

必須實現(xiàn)以下方法:

process_item(self, item**,** spider**)**

每個item pipeline組件都需要調(diào)用該方法,這個方法必須返回一個具有數(shù)據(jù)的dict,或是 Item(或任何繼承類)對象, 或是拋出 DropItem 異常,被丟棄的item將不會被之后的pipeline組件所處理。

參數(shù):

  • item (Item 對象或者一個dict) – 被爬取的item
  • spider (Spider 對象) – 爬取該item的spider

open_spider(self, spider)

當spider被開啟時,這個方法被調(diào)用。參數(shù):spider (Spider對象) – 被開啟的spider

from_crawler(cls,crawler)

如果存在,則調(diào)用該類方法以從中創(chuàng)建管道實例Crawler。它必須返回管道的新實例。搜尋器對象提供對所有Scrapy核心組件(如設置和信號)的訪問;這是管道訪問它們并將其功能掛鉤到Scrapy中的一種方法。

close_spider(self, spider)

當spider被關閉時,這個方法被調(diào)用參數(shù):spider (Spider對象) – 被關閉的spider

二、啟用一個Item Pipeline組件

為了啟用一個Item Pipeline組件,你必須將它的類添加到 ITEM_PIPELINES 配置,就像下面這個例子:

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

分配給每個類的整型值,確定了他們運行的順序,item按數(shù)字從低到高的順序,通過pipeline,通常將這些數(shù)字定義在0-1000范圍內(nèi)。

將item寫入JSON文件

以下pipeline將所有爬取到的item,存儲到一個獨立地items.json 文件,每行包含一個序列化為'JSON'格式的'item':

import json
class JsonWriterPipeline(object):
    def __init__(self):
        self.file = open('items.json', 'wb')
    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

在這里優(yōu)化:

以下pipeline將所有爬取到的item,存儲到一個獨立地items.json 文件,每行包含一個序列化為'JSON'格式的'item':

import json
import codecs
class JsonWriterPipeline(object):
    def __init__(self):
        self.file = codecs.open('items.json', 'w', encoding='utf-8')
    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item
    def spider_closed(self, spider):
        self.file.close()

針對spider里面的utf-8編碼格式去掉.encode('utf-8')

item = RecruitItem()
item['name']=name.encode('utf-8')
item['detailLink']=detailLink.encode('utf-8')
item['catalog']=catalog.encode('utf-8')
item['recruitNumber']=recruitNumber.encode('utf-8')
item['workLocation']=workLocation.encode('utf-8')
item['publishTime']=publishTime.encode('utf-8')

將item寫入MongoDB

from_crawler(cls, crawler)

如果使用,這類方法被調(diào)用創(chuàng)建爬蟲管道實例。必須返回管道的一個新實例。crawler提供存取所有Scrapy核心組件配置和信號管理器;對于pipelines這是一種訪問配置和信號管理器 的方式。

在這個例子中,我們將使用pymongo將Item寫到MongoDB。MongoDB的地址和數(shù)據(jù)庫名稱在Scrapy setttings.py配置文件中;

這個例子主要是說明如何使用from_crawler()方法

import pymongo
class MongoPipeline(object):
    collection_name = 'scrapy_items'
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    def close_spider(self, spider):
        self.client.close()
    def process_item(self, item, spider):
        self.db[self.collection_name].insert(dict(item))
        return item

到此這篇關于scrapy框架ItemPipeline的使用的文章就介紹到這了,更多相關scrapy ItemPipeline內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • python腳本生成caffe train_list.txt的方法

    python腳本生成caffe train_list.txt的方法

    下面小編就為大家分享一篇python腳本生成caffe train_list.txt的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • Tensorflow2.1實現(xiàn)Fashion圖像分類示例詳解

    Tensorflow2.1實現(xiàn)Fashion圖像分類示例詳解

    這篇文章主要為大家介紹了Tensorflow2.1實現(xiàn)Fashion圖像分類示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-11-11
  • python實現(xiàn)的爬取電影下載鏈接功能示例

    python實現(xiàn)的爬取電影下載鏈接功能示例

    這篇文章主要介紹了python實現(xiàn)的爬取電影下載鏈接功能,涉及Python基于BeautifulSoup模塊的網(wǎng)頁信息爬取相關操作技巧,需要的朋友可以參考下
    2019-08-08
  • PyTorch中clone()、detach()及相關擴展詳解

    PyTorch中clone()、detach()及相關擴展詳解

    這篇文章主要給大家介紹了關于PyTorch中clone()、detach()及相關擴展的相關資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-12-12
  • Python程序自動以管理員權限運行的實現(xiàn)方法

    Python程序自動以管理員權限運行的實現(xiàn)方法

    Windows上為了安全起見,python語言啟動的應用程序默認都不會使用admin管理員權限,但是在有些情況下我們又需要使用管理員權限啟動應用,這篇文章主要給大家介紹了關于Python程序自動以管理員權限運行的實現(xiàn)方法,需要的朋友可以參考下
    2023-11-11
  • 基于Python列表解析(列表推導式)

    基于Python列表解析(列表推導式)

    今天小編就為大家分享一篇基于Python列表解析(列表推導式),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-06-06
  • OpenCV-Python實現(xiàn)圖像梯度與Sobel濾波器

    OpenCV-Python實現(xiàn)圖像梯度與Sobel濾波器

    在實際應用中我們只需要將圖像矩陣與Sobel濾波器卷積就可以得到圖像的梯度矩陣了。具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • Python操作MySQL數(shù)據(jù)庫的三種方法總結

    Python操作MySQL數(shù)據(jù)庫的三種方法總結

    下面小編就為大家分享一篇Python操作MySQL數(shù)據(jù)庫的三種方法總結,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-01-01
  • Python 畫出來六維圖

    Python 畫出來六維圖

    這篇文章主要介紹了Python 畫出來六維圖,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-07-07
  • numpy.bincount用于復數(shù)權重的方法

    numpy.bincount用于復數(shù)權重的方法

    numpy.bincount是NumPy庫中的一個函數(shù),它用于計算整數(shù)數(shù)組中每個值的出現(xiàn)次數(shù),numpy.bincount函數(shù)在統(tǒng)計整數(shù)數(shù)組中每個值的出現(xiàn)次數(shù)或權重和時非常有用,本文給大家介紹numpy.bincount如何用于復數(shù)權重,感興趣的朋友跟隨小編一起看看吧
    2023-11-11

最新評論