亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python自定義scrapy中間模塊避免重復(fù)采集的方法

 更新時間:2015年04月07日 16:36:56   作者:pythoner  
這篇文章主要介紹了Python自定義scrapy中間模塊避免重復(fù)采集的方法,實例分析了Python實現(xiàn)采集的技巧,非常具有實用價值,需要的朋友可以參考下

本文實例講述了Python自定義scrapy中間模塊避免重復(fù)采集的方法。分享給大家供大家參考。具體如下:

from scrapy import log
from scrapy.http import Request
from scrapy.item import BaseItem
from scrapy.utils.request import request_fingerprint
from myproject.items import MyItem
class IgnoreVisitedItems(object):
  """Middleware to ignore re-visiting item pages if they
  were already visited before. 
  The requests to be filtered by have a meta['filter_visited']
  flag enabled and optionally define an id to use 
  for identifying them, which defaults the request fingerprint,
  although you'd want to use the item id,
  if you already have it beforehand to make it more robust.
  """
  FILTER_VISITED = 'filter_visited'
  VISITED_ID = 'visited_id'
  CONTEXT_KEY = 'visited_ids'
  def process_spider_output(self, response, result, spider):
    context = getattr(spider, 'context', {})
    visited_ids = context.setdefault(self.CONTEXT_KEY, {})
    ret = []
    for x in result:
      visited = False
      if isinstance(x, Request):
        if self.FILTER_VISITED in x.meta:
          visit_id = self._visited_id(x)
          if visit_id in visited_ids:
            log.msg("Ignoring already visited: %s" % x.url,
                level=log.INFO, spider=spider)
            visited = True
      elif isinstance(x, BaseItem):
        visit_id = self._visited_id(response.request)
        if visit_id:
          visited_ids[visit_id] = True
          x['visit_id'] = visit_id
          x['visit_status'] = 'new'
      if visited:
        ret.append(MyItem(visit_id=visit_id, visit_status='old'))
      else:
        ret.append(x)
    return ret
  def _visited_id(self, request):
    return request.meta.get(self.VISITED_ID) or request_fingerprint(request)

希望本文所述對大家的Python程序設(shè)計有所幫助。

相關(guān)文章

  • Python實現(xiàn)判斷變量是否是函數(shù)方式

    Python實現(xiàn)判斷變量是否是函數(shù)方式

    這篇文章主要介紹了Python實現(xiàn)判斷變量是否是函數(shù)方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • 使用python Telnet遠程登錄執(zhí)行程序的方法

    使用python Telnet遠程登錄執(zhí)行程序的方法

    今天小編就為大家分享一篇使用python Telnet遠程登錄執(zhí)行程序的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Python常見的函數(shù)及格式化輸出

    Python常見的函數(shù)及格式化輸出

    這篇文章主要介紹了Python常見的upper()、lower()、title()等函數(shù),感興趣的朋友可以一起來學習學習文章內(nèi)容
    2021-09-09
  • python中類變量與成員變量的使用注意點總結(jié)

    python中類變量與成員變量的使用注意點總結(jié)

    python 的類中主要會使用的兩種變量:類變量與成員變量。類變量是類所有實例化對象共有的,而成員變量是每個實例化對象自身特有的。下面這篇文章主要給大家介紹了在python中類變量與成員變量的一些使用注意點,需要的朋友可以參考借鑒,下面來一起看看吧。
    2017-04-04
  • Python中tuple類型的使用

    Python中tuple類型的使用

    在Python中,元組(tuple)是一種不可變的序列類型,可以包含多個值,這些值可以是不同類型的,本文主要介紹了Python中tuple類型的使用,感興趣的可以了解一下
    2023-12-12
  • python按行讀取文件并找出其中指定字符串

    python按行讀取文件并找出其中指定字符串

    這篇文章主要介紹了python按行讀取文件并找出其中指定字符串的方法,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-08-08
  • python中的sys模塊和os模塊

    python中的sys模塊和os模塊

    這篇文章主要介紹了python中的sys模塊和os模塊,sys模塊提供對解釋器使用或維護的一些變量的訪問,以及與解釋器強烈交互的函數(shù),os模塊提供了多數(shù)操作系統(tǒng)的功能接口函數(shù),下文更多相關(guān)內(nèi)容需要的小伙伴可以參考一下
    2022-03-03
  • Python實現(xiàn)簡單狀態(tài)框架的方法

    Python實現(xiàn)簡單狀態(tài)框架的方法

    這篇文章主要介紹了Python實現(xiàn)簡單狀態(tài)框架的方法,涉及Python狀態(tài)框架的實現(xiàn)技巧,具有一定參考借鑒價值,需要的朋友可以參考下
    2015-03-03
  • 使用python連接mysql數(shù)據(jù)庫數(shù)據(jù)方式

    使用python連接mysql數(shù)據(jù)庫數(shù)據(jù)方式

    這篇文章主要介紹了使用python連接mysql數(shù)據(jù)庫數(shù)據(jù)方式,住喲有兩種方式,具體內(nèi)容,需要的小伙伴可以參考下面文章內(nèi)容,希望對你有所幫助
    2022-03-03
  • Python 數(shù)據(jù)處理更容易的12個輔助函數(shù)總結(jié)

    Python 數(shù)據(jù)處理更容易的12個輔助函數(shù)總結(jié)

    Python的產(chǎn)生似乎就是專門用來處理數(shù)據(jù)的,順理成章的成為大數(shù)據(jù)的主流語言,本文介紹十二個函數(shù)輔助你更容易更便捷的用Python進行數(shù)據(jù)處理
    2021-11-11

最新評論