亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

通過(guò)淘寶數(shù)據(jù)爬蟲學(xué)習(xí)python?scrapy?requests與response對(duì)象

 更新時(shí)間:2022年05月16日 10:48:17   作者:??夢(mèng)想橡皮擦????  
本文主要介紹了通過(guò)淘寶數(shù)據(jù)爬蟲學(xué)習(xí)python?scrapy?requests與response對(duì)象,首先從Resquest和Response對(duì)象開始展開詳細(xì)文章,需要的小伙伴可以參考一下

Request 對(duì)象

在 scrapy 中 Request 對(duì)象代表著請(qǐng)求,即向服務(wù)器發(fā)送數(shù)據(jù),該對(duì)象的構(gòu)造函數(shù)原型如下所示:

def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None, cb_kwargs=None)

其中只有 url為必填參數(shù),具體說(shuō)明如下:

  • callback:頁(yè)面解析函數(shù),當(dāng) Request 請(qǐng)求獲取到 Response 響應(yīng)之后,設(shè)定的函數(shù)會(huì)被調(diào)用,默認(rèn)是 self.parse 方法;
  • method:請(qǐng)求類型,默認(rèn)為 GET,所以使用 Request 是可以發(fā)送 POST 的請(qǐng)求的,F(xiàn)ormRequest 類是 Request 類的子類;
  • headers:請(qǐng)求頭,字典類型;
  • body:請(qǐng)求的正文,需要 bytes 類型或 str 類型;
  • cookies:Cookie 字典,dict 類型;
  • meta:元數(shù)據(jù)字典,dict 類型,可以給其它組件傳遞信息;
  • encoding:url和body參數(shù)的編碼,注意不是數(shù)據(jù)響應(yīng)編碼;
  • priority:請(qǐng)求的優(yōu)先級(jí),默認(rèn)為0,數(shù)值越大,優(yōu)先級(jí)越高;
  • dont_filter:默認(rèn)值為 False,該參數(shù)表示是否重復(fù)請(qǐng)求相同地址;
  • errback:請(qǐng)求異常時(shí)的回調(diào)函數(shù)。

Response 對(duì)象

scrapy中,Response對(duì)象表示請(qǐng)求響應(yīng)對(duì)象,即服務(wù)器返回給爬蟲的數(shù)據(jù),其構(gòu)造函數(shù)原型如下:

def __init__(self,url,status=200,headers=None,body=b"",
    flags=None, request=None,certificate=None,ip_address=None,protocol=None,
)

與 Request 一致,該方法中僅 url 為必填參數(shù),不過(guò)一般很少用到手動(dòng)創(chuàng)建一個(gè) Response 對(duì)象實(shí)例的場(chǎng)景。

Response 類衍生出來(lái)一個(gè)子類 TextResponse,然后 TextResponse又衍生出來(lái) HtmlResponse和 XmlResponse

Response 包括的屬性和方法如下:

屬性清單:

  • url:響應(yīng)地址;
  • status:響應(yīng)狀態(tài)碼;
  • headers:響應(yīng)頭;
  • encoding:響應(yīng)正文的編碼;
  • body:響應(yīng)正文,bytes 類型;
  • text:文本形式的響應(yīng)正文,將 body 進(jìn)行編碼之后的數(shù)據(jù);
  • request:獲取請(qǐng)求對(duì)象;
  • meta:元數(shù)據(jù)字典,dict 類型,請(qǐng)求傳遞過(guò)來(lái)的參數(shù);
  • selector:選擇器對(duì)象。

方法清單:

  • xpath():XPath 選擇器;
  • css():CSS 選擇器;
  • urljoin():就是 urllib.parse 模塊的 urljoin()
  • json():將響應(yīng)數(shù)據(jù)序列化為 JSON 格式;

關(guān)于 Request 和 Response 類的相關(guān)源碼,可以在 scrapy\http 目錄查看。

ItemPipeline

數(shù)據(jù)管道在 scrapy 中主要對(duì)數(shù)據(jù)進(jìn)行處理,在實(shí)際開發(fā)過(guò)程中需要注意一個(gè) ItemPipeline,只負(fù)責(zé)一種功能的數(shù)據(jù)處理,當(dāng)然在 scrapy 中你可以創(chuàng)建多個(gè) ItemPipeline。

ItemPipeline的使用場(chǎng)景:

  • 數(shù)據(jù)清洗,例如去重,去除異常數(shù)據(jù);
  • 數(shù)據(jù)保存方式編寫,例如存儲(chǔ) Mongodb,MySQL,Redis 數(shù)據(jù)庫(kù)。

在編寫ItemPipeline類的時(shí)候,不需要其繼承特定類,只需要實(shí)現(xiàn)固定名稱的方法即可,在之前的博客中已經(jīng)反復(fù)提及,自定義ItemPipeline類需要實(shí)現(xiàn) process_item()、open_spider(),close_spider()方法,其中 process_item()必須實(shí)現(xiàn)。

process_item()返回值是 Item 或者字典,也可以返回一個(gè) DropItem類型的數(shù)據(jù),此時(shí)該項(xiàng) item 會(huì)被忽略,不會(huì)被后面的 ItemPipeline處理。

過(guò)濾數(shù)據(jù)的邏輯實(shí)現(xiàn)

如果希望在 ItemPipeline實(shí)現(xiàn)過(guò)濾數(shù)據(jù),使用集合即可,發(fā)現(xiàn)集合中已經(jīng)存在數(shù)據(jù)了,拋出 DropItem即可。

LinkExtractor 提取鏈接

scrapy 編寫的爬蟲在提取大量鏈接時(shí),使用LinkExtractor會(huì)更加便捷。 使用 from scrapy.linkextractors import LinkExtractor導(dǎo)入 LinkExtractor,該類的構(gòu)造函數(shù)如下所示:

def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(),
        tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None,
        deny_extensions=None,restrict_css=(),strip=True,restrict_text=None,
    )

其中各個(gè)參數(shù)說(shuō)明如下:

  • allow:一個(gè)正則表達(dá)式或正則表達(dá)式列表,提取正則表達(dá)式匹配的 url,默認(rèn)全部提取;
  • deny:與 allow 相反;
  • allow_domains:字符串或者列表,domain 限制;
  • deny_domains:與上面相反;
  • restrict_xpaths:按照 xpath 提??;
  • restrict_css:安裝 css 選擇器提取;
  • tags:提取指定標(biāo)簽內(nèi)的鏈接;
  • attrs:提取指定屬性內(nèi)的鏈接;
  • process_value:函數(shù)類型,傳入該參數(shù)之后,LinkExtractor 會(huì)將其匹配到的所有鏈接,都傳入該函數(shù)進(jìn)行處理。

下面的代碼是提取 Response 對(duì)象中的鏈接,需要使用 extract_links() 方法。

def parse(self, response):
    link = LinkExtractor()
    all_links = link.extract_links(response)
    print(all_links)
  • 創(chuàng)建一個(gè)LinkExtractor對(duì)象;
  • 使用構(gòu)造器參數(shù)描述提取規(guī)則;
  • 調(diào)用LinkExtractor對(duì)象的 extract_links 方法傳入一個(gè)Response對(duì)象,返回一個(gè)列表;
  • 使用列表中的任意元素調(diào)用 .url 或者 .text 獲取鏈接和鏈接文本。

爬蟲編碼時(shí)間

本次的目標(biāo)站點(diǎn)是:淘數(shù)據(jù)-行業(yè)報(bào)告 

 完整代碼編寫如下所示,使用 LinkExtractor 提取頁(yè)面超鏈接。

import scrapy
from tao.items import TaoItem
from scrapy.linkextractors import LinkExtractor
class TaoDataSpider(scrapy.Spider):
    name = 'tao_data'
    allowed_domains = ['taosj.com']
    start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)]
    def parse(self, response):
        link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title')
        links = link_extractor.extract_links(response)
        for l in links:
            item = {
                "url": l.url,
                "text": l.text
            }
            yield item

到此這篇關(guān)于通過(guò)淘寶數(shù)據(jù)爬蟲學(xué)習(xí)python scrapy requests與response對(duì)象的文章就介紹到這了,更多相關(guān) python response 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python django事務(wù)transaction源碼分析詳解

    python django事務(wù)transaction源碼分析詳解

    這篇文章主要介紹了python django事務(wù)transaction源碼分析詳解的相關(guān)資料,需要的朋友可以參考下
    2017-03-03
  • python文件拆分與重組實(shí)例

    python文件拆分與重組實(shí)例

    今天小編就為大家分享一篇python文件拆分與重組實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2018-12-12
  • Python 可視化調(diào)色盤繪制

    Python 可視化調(diào)色盤繪制

    這篇文章主要介紹了Python 可視化調(diào)色盤繪制,文章首先通過(guò)導(dǎo)入模塊并加載圖片展開全文介紹,具有一定的參考價(jià)值,需要的朋友可以參考一下
    2022-06-06
  • Django 實(shí)現(xiàn)下載文件功能的示例

    Django 實(shí)現(xiàn)下載文件功能的示例

    這篇文章主要介紹了Django 實(shí)現(xiàn)下載文件功能的示例,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-03-03
  • Python爬蟲基礎(chǔ)講解之請(qǐng)求

    Python爬蟲基礎(chǔ)講解之請(qǐng)求

    今天帶大家了解一下python爬蟲的基礎(chǔ)知識(shí),文中有非常詳細(xì)的解釋說(shuō)明,對(duì)正在學(xué)習(xí)python爬蟲的小伙伴們有很好地幫助,需要的朋友可以參考下
    2021-05-05
  • Laravel框架表單驗(yàn)證格式化輸出的方法

    Laravel框架表單驗(yàn)證格式化輸出的方法

    最近在公司的項(xiàng)目開發(fā)中使用到了 laravel 框架,采用的是前后端開發(fā)的模式。這篇文章主要介紹了Laravel框架表單驗(yàn)證格式化輸出,需要的朋友可以參考下
    2019-09-09
  • 基于python的BP神經(jīng)網(wǎng)絡(luò)及異或?qū)崿F(xiàn)過(guò)程解析

    基于python的BP神經(jīng)網(wǎng)絡(luò)及異或?qū)崿F(xiàn)過(guò)程解析

    這篇文章主要介紹了基于python的BP神經(jīng)網(wǎng)絡(luò)及異或?qū)崿F(xiàn)過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-09-09
  • python實(shí)現(xiàn)四舍五入方式

    python實(shí)現(xiàn)四舍五入方式

    這篇文章主要介紹了python實(shí)現(xiàn)四舍五入方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-01-01
  • OpenCV實(shí)戰(zhàn)之AI照片背景替換

    OpenCV實(shí)戰(zhàn)之AI照片背景替換

    不少人在生活中都有摳人像圖換背景的需求。本文將為大家介紹一個(gè)更快的方法,即利用OpenCV實(shí)現(xiàn)AI照片背景替換,感興趣的小伙伴可以試一試
    2022-01-01
  • Python使用修飾器執(zhí)行函數(shù)的參數(shù)檢查功能示例

    Python使用修飾器執(zhí)行函數(shù)的參數(shù)檢查功能示例

    這篇文章主要介紹了Python使用修飾器執(zhí)行函數(shù)的參數(shù)檢查功能,結(jié)合具體實(shí)例形式分析了Python實(shí)現(xiàn)修飾器針對(duì)函數(shù)參數(shù)檢查的原理、步驟與相關(guān)操作技巧,需要的朋友可以參考下
    2017-09-09

最新評(píng)論