Python爬蟲框架之Scrapy中Spider的用法
Scrapy中Spider的用法
Spider類定義了如何爬取某個(gè)(或某些)網(wǎng)站。包括了爬取的動(dòng)作(例如:是否跟進(jìn)鏈接)以及如何從網(wǎng)頁的內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)(爬取item)。換句話說,Spider就是您定義爬取的動(dòng)作及分析某個(gè)網(wǎng)頁(或者是有些網(wǎng)頁)的地方。
對(duì)spider來說,爬取的循環(huán)類似下文:
1.以初始的URL初始化Request,并設(shè)置回調(diào)函數(shù)。當(dāng)該request下載完畢并返回時(shí),將生成response,并作為參數(shù)傳給該回調(diào)函數(shù)。spider中初始的request是通過調(diào)用start_requests()來獲取的。start_requests()讀取start_urls中的URL,并以parse為回調(diào)函數(shù)生成Request。
2.在回調(diào)函數(shù)內(nèi)分析返回的(網(wǎng)頁)內(nèi)容,返回ltem對(duì)象或者Request或者一個(gè)包括二者的可迭代容器。返回的Request對(duì)象之后會(huì)經(jīng)過Scrapy處理,下載相應(yīng)的內(nèi)容,并調(diào)用設(shè)置的callback函數(shù)(函數(shù)可相同)。
3.在回調(diào)函數(shù)內(nèi),您可以使用選擇器(Selectors)(您也可以使用BeautifulSoup, Ixml或者您想用的任何解析器)來分析網(wǎng)頁內(nèi)容,并根據(jù)分析的數(shù)據(jù)生成item。
4.最后,由spider返回的item將被存到數(shù)據(jù)庫(由某些ltem Pipeline處理)或使用Feed exports存入到文件中。
雖然該循環(huán)對(duì)任何類型的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認(rèn)spider。之后將討論這些spider。
Spider
scrapy.spider.Spider是最簡(jiǎn)單的spider。每個(gè)其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。其僅僅請(qǐng)求給定的start_urls / start_requests,并根據(jù)返回的結(jié)果(resulting responses)調(diào)用spider的 parse方法。
name
定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化) spider,所以其必須是唯一的。不過您可以生成多個(gè)相同的spider實(shí)例(instance),這沒有任何限制。name是spider最重要的屬性,而且是必須的。
如果該spider爬取單個(gè)網(wǎng)站(single domain),一個(gè)常見的做法是以該網(wǎng)站(domain)(加或不加后綴)來命名spider。例如,如果spider爬取 mywebsite.com,該spider通常會(huì)被命名為mywebsite。
allowed_domains
可選。包含了spider允許爬取的域名(domain)列表(list)。當(dāng)OffsiteMiddleware啟用時(shí),域名不在列表中的URL不會(huì)被跟進(jìn)。
start_urls
URL列表。當(dāng)沒有制定特定的URL時(shí),spider將從該列表中開始進(jìn)行爬取。因此,第一個(gè)被獲取到的頁面的URL將是該列表之一。后續(xù)的URL將會(huì)從獲取到的數(shù)據(jù)中提取。
start_requests()
該方法必須返回一個(gè)可迭代對(duì)象(iterable)。該對(duì)象包含了spider用于爬取的第一個(gè)Request。
當(dāng)spider啟動(dòng)爬取并且未制定URL時(shí),該方法被調(diào)用。當(dāng)指定了URL時(shí),make_requests_from_url()將被調(diào)用來創(chuàng)建Request對(duì)象。該方法僅僅會(huì)被Scrapy調(diào)用一次,因此您可以將其實(shí)現(xiàn)為生成器。
該方法的默認(rèn)實(shí)現(xiàn)是使用start_urls的url生成Request。
如果您想要修改最初爬取某個(gè)網(wǎng)站的Request對(duì)象,您可以重寫(override)該方法。例如,如果您需要在啟動(dòng)時(shí)以POST登錄某個(gè)網(wǎng)站,你可以這么寫:
def start_requests(self) : return [scrapy.FormRequest("http : / /ww. example.com/login", formdata={ 'user' : 'john', ' pass ' : 'secret'}, ca77back=se1f.1ogged_in)] def logged_in(self,response) : ## here you would extract links to follow and return Requests for ## each of them,with another ca77back pass
parse
當(dāng)response沒有指定回調(diào)函數(shù)時(shí),該方法是Scrapy處理下載的response的默認(rèn)方法。
parse負(fù)責(zé)處理response并返回處理的數(shù)據(jù)以及(/或)跟進(jìn)的URL。Spider對(duì)其他的Request的回調(diào)函數(shù)也有相同的要求。
該方法及其他的Request回調(diào)函數(shù)必須返回一個(gè)包含Request 及(或) ltem的可迭代的對(duì)象。
參數(shù): response-用于分析的response
啟動(dòng)方式
start_urls
start_urls是一個(gè)列表
start_requests
使用start_requests()重寫start_ur1s,要使用Request()方法自己發(fā)送請(qǐng)求:
def start_requests(se7f): """重寫start_urls 規(guī)則""" yield scrapy.Request(ur1='http://quotes.toscrape.com/page/1/'cal1back=self.parse)
scrapy.Request
scrapy.Request是一個(gè)請(qǐng)求對(duì)象,創(chuàng)建時(shí)必須制定回調(diào)函數(shù)。
數(shù)據(jù)保存
可以使用-o將數(shù)據(jù)保存為常見的格式(根據(jù)后綴名保存)
支持的格式有下面幾種:
- json
- jsonlines
- jl
- csv
- xml
- marshal
- pickle
使用方式:
scrapy crawl quotes2 -o a.json
案例: Spider樣例
##一*- coding: utf-8 -*- import scrapy clTass Quotes2spider(scrapy.spider): name = 'quotes2' a7lowed_domains = [ 'toscrape.com ' ] start_urls = [ ' http: //quotes.toscrape.com/ page/2/ '] def parse(self,response): quotes = response.css('.quote ' ) for quote in quotes: text = quote.css( '.text: : text ' ).extract_first() auth = quote.css( '.author : :text ').extract_first() tages = quote.css('.tags a: :text' ).extract() yield dict(text=text , auth=auth, tages=tages)
到此這篇關(guān)于Python爬蟲框架之Scrapy中Spider的用法的文章就介紹到這了,更多相關(guān)Spider的用法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python基于pandas爬取網(wǎng)頁表格數(shù)據(jù)
這篇文章主要介紹了Python基于pandas獲取網(wǎng)頁表格數(shù)據(jù),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05如何利用python批量提取txt文本中所需文本并寫入excel
最近幫人寫了幾個(gè)小程序,所以記錄下,下面這篇文章主要給大家介紹了關(guān)于如何利用python批量提取txt文本中所需文本并寫入excel的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-07-07wxPython學(xué)習(xí)之主框架實(shí)例
這篇文章主要介紹了wxPython學(xué)習(xí)之主框架應(yīng)用實(shí)例,以一個(gè)基礎(chǔ)的彈出窗體實(shí)例講述了wxPython主框架應(yīng)用程序的實(shí)現(xiàn)方法,需要的朋友可以參考下2014-09-09Python 檢查數(shù)組元素是否存在類似PHP isset()方法
isset方法來檢查數(shù)組元素是否存在,在Python中無對(duì)應(yīng)函數(shù),在Python中一般可以通過異常來處理數(shù)組元素不存在的情況,而無須事先檢查2014-10-10Python實(shí)現(xiàn)簡(jiǎn)單的猜單詞小游戲
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)簡(jiǎn)單的猜單詞小游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-10-10Appium Python自動(dòng)化測(cè)試之環(huán)境搭建的步驟
這篇文章主要介紹了Appium Python自動(dòng)化測(cè)試之環(huán)境搭建的步驟,以32位的Windows 7操作系統(tǒng)為例介紹Appium+Python的環(huán)境搭建步驟,感興趣的小伙伴們可以參考一下2019-01-01機(jī)器學(xué)習(xí)Erdos?Renyi隨機(jī)圖生成方法及特性
這篇文章主要為大家介紹了機(jī)器學(xué)習(xí)Erdos?Renyi隨機(jī)圖生成方法及特性詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05用Python的Django框架完成視頻處理任務(wù)的教程
這篇文章主要介紹了用Python的Django框架完成視頻處理任務(wù)的教程,包括用戶的視頻上傳和播放以及下載功能的實(shí)現(xiàn),需要的朋友可以參考下2015-04-04