Python Scrapy圖片爬取原理及代碼實例
1.在爬蟲文件中只需要解析提取出圖片地址,然后將地址提交給管道
在管道文件對圖片進行下載和持久化存儲
class ImgSpider(scrapy.Spider):
name = 'img'
# allowed_domains = ['www.xxx.com']
start_urls = ['http://www.521609.com/daxuemeinv/']
url = 'http://www.521609.com/daxuemeinv/list8%d.html'
pageNum = 1
def parse(self, response):
li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
for li in li_list:
img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
item = ImgproItem()
item['src'] = img_src
yield item
2.配置文件修改
配置文件要增加IMAGES_STORE = './imgsLib'表明圖片存放的路徑
3.管道類的修改
原本管道類繼承的object,處理item對象使用時process_item方法,該方法不能發(fā)送請求,要想對圖片地址發(fā)送請求,需要繼承ImagesPipeline類,然后重寫該類中的三個方法:get_media_requests,file_path,item_completed
from scrapy.pipelines.images import ImagesPipeline
import scrapy
class ImgproPipeline(ImagesPipeline):
#對某一個媒體資源進行請求發(fā)送
#item就是接收到的spider提交過來的item
def get_media_requests(self, item, info):
yield scrapy.Request(item['src'])
#制定媒體數(shù)據(jù)存儲的名稱
def file_path(self, request, response=None, info=None):
name = request.url.split('/')[-1]
print('正在下載:',name)
return name
#將item傳遞給下一個即將給執(zhí)行的管道類
def item_completed(self, results, item, info):
return item
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python2 與python3的print區(qū)別小結(jié)
這篇文章主要介紹了python2 與python3的print區(qū)別小結(jié),需要的朋友可以參考下2018-01-01
Numpy中np.dot與np.matmul的區(qū)別詳解
本文主要介紹了Numpy中np.dot與np.matmul的區(qū)別詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02
Python編程實現(xiàn)控制cmd命令行顯示顏色的方法示例
這篇文章主要介紹了Python編程實現(xiàn)控制cmd命令行顯示顏色的方法,結(jié)合實例形式分析了Python針對命令行字符串顯示顏色屬性相關(guān)操作技巧,需要的朋友可以參考下2017-08-08
python實現(xiàn)圖片,視頻人臉識別(dlib版)
這篇文章主要介紹了python實現(xiàn)圖像,視頻人臉識別(dlib版)的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下2020-11-11

