快捷導(dǎo)航

Python Scrapy圖片爬取原理及代碼實例

更新時間：2020年06月12日 10:21:22 作者：Hedger_Lee

這篇文章主要介紹了Python Scrapy圖片爬取原理及代碼實例,文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下

1.在爬蟲文件中只需要解析提取出圖片地址，然后將地址提交給管道

在管道文件對圖片進行下載和持久化存儲

class ImgSpider(scrapy.Spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pageNum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = ImgproItem()
      item['src'] = img_src

      yield item

2.配置文件修改

配置文件要增加IMAGES_STORE = './imgsLib'表明圖片存放的路徑

3.管道類的修改

原本管道類繼承的object，處理item對象使用時process_item方法，該方法不能發(fā)送請求，要想對圖片地址發(fā)送請求，需要繼承ImagesPipeline類，然后重寫該類中的三個方法:get_media_requests，file_path，item_completed

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class ImgproPipeline(ImagesPipeline):

  #對某一個媒體資源進行請求發(fā)送
  #item就是接收到的spider提交過來的item
  def get_media_requests(self, item, info):
    yield scrapy.Request(item['src'])

  #制定媒體數(shù)據(jù)存儲的名稱
  def file_path(self, request, response=None, info=None):
    name = request.url.split('/')[-1]
    print('正在下載：',name)
    return name

  #將item傳遞給下一個即將給執(zhí)行的管道類
  def item_completed(self, results, item, info):
    return item

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python獲取文件ssdeep值的方法
這篇文章主要介紹了Python獲取文件ssdeep值的方法,是一個比較實用的技巧,本文詳細講述了實現(xiàn)這一功能的具體步驟及相關(guān)注意事項,需要的朋友可以參考下
2014-10-10
一篇文章搞定Python操作文件與目錄
這篇文章主要給大家介紹了關(guān)于如何通過一篇文章搞定Python操作文件與目錄的相關(guān)資料，文中通過示例代碼介紹的非常詳細，對大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價值，需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
2019-08-08
python2 與python3的print區(qū)別小結(jié)
這篇文章主要介紹了python2 與python3的print區(qū)別小結(jié),需要的朋友可以參考下
2018-01-01
Numpy中np.dot與np.matmul的區(qū)別詳解
本文主要介紹了Numpy中np.dot與np.matmul的區(qū)別詳解，文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2023-02-02
Python編程實現(xiàn)控制cmd命令行顯示顏色的方法示例
這篇文章主要介紹了Python編程實現(xiàn)控制cmd命令行顯示顏色的方法,結(jié)合實例形式分析了Python針對命令行字符串顯示顏色屬性相關(guān)操作技巧,需要的朋友可以參考下
2017-08-08
python學(xué)生管理系統(tǒng)開發(fā)
這篇文章主要為大家詳細介紹了基礎(chǔ)版和函數(shù)版的python學(xué)生管理系統(tǒng)開發(fā)，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2019-01-01
Python如何拆分含有多種分隔符的字符串
這篇文章主要介紹了Python如何拆分含有多種分隔符的字符串問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2024-02-02
Python中ttkbootstrap的介紹與基本使用
ttkbootstrap是一個基于?tkinter?的界面美化庫,使用這個工具可以開發(fā)出類似前端bootstrap風(fēng)格的tkinter桌面程序,下面這篇文章主要給大家介紹了關(guān)于Python中ttkbootstrap的介紹與基本使用的相關(guān)資料,需要的朋友可以參考下
2023-01-01
python實現(xiàn)圖片，視頻人臉識別(dlib版)
這篇文章主要介紹了python實現(xiàn)圖像，視頻人臉識別(dlib版)的相關(guān)資料，幫助大家更好的理解和學(xué)習(xí)python，感興趣的朋友可以了解下
2020-11-11
python繼續(xù)找對象詳解
這篇文章主要為大家介紹了python繼續(xù)找對象的方法，具有一定的參考價值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助
2022-01-01