亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

編寫Python爬蟲抓取暴走漫畫上gif圖片的實(shí)例分享

 更新時(shí)間:2016年04月20日 17:38:32   投稿:goldensun  
這篇文章主要介紹了編寫Python爬蟲抓取暴走漫畫上gif圖片的實(shí)例分享,示例代碼為Python3,利用到了urllib模塊、request模塊和BeautifulSoup模塊,需要的朋友可以參考下

本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖,方便離線觀看。爬蟲用的是python3.3開發(fā)的,主要用到了urllib、request和BeautifulSoup模塊。

urllib模塊提供了從萬(wàn)維網(wǎng)中獲取數(shù)據(jù)的高層接口,當(dāng)我們用urlopen()打開一個(gè)URL時(shí),就相當(dāng)于我們用Python內(nèi)建的open()打開一個(gè)文件。但不同的是,前者接收一個(gè)URL作為參數(shù),并且沒(méi)有辦法對(duì)打開的文件流進(jìn)行seek操作(從底層的角度看,因?yàn)閷?shí)際上操作的是socket,所以理所當(dāng)然地沒(méi)辦法進(jìn)行seek操作),而后者接收的是一個(gè)本地文件名。

Python的BeautifulSoup模塊,可以幫助你實(shí)現(xiàn)HTML和XML的解析
先說(shuō)一下,一般寫網(wǎng)頁(yè)爬蟲,即抓取網(wǎng)頁(yè)的html源碼等內(nèi)容,然后分析,提取相應(yīng)的內(nèi)容。
這種分析html內(nèi)容的工作,如果只是用普通的正則表達(dá)式re模塊去一點(diǎn)點(diǎn)匹配的話,對(duì)于內(nèi)容簡(jiǎn)單點(diǎn)的網(wǎng)頁(yè)分析,還是基本夠用。
但是對(duì)于工作量很大,要解析內(nèi)容很繁雜的html,那么用re模塊,就會(huì)發(fā)現(xiàn)無(wú)法實(shí)現(xiàn),或很難實(shí)現(xiàn)。
而使用beautifulsoup模塊去幫你實(shí)現(xiàn)分析html源碼的工作的話,你就會(huì)發(fā)現(xiàn),事情變得如此簡(jiǎn)單,極大地提高了分析html源碼的效率。
注:BeautifulSoup是第三方庫(kù),我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲源代碼如下

# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #設(shè)置下載頁(yè)數(shù)

path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
  os.mkdir(path)                 #創(chuàng)建文件夾

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #偽裝瀏覽器
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
         ' Chrome/32.0.1700.76 Safari/537.36'
}

for count in range(page_sum):
  req = urllib.request.Request(
    url = url+str(count+1),
    headers = headers
  )
  print(req.full_url)
  content = urllib.request.urlopen(req).read()

  soup = bs4.BeautifulSoup(content)          # BeautifulSoup
  img_content = soup.findAll('img',attrs={'style':'width:460px'})

  url_list = [img['src'] for img in img_content]   #列表推導(dǎo) url
  title_list = [img['alt'] for img in img_content]  #圖片名稱

  for i in range(url_list.__len__()) :
    imgurl = url_list[i]
    filename = path + os.sep +title_list[i] + ".gif"
    print(filename+":"+imgurl)             #打印下載信息
    urllib.request.urlretrieve(imgurl,filename)    #下載圖片

在第15行可以修改下載頁(yè)數(shù),將此文件保存為baozougif.py,使用命令python baozougif.py運(yùn)行后在同目錄下會(huì)生成「暴走GIF」的文件夾,所有的圖片會(huì)自動(dòng)下載到該目錄中。

相關(guān)文章

  • Pycharm創(chuàng)建項(xiàng)目時(shí)如何自動(dòng)添加頭部信息

    Pycharm創(chuàng)建項(xiàng)目時(shí)如何自動(dòng)添加頭部信息

    這篇文章主要介紹了Pycharm創(chuàng)建項(xiàng)目時(shí) 自動(dòng)添加頭部信息,需要的朋友可以參考下
    2019-11-11
  • 基于Python創(chuàng)建可定制的HTTP服務(wù)器

    基于Python創(chuàng)建可定制的HTTP服務(wù)器

    這篇文章主要為大家演示一下如何使用?http.server?模塊來(lái)實(shí)現(xiàn)一個(gè)能夠發(fā)布網(wǎng)頁(yè)的應(yīng)用服務(wù)器,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下
    2023-05-05
  • 基于python plotly交互式圖表大全

    基于python plotly交互式圖表大全

    今天小編就為大家分享一篇基于python plotly交互式圖表大全,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-12-12
  • Anaconda安裝OpenCV的方法圖文教程

    Anaconda安裝OpenCV的方法圖文教程

    在Anaconda里安裝OpenCV的方法有很多,下面這篇文章主要給大家介紹了關(guān)于Anaconda安裝OpenCV的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-09-09
  • PyQt中使用QProcess運(yùn)行一個(gè)進(jìn)程的示例代碼

    PyQt中使用QProcess運(yùn)行一個(gè)進(jìn)程的示例代碼

    這篇文章主要介紹了在PyQt中使用QProcess運(yùn)行一個(gè)進(jìn)程,本例中通過(guò)按下按鈕,啟動(dòng)了windows系統(tǒng)自帶的記事本程序,即notepad.exe, 因?yàn)樗趙indows的系統(tǒng)目錄下,該目錄已經(jīng)加在了系統(tǒng)的PATH環(huán)境變量中,所以不需要特別指定路徑,需要的朋友可以參考下
    2022-12-12
  • python3實(shí)現(xiàn)的zip格式壓縮文件夾操作示例

    python3實(shí)現(xiàn)的zip格式壓縮文件夾操作示例

    這篇文章主要介紹了python3實(shí)現(xiàn)的zip格式壓縮文件夾操作,結(jié)合實(shí)例形式分析了Python3基于zipfile模塊實(shí)現(xiàn)zip格式文件壓縮的相關(guān)操作技巧,需要的朋友可以參考下
    2019-08-08
  • Python?遺傳算法處理TSP問(wèn)題詳解

    Python?遺傳算法處理TSP問(wèn)題詳解

    遺傳算法(Genetic?Algorithm,?GA)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過(guò)程的計(jì)算模型,是一種通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法
    2022-11-11
  • Django中日期處理注意事項(xiàng)與自定義時(shí)間格式轉(zhuǎn)換詳解

    Django中日期處理注意事項(xiàng)與自定義時(shí)間格式轉(zhuǎn)換詳解

    這篇文章主要給大家介紹了關(guān)于Django中日期處理注意事項(xiàng)與自定義時(shí)間格式轉(zhuǎn)換的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2018-08-08
  • Python使用pytest-playwright的原因分析

    Python使用pytest-playwright的原因分析

    pytest-playwright 是一個(gè) Python 包,它允許您使用 Microsoft 的 Playwright 庫(kù)在 Python 項(xiàng)目中進(jìn)行端到端測(cè)試,這篇文章主要介紹了Python為什么使用pytest-playwright,需要的朋友可以參考下
    2023-03-03
  • python中使用matplotlib繪制熱力圖

    python中使用matplotlib繪制熱力圖

    熱力圖,是一種通過(guò)對(duì)色塊著色來(lái)顯示數(shù)據(jù)的統(tǒng)計(jì)圖表,它通過(guò)使用顏色編碼來(lái)表示數(shù)據(jù)的值,并在二維平面上呈現(xiàn)出來(lái),本文就給大家介紹一下python使用matplotlib繪制熱力圖的方法,需要的朋友可以參考下
    2023-08-08

最新評(píng)論