快捷導(dǎo)航

Python使用爬蟲爬取靜態(tài)網(wǎng)頁圖片的方法詳解

更新時(shí)間：2018年06月05日 12:02:50 作者：coder_Gray

這篇文章主要介紹了Python使用爬蟲爬取靜態(tài)網(wǎng)頁圖片的方法,較為詳細(xì)的說明了爬蟲的原理,并結(jié)合實(shí)例形式分析了Python使用爬蟲來爬取靜態(tài)網(wǎng)頁圖片的相關(guān)操作技巧,需要的朋友可以參考下

本文實(shí)例講述了Python使用爬蟲爬取靜態(tài)網(wǎng)頁圖片的方法。分享給大家供大家參考，具體如下：

爬蟲理論基礎(chǔ)

其實(shí)爬蟲沒有大家想象的那么復(fù)雜，有時(shí)候也就是幾行代碼的事兒，千萬不要把自己嚇倒了。這篇就清晰地講解一下利用Python爬蟲的理論基礎(chǔ)。

首先說明爬蟲分為三個(gè)步驟，也就需要用到三個(gè)工具。

① 利用網(wǎng)頁下載器將網(wǎng)頁的源碼等資源下載。
② 利用URL管理器管理下載下來的URL
③ 利用網(wǎng)頁解析器解析需要的URL，進(jìn)而進(jìn)行匹配。

網(wǎng)頁下載器

網(wǎng)頁下載器常用的有兩個(gè)。一個(gè)是Python自帶的urllib2模塊；另一個(gè)是第三方控件requests。選用哪個(gè)其實(shí)差異不大，下一篇將會(huì)進(jìn)行實(shí)踐操作舉例。

URL管理器

url管理器有三大類。

① 內(nèi)存：以set形式存儲(chǔ)在內(nèi)存中
② 存儲(chǔ)在關(guān)系型數(shù)據(jù)庫mysql等
③ 緩存數(shù)據(jù)庫redis中

網(wǎng)頁解析器

網(wǎng)頁解析器一共有四類：

1.正則表達(dá)式，不過對(duì)于太復(fù)雜的匹配就會(huì)有些難度，屬于模糊匹配。
2.html.parser，這是python自帶的解析工具。
3.Beautiful Soup，一種第三方控件，顧名思義，美味的湯，用起來確實(shí)很方便，很強(qiáng)大。
4.lxml（apt.xml），第三方控件。

以上的這些全部屬于結(jié)構(gòu)化解析（DOM樹）

什么式結(jié)構(gòu)化解析（DOM）？

Document Object Model(DOM)是一種樹的形式。

Beautiful Soup的語法

html網(wǎng)頁—>創(chuàng)建BeautifulSoup對(duì)象—>搜索節(jié)點(diǎn) find_all（）/find（）—>訪問節(jié)點(diǎn)，名稱，屬性，文字等……

Beautiful Soup官方文檔

實(shí)現(xiàn)代碼

說過了理論基礎(chǔ)，那么現(xiàn)在就來實(shí)踐一個(gè)，要爬取一個(gè)靜態(tài)網(wǎng)頁的所有圖片。

這里使用的網(wǎng)頁下載器是python自帶的urllib2，然后利用正則表達(dá)式匹配，輸出結(jié)果。

以下為源碼：

//引入小需要用到的模塊
import urllib2
import re
def main():
  //利用urllib2的urlopen方法，下載當(dāng)前url的網(wǎng)頁內(nèi)容
  req = urllib2.urlopen('http://www.imooc.com/course/list')
  //將網(wǎng)頁內(nèi)容存儲(chǔ)到buf變量中
  buf = req.read()
  //將buf中的所有內(nèi)容與需要匹配的url進(jìn)行比對(duì)。這里的正則表達(dá)式是根據(jù)靜態(tài)網(wǎng)頁的源碼得出的，查看靜態(tài)網(wǎng)頁源碼開啟開發(fā)者模式，按F12即可。然后確定圖片塊，查看對(duì)應(yīng)源碼內(nèi)容，找出規(guī)律，編寫正則表達(dá)式。
  listurl = re.findall(r'src=.+\.jpg',buf)
  i = 0
  //將結(jié)果循環(huán)寫入文件
  for url in listurl:
    f = open(str(i)+'.jpg','w')
    req = urllib2.urlopen(url[5:])
    buf1 = req.read()
    f.write(buf1)
    i+=1
if __name__ == '__main__':
  main()

至此一個(gè)靜態(tài)網(wǎng)頁的圖片爬蟲就完成了，下面來看下效果。

這是靜態(tài)網(wǎng)頁：