亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python提取網(wǎng)頁中超鏈接的方法

 更新時(shí)間:2016年09月18日 10:19:32   投稿:daisy  
很多人在一開始學(xué)習(xí)Python,會打算用作爬蟲開發(fā)。既然要做爬蟲,首先就要抓取網(wǎng)頁,并且從網(wǎng)頁中提取出超鏈接地址。這篇文章給大家分享一個(gè)簡單的方法,有需要的可以參考借鑒。

下面是最簡單的實(shí)現(xiàn)方法,先將目標(biāo)網(wǎng)頁抓回來,然后通過正則匹配a標(biāo)簽中的href屬性來獲得超鏈接

代碼如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

總結(jié)

以上就是這篇文章的全部內(nèi)容,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能有所幫助,如果有疑問大家可以留言交流。

相關(guān)文章

最新評論