Python使用urllib2模塊抓取HTML頁(yè)面資源的實(shí)例分享
更新時(shí)間:2016年05月03日 17:58:27 作者:larry
這篇文章主要介紹了Python使用urllib2模塊抓取HTML頁(yè)面資源的實(shí)例分享,將要抓取的頁(yè)面地址寫(xiě)在單獨(dú)的規(guī)則列表中方便組織和重復(fù)使用,需要的朋友可以參考下
先把要抓取的網(wǎng)絡(luò)地址列在單獨(dú)的list文件中
http://chabaoo.cn/article/83440.html http://chabaoo.cn/article/83437.html http://chabaoo.cn/article/83430.html http://chabaoo.cn/article/83449.html
然后我們來(lái)看程序操作,代碼如下:
#!/usr/bin/python import os import sys import urllib2 import re def Cdown_data(fileurl, fpath, dpath): if not os.path.exists(dpath): os.makedirs(dpath) try: getfile = urllib2.urlopen(fileurl) data = getfile.read() f = open(fpath, 'w') f.write(data) f.close() except: print with open('u1.list') as lines: for line in lines: URI = line.strip() if '?' and '%' in URI: continue elif URI.count('/') == 2: continue elif URI.count('/') > 2: #print URI,URI.count('/') try: dirpath = URI.rpartition('/')[0].split('//')[1] #filepath = URI.split('//')[1].split('/')[1] filepath = URI.split('//')[1] if filepath: print URI,filepath,dirpath Cdown_data(URI, filepath, dirpath) except: print URI,'error'
您可能感興趣的文章:
- Python基于lxml模塊解析html獲取頁(yè)面內(nèi)所有葉子節(jié)點(diǎn)xpath路徑功能示例
- Python語(yǔ)言實(shí)現(xiàn)將圖片轉(zhuǎn)化為html頁(yè)面
- Python編寫(xiě)簡(jiǎn)單的HTML頁(yè)面合并腳本
- python抓取并保存html頁(yè)面時(shí)亂碼問(wèn)題的解決方法
- Python使用lxml模塊和Requests模塊抓取HTML頁(yè)面的教程
- Python正則表達(dá)式匹配HTML頁(yè)面編碼
- 通過(guò)Python實(shí)現(xiàn)一個(gè)簡(jiǎn)單的html頁(yè)面
相關(guān)文章
python-xpath獲取html文檔的部分內(nèi)容
這篇文章主要介紹了python-xpath獲取html文檔的部分內(nèi)容,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03Python入門(mén)教程(四十三)Python的NumPy數(shù)據(jù)類型
這篇文章主要介紹了Python入門(mén)教程(四十二)Python的NumPy數(shù)組裁切,NumPy有一些額外的數(shù)據(jù)類型,并通過(guò)一個(gè)字符引用數(shù)據(jù)類型,例如 i 代表整數(shù),u 代表無(wú)符號(hào)整數(shù)等,需要的朋友可以參考下2023-05-05Python列表刪除元素del、pop()和remove()的區(qū)別小結(jié)
這篇文章主要給大家介紹了關(guān)于Python列表刪除元素del、pop()和remove()的區(qū)別,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-09-09