亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python3使用urllib模塊制作網(wǎng)絡(luò)爬蟲

 更新時(shí)間:2016年04月08日 08:58:46   作者:mrmusic  
本文給大家介紹的是利用urllib模塊通過(guò)指定的URL抓取網(wǎng)頁(yè)內(nèi)容 所謂網(wǎng)頁(yè)抓取,就是把URL地址中指定的網(wǎng)絡(luò)資源從網(wǎng)絡(luò)流中讀取出來(lái),保存到本地,有需要的小伙伴可以參考下

urllib

urllib模塊是python3的URL處理包

其中:

1、urllib.request主要是打開和閱讀urls

個(gè)人平時(shí)主要用的1:

打開對(duì)應(yīng)的URL:urllib.request.open(url)

用urllib.request.build_opener([handler, ...]),來(lái)偽裝成對(duì)應(yīng)的瀏覽器

import urllib
#要偽裝成的瀏覽器(我這個(gè)是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#將要偽裝成的瀏覽器添加到對(duì)應(yīng)的http頭部
opener.addheaders=[headers]
#讀取相應(yīng)的url
data = opener.open(url).read()
#將獲得的html解碼為utf-8
data=data.decode('utf-8')
print(data)

2、urllib.parse主要是用來(lái)解析url

主要方法:

urllib.parse.urlparse(urlstring)

功能:將對(duì)應(yīng)的URL解析成六部分,并以元組的數(shù)據(jù)格式返回來(lái)。(在功能上和urlsplit()幾乎一模一樣)

import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

對(duì)應(yīng)的結(jié)果:

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、構(gòu)建一個(gè)新的url——urllib.parse.urljoin(base, url)

參數(shù):base:基本的URL鏈接

   url:另一個(gè)url

from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)

結(jié)果:http://www.cwi.nl/%7Eguido/FAQ.html

這個(gè)函數(shù)在爬蟲的時(shí)候應(yīng)該方便多了,我之前用的是比較笨的方法直接字符串拼接

3、異常處理 urllib.error

用 try-except來(lái)捕捉異常

主要的錯(cuò)誤方式就兩種 URLError和HTTPError

因?yàn)镠TTPError是URLError的子類,所以URLError應(yīng)該寫在HttpError后面,說(shuō)白了就是找到兒子一定知道父親,找到父親,不一定知道兒子。

try:
  data=urllib.request.urlopen(url)
  print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
  print(e.code)
except urllib.error.URLError as e:
  print(e.reason)

結(jié)果:[WinError 10060] 由于連接方在一段時(shí)間后沒(méi)有正確答復(fù)或連接的主機(jī)沒(méi)有反應(yīng),連接嘗試失敗。

如果捕獲到了HTTPError,則輸出code,不會(huì)再處理URLError異常。如果發(fā)生的不是HTTPError,則會(huì)去捕獲URLError異常,輸出錯(cuò)誤原因

相關(guān)文章

  • Python入門基本操作列表排序用法詳解

    Python入門基本操作列表排序用法詳解

    本篇文中主要介紹列表的基本的組成,怎么訪問(wèn)列表、列表的切片、列表的排序、列表的添加、列表的刪除等內(nèi)容,有需要的朋友可以借鑒參考下,希望能夠有所幫助
    2021-09-09
  • 基礎(chǔ)語(yǔ)音識(shí)別-食物語(yǔ)音識(shí)別baseline(CNN)

    基礎(chǔ)語(yǔ)音識(shí)別-食物語(yǔ)音識(shí)別baseline(CNN)

    這篇文章主要介紹了一個(gè)基礎(chǔ)語(yǔ)音識(shí)別題目-食物語(yǔ)音識(shí)別baseline(CNN),代碼詳細(xì)嗎,對(duì)于想要學(xué)習(xí)語(yǔ)音識(shí)別的朋友可以參考下
    2021-04-04
  • 常用的10個(gè)Python實(shí)用小技巧

    常用的10個(gè)Python實(shí)用小技巧

    這篇文章主要介紹了常用的10個(gè)Python實(shí)用小技巧,幫助大家更好的理解和學(xué)習(xí)Python,感興趣的朋友可以了解下
    2020-08-08
  • anaconda?navigator打不開問(wèn)題的解決方法

    anaconda?navigator打不開問(wèn)題的解決方法

    在使用python的發(fā)行版anaconda時(shí),常常需要根據(jù)自己的項(xiàng)目安裝新的庫(kù),下面這篇文章主要給大家介紹了關(guān)于anaconda?navigator打不開問(wèn)題的解決方法,需要的朋友可以參考下
    2022-12-12
  • python中的函數(shù)遞歸和迭代原理解析

    python中的函數(shù)遞歸和迭代原理解析

    這篇文章主要介紹了python中的函數(shù)遞歸和迭代原理解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-11-11
  • 24式加速你的Python(小結(jié))

    24式加速你的Python(小結(jié))

    這篇文章主要介紹了24式加速你的Python(小結(jié)),小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2019-06-06
  • python實(shí)現(xiàn)水印生成器

    python實(shí)現(xiàn)水印生成器

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)水印生成器,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-05-05
  • 在Python中操作文件之truncate()方法的使用教程

    在Python中操作文件之truncate()方法的使用教程

    這篇文章主要介紹了在Python中操作文件之truncate()方法的使用教程,是Python入門學(xué)習(xí)中的基礎(chǔ)知識(shí),需要的朋友可以參考下
    2015-05-05
  • Python opencv醫(yī)學(xué)處理的實(shí)現(xiàn)過(guò)程

    Python opencv醫(yī)學(xué)處理的實(shí)現(xiàn)過(guò)程

    這篇文章主要介紹了Python opencv醫(yī)學(xué)處理的實(shí)現(xiàn)過(guò)程,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-05-05
  • python腳本實(shí)現(xiàn)xls(xlsx)轉(zhuǎn)成csv

    python腳本實(shí)現(xiàn)xls(xlsx)轉(zhuǎn)成csv

    這篇文章主要介紹了python腳本實(shí)現(xiàn)xls(xlsx)轉(zhuǎn)成csv的相關(guān)資料,需要的朋友可以參考下
    2016-04-04

最新評(píng)論