python urllib urlopen()對(duì)象方法/代理的補(bǔ)充說(shuō)明
python urllib urlopen()對(duì)象方法/代理的補(bǔ)充說(shuō)明
urllib 是 python 自帶的一個(gè)抓取網(wǎng)頁(yè)信息一個(gè)接口,他最主要的方法是 urlopen(),是基于 python 的 open() 方法的。下面是主要說(shuō)明:
urllib.urlopen('網(wǎng)址')
這里傳入urlopen()的參數(shù)有特別說(shuō)要求,要遵循一些網(wǎng)絡(luò)協(xié)議,比如http,ftp,也就是說(shuō),在網(wǎng)址的開頭必須要有http://這樣的說(shuō)明,如:urllib.urlopen('http://www.baidu.com')。
要么就是本地文件,本地文件需要使用file關(guān)鍵字,比如 urllib.urlopen('file:nowamagic.py'),注意,這里的hello.py是指的是當(dāng)前的classpath所指定的內(nèi)容,如果對(duì)hello.py這里有什么疑問(wèn)那一定是python尋找classpath的順序不是很清楚了,當(dāng)然也可以直接寫全部路徑,urllib.urlopen('file:F:\pythontest\nowamagic.py')。
打開 ftp 文件也是可以的,寫法 urllib.urlopen(url='ftp://用戶名:密碼@ftp地址/') 等。
示例程序:
import urllib f = urllib.urlopen('file:F:\pythontest\nowamagic.py') a = f.read() print a
如果傳入的參數(shù)正確,比如該網(wǎng)站可以訪問(wèn),沒有特殊情況(比如需要代理,被墻等),那么將返回一個(gè)類似于文件對(duì)象的對(duì)象。即上面代碼中的f,f對(duì)象有的方法一些操作方法,使用dir(f):
['__doc__', '__init__', '__iter__', '__module__', '__repr__', 'close', 'fileno', 'fp', 'geturl', 'headers', 'info', 'next', 'read', 'readline', 'readlines', 'url']
使用read()方法會(huì)將所有內(nèi)容讀取出來(lái),并且同時(shí)f對(duì)象類似于先入先出的數(shù)據(jù),在使用f.read()將得不到任何數(shù)據(jù),也就是說(shuō),得到的數(shù)據(jù)在這個(gè)時(shí)候如果想在后面進(jìn)行任何處理操作的話,需要另外定義一個(gè)對(duì)象來(lái)進(jìn)行存儲(chǔ)。如上例中的a。而info(),geturl()方法,也是基于f這個(gè)文檔對(duì)象的,所以,使用
>>>f.geturl() 'F://pythontest//nowamagic.py'
接下來(lái)是urllib的代理設(shè)置:
import urllib proxies = {'http':'http://***.***.***.***:1984'} filehandle = urllib.urlopen('http://www.需要代理才能訪問(wèn)的網(wǎng)站.com/',proxies = proxies) a = filehandle.read() print a
以上是最基本代理,即代理訪問(wèn)到該網(wǎng)站,并且能夠獲得該網(wǎng)站的內(nèi)容。但是如果遇到需要登錄,或者需要cookie等的網(wǎng)站呢?
查看urllib的源碼:
def urlopen(url, data=None, proxies=None): """urlopen(url [, data]) -> open file-like object""" global _urlopener if proxies is not None: opener = FancyURLopener(proxies=proxies) elif not _urlopener: opener = FancyURLopener() _urlopener = opener else: opener = _urlopener if data is None: return opener.open(url) else: return opener.open(url, data)
由上面urllib的urlopen的源碼,可以看出,還可以傳入一個(gè)data參數(shù),data參數(shù)也應(yīng)該是一個(gè)字典,因?yàn)樵谑褂脼g覽器向服務(wù)器發(fā)送數(shù)據(jù)的時(shí)候,我們發(fā)送的就是字典類型的數(shù)據(jù)。
還有一點(diǎn),就是代理支持是 python 2.3 以后加入的。
感謝閱讀,希望能幫助到大家,謝謝大家對(duì)本站的支持!
- Python urlopen()和urlretrieve()用法解析
- 詳解Python3網(wǎng)絡(luò)爬蟲(二):利用urllib.urlopen向有道翻譯發(fā)送數(shù)據(jù)獲得翻譯結(jié)果
- 解決python3 urllib中urlopen報(bào)錯(cuò)的問(wèn)題
- Python使用urllib模塊的urlopen超時(shí)問(wèn)題解決方法
- Python urlopen()函數(shù) 示例分享
- Python urllib模塊urlopen()與urlretrieve()詳解
- Python urlopen 使用小示例
- Python urlopen()參數(shù)代碼示例解析
相關(guān)文章
pycharm不以pytest方式運(yùn)行,想要切換回普通模式運(yùn)行的操作
這篇文章主要介紹了pycharm不以pytest方式運(yùn)行,想要切換回普通模式運(yùn)行的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-09-09使用實(shí)現(xiàn)XlsxWriter創(chuàng)建Excel文件并編輯
今天小編就為大家分享一篇使用實(shí)現(xiàn)XlsxWriter創(chuàng)建Excel文件并編輯,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-05-05使用Python讀取Excel數(shù)據(jù)并寫入到CSV、XML和文本
Excel工作簿是常用的表格格式,許多數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)分析和數(shù)據(jù)匯報(bào)都是以Excel工作表的形式進(jìn)行,本文將演示如何運(yùn)用Python編程語(yǔ)言,將Excel工作表中的豐富數(shù)據(jù)導(dǎo)入到CSV、XML或文本中,需要的朋友可以參考下2024-03-03Matplotlib scatter繪制散點(diǎn)圖的方法實(shí)現(xiàn)
這篇文章主要介紹了Matplotlib scatter繪制散點(diǎn)圖的方法實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-01-01Python UI自動(dòng)化測(cè)試Web frame及多窗口切換
這篇文章主要為大家介紹了Python UI自動(dòng)化測(cè)試Web frame及多窗口切換,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-11-11python生成requirements.txt文件的推薦方法
Python項(xiàng)目中必須包含一個(gè)requirements.txt文件,用于記錄所有依賴包及其精確的版本號(hào),以便新環(huán)境部署,下面這篇文章主要給大家介紹了關(guān)于python生成requirements.txt文件的相關(guān)資料,需要的朋友可以參考下2022-07-07python簡(jiǎn)單實(shí)例訓(xùn)練(21~30)
上篇文章給大家介紹了python簡(jiǎn)單實(shí)例訓(xùn)練的1-10,這里繼續(xù)為大家介紹python的一些用法,希望大家每個(gè)例子都打出來(lái)測(cè)試一下2017-11-11