Python爬蟲學(xué)習(xí)之獲取指定網(wǎng)頁源碼
本文實例為大家分享了Python獲取指定網(wǎng)頁源碼的具體代碼,供大家參考,具體內(nèi)容如下
1、任務(wù)簡介
前段時間一直在學(xué)習(xí)Python基礎(chǔ)知識,故未更新博客,近段時間學(xué)習(xí)了一些關(guān)于爬蟲的知識,我會分為多篇博客對所學(xué)知識進行更新,今天分享的是獲取指定網(wǎng)頁源碼的方法,只有將網(wǎng)頁源碼抓取下來才能從中提取我們需要的數(shù)據(jù)。
2、任務(wù)代碼
Python獲取指定網(wǎng)頁源碼的方法較為簡單,我在Java中使用了38行代碼才獲取了網(wǎng)頁源碼(大概是學(xué)藝不精),而Python中只用了6行就達到了效果。
Python中獲取網(wǎng)頁源碼最簡單的方法就是使用urllib包,具體代碼如下:
import urllib.request #導(dǎo)入urllib.request庫 b = str(input("請輸入:")) #提示用戶輸入信息,并強制類型轉(zhuǎn)換為字符串型 a = urllib.request.urlopen(b)#打開指定網(wǎng)址 html = a.read() #讀取網(wǎng)頁源碼 html = html.decode("utf-8") #解碼為unicode碼 print(html) #打印網(wǎng)頁源碼
我輸入的網(wǎng)址是我博客主頁的網(wǎng)址https://blog.csdn.net/lsylsy726
運行結(jié)果如下:
3、總結(jié)
這篇博客介紹的方法較為簡單,其實有的網(wǎng)站會“反爬蟲”,這時就需要我們使用User-Agent或者代理,這些東西都會在后面的博客中進行更新,我預(yù)計在后面博客中更新“讀取CSDN博客訪問量的小程序”和“有道翻譯小程序”及其他更難一些的知識,由于剛開始學(xué)習(xí)爬蟲,水平有限,請大家多多包涵。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python何時應(yīng)該使用Lambda函數(shù)
這篇文章主要介紹了Python何時應(yīng)該使用Lambda函數(shù),Python 中定義函數(shù)有兩種方法,一種是用常規(guī)方式 def 定義,函數(shù)要指定名字,第二種是用 lambda 定義,不需要指定名字,稱為 Lambda 函數(shù),需要的朋友可以參考下2019-07-07pandas 對series和dataframe進行排序的實例
今天小編就為大家分享一篇pandas 對series和dataframe進行排序的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06django數(shù)據(jù)模型中null和blank的區(qū)別說明
這篇文章主要介紹了django數(shù)據(jù)模型中null和blank的區(qū)別說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-09-09Python中的np.random.seed()隨機數(shù)種子問題及解決方法
隨機數(shù)種子,相當于我給接下來需要生成的隨機數(shù)一個初值,按照我給的這個初值,按固定順序生成隨機數(shù),接下來通過本文給大家介紹Python中的np.random.seed()隨機數(shù)種子問題,需要的朋友可以參考下2022-04-04python初學(xué)者,用python實現(xiàn)基本的學(xué)生管理系統(tǒng)(python3)代碼實例
這篇文章主要介紹了用python實現(xiàn)學(xué)生管理系統(tǒng),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-04-04