亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python如何爬取動態(tài)網(wǎng)站

 更新時間:2020年09月09日 14:39:10   作者:愛喝馬黛茶的安東尼  
在本篇內(nèi)容里小編給各位分享了關于python如何爬取動態(tài)網(wǎng)站的相關知識點內(nèi)容,有興趣的朋友們可以參考下。

python有許多庫可以讓我們很方便地編寫網(wǎng)絡爬蟲,爬取某些頁面,獲得有價值的信息!但許多時候,爬蟲取到的頁面僅僅是一個靜態(tài)的頁面,即網(wǎng)頁 的源代碼,就像在瀏覽器上的“查看網(wǎng)頁源代碼”一樣。一些動態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息,是抓取不到的,這里暫且先給出這么一 些方案,可用于python爬取js執(zhí)行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫動態(tài)抓取頁面

js腳本是通過瀏覽器來執(zhí)行并返回信息的,所以,抓取js執(zhí)行后的頁面,一個最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個開源的瀏覽器引擎,python提供了許多庫可以調(diào)用這個引擎,dryscrape便是其中之一,它調(diào)用webkit引擎來處理包含js等的網(wǎng)頁!

import dryscrape
# 使用dryscrape庫 動態(tài)抓取頁面
def get_url_dynamic(url):
    session_req=dryscrape.Session()
    session_req.visit(url) #請求頁面
    response=session_req.body() #網(wǎng)頁的文本
    #print(response)
    return response
get_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對于其余包含js的網(wǎng)頁也是適用的!雖然可以滿足抓取動態(tài)頁面的要求,但缺點還是很明顯的:慢!太慢了,其實想一想也合理,python調(diào)用 webkit請求頁面,而且等頁面加載完,載入js文件,讓js執(zhí)行,將執(zhí)行后的頁面返回,慢一點也是應該的!除外還有很多庫可以調(diào)用 webkit:PythonWebkit,PyWebKitGit,Pygt(可以用它寫個瀏覽器),pyjamas等等,聽說它們也可以實現(xiàn)相同的功能!

1.2 selenium web測試框架

selenium是一個web測試框架,它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁請求,所以,它同樣可以實現(xiàn)抓取頁面的要求。

# 使用 selenium webdriver 可行,但會實時打開瀏覽器窗口

def get_url_dynamic2(url):
    driver=webdriver.Firefox() #調(diào)用本地的火狐瀏覽器,Chrom 甚至 Ie 也可以的
    driver.get(url) #請求頁面,會打開一個瀏覽器窗口
    html_text=driver.page_source
    driver.quit()
    #print html_text
    return html_text
get_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時的解決方案!與selenium類似的框架還有一個windmill,感覺稍復雜一些,就不再贅述!

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因:

1. selenium 3.x開始,webdriver/firefox/webdriver.py的__init__中,executable_path="geckodriver";而2.x是executable_path="wires"

2. firefox 47以上版本,需要下載第三方driver,即geckodriver

還需要一些特殊操作:

1. 下載 geckodriverckod 地址: 

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可:

sudo mv ~/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運行報錯:

driver = webdriver.chrome()
TypeError: 'module' object is not callable

解決方案:瀏覽器的名稱需要大寫Chrome和Firefox,Ie

2. 通過

content = driver.find_element_by_class_name('content')

來定位元素時,該方法返回的是FirefoxWebElement,想要獲取包含的值時,可以通過

value = content.text

到此這篇關于python如何爬取動態(tài)網(wǎng)站的文章就介紹到這了,更多相關python怎么爬動態(tài)網(wǎng)站內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • Python采集貓眼兩萬條數(shù)據(jù) 對《無名之輩》影評進行分析

    Python采集貓眼兩萬條數(shù)據(jù) 對《無名之輩》影評進行分析

    這篇文章主要給大家介紹了關于利用Python榮國采集兩萬條貓眼數(shù)據(jù),對《無名之輩》影評進行分析的相關資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考借鑒,下面隨著小編來一起學習學習吧
    2018-12-12
  • python遠程郵件控制電腦升級版

    python遠程郵件控制電腦升級版

    這篇文章主要為大家詳細介紹了python3.4遠程控制電腦開關機,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-05-05
  • Python獲取指定文件夾下的文件名的方法

    Python獲取指定文件夾下的文件名的方法

    本篇文章主要介紹了Python獲取指定文件夾下的文件名的方法,本文采用os.walk()和os.listdir()兩種方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-02-02
  • Python 使用type來定義類的實現(xiàn)

    Python 使用type來定義類的實現(xiàn)

    今天小編就為大家分享一篇Python 使用type來定義類的實現(xiàn),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-11-11
  • python實現(xiàn)selenium網(wǎng)絡爬蟲的方法小結

    python實現(xiàn)selenium網(wǎng)絡爬蟲的方法小結

    這篇文章主要介紹了python實現(xiàn)selenium網(wǎng)絡爬蟲的方法小結,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-03-03
  • python導入其它py文件的實現(xiàn)步驟

    python導入其它py文件的實現(xiàn)步驟

    本文主要介紹了python導入其它py文件的實現(xiàn)步驟,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2024-02-02
  • Pandas繪圖函數(shù)超詳細講解

    Pandas繪圖函數(shù)超詳細講解

    matplotlib要組裝一張圖表,需要的各個基礎組件對象。相對工作量較大,但在pandas中我們有行標簽和列標簽以及分組信息。原本制作一張圖表需要一大堆matplotlib代碼。在pandas中只需要一兩條代碼就可以了,今天記錄一下,pandas中常見的幾個繪制圖表的方法
    2022-12-12
  • python自動化測試之破解滑動驗證碼

    python自動化測試之破解滑動驗證碼

    這篇文章介紹了python自動化破解之破解滑動驗證碼的解決方案,文中通過示例代碼介紹的非常詳細。對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-07-07
  • PyTorch之torch.matmul函數(shù)的使用及說明

    PyTorch之torch.matmul函數(shù)的使用及說明

    PyTorch的torch.matmul是一個強大的矩陣乘法函數(shù),支持不同維度張量的乘法運算,包括廣播機制。提供了矩陣乘法的語法,參數(shù)說明,以及使用示例,幫助理解其應用方式和乘法規(guī)則
    2024-09-09
  • Python實現(xiàn)尋找回文數(shù)字過程解析

    Python實現(xiàn)尋找回文數(shù)字過程解析

    這篇文章主要介紹了Python實現(xiàn)尋找回文數(shù)字過程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-06-06

最新評論