快捷導(dǎo)航

淺談python爬蟲使用Selenium模擬瀏覽器行為

更新時(shí)間：2018年02月23日 10:51:59 作者：十月狐貍

這篇文章主要介紹了淺談python爬蟲使用Selenium模擬瀏覽器行為，小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧

前幾天有位微信讀者問我一個(gè)爬蟲的問題，就是在爬去百度貼吧首頁的熱門動(dòng)態(tài)下面的圖片的時(shí)候，爬取的圖片總是爬取不完整，比首頁看到的少。原因他也大概分析了下，就是后面的圖片是動(dòng)態(tài)加載的。他的問題就是這部分動(dòng)態(tài)加載的圖片該怎么爬取到。

分析

他的代碼比較簡單，主要有以下的步驟：使用BeautifulSoup庫，打開百度貼吧的首頁地址，再解析得到id為new_list標(biāo)簽底下的img標(biāo)簽，最后將img標(biāo)簽的圖片保存下來。

headers = {
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'
}

data=requests.get("https://tieba.baidu.com/index.html",headers=headers)
html=BeautifulSoup(data.text,'lxml')

前面提到過，有部分圖片是動(dòng)態(tài)加載的，那么首先我們得弄清楚，這部分圖片是怎么動(dòng)態(tài)加載的。在瀏覽器中打開百度貼吧的首頁，可以明顯的看到，在往下滾動(dòng)滾動(dòng)條的時(shí)候，當(dāng)滾動(dòng)到底部的時(shí)候，滾動(dòng)條縮短了，并向上移動(dòng)了一段距離。這個(gè)現(xiàn)象也正是有DOM元素動(dòng)態(tài)的添加到了html文檔的一個(gè)表現(xiàn)。動(dòng)態(tài)加載數(shù)據(jù)無非就是ajax請(qǐng)求，而ajax本質(zhì)上就是XMLHttpRequest請(qǐng)求(簡稱xhr)。在谷歌瀏覽器中，我們可以通過開發(fā)者工具的network面板來監(jiān)測xhr請(qǐng)求。

剛打開首頁時(shí)的xhr請(qǐng)求，這里的請(qǐng)求都和要爬取的圖片無關(guān)。

滾動(dòng)條向下第1次滾動(dòng)到底部，這里請(qǐng)求的是第20-40條熱門動(dòng)態(tài)，包含要爬取圖片。

滾動(dòng)條向下第2次滾動(dòng)到底部，這里請(qǐng)求的是第40-60條熱門動(dòng)態(tài)，包含要爬取圖片。并且返回的的has_more:false表明沒有跟多數(shù)據(jù)了。

滾動(dòng)條向下第3次滾動(dòng)到底部，再無xhr請(qǐng)求。

解決方案

根據(jù)上面的分析，我們已經(jīng)明白，單純使用BeautifulSoup進(jìn)行爬蟲的時(shí)候，只能爬取到1-20條熱門動(dòng)態(tài)里面的圖片。為了爬取到完整的熱門動(dòng)態(tài)里面的圖片，我們則需要模擬瀏覽器的滾動(dòng)條滾動(dòng)，讓網(wǎng)頁去觸發(fā)xhr請(qǐng)求更多的熱門動(dòng)態(tài)。

在python中，如果需要模擬瀏覽器的行為，可以使用selenium庫。selenium庫是一個(gè)自動(dòng)化測試框架，可以用來模擬測試瀏覽器的各種行為，這里我們使用它來模擬瀏覽器打開百度貼吧的首頁，并模擬滾動(dòng)條向下滾動(dòng)到底部的操作。

安裝

pip install selenium

下載瀏覽器驅(qū)動(dòng)

火狐瀏覽器驅(qū)動(dòng)，其下載地址是：https://github.com/mozilla/geckodriver/releases

谷歌瀏覽器驅(qū)動(dòng)，其下載地址是：http://chromedriver.storage.googleapis.com/index.html?path=2.33/

opera瀏覽器驅(qū)動(dòng)，其下載地址是：https://github.com/operasoftware/operachromiumdriver/releases

對(duì)照自己電腦安裝的瀏覽器和對(duì)應(yīng)的版本，分別從上面的地址下載驅(qū)動(dòng)文件，也可以從我的github項(xiàng)目中統(tǒng)一下載以上幾個(gè)驅(qū)動(dòng)(地址:https://github.com/Sesshoumaru/attachments/tree/master/Selenium%20WebDriver)。下載解壓后，將所在的目錄添加系統(tǒng)的環(huán)境變量中。當(dāng)然你也可以將下載下來的驅(qū)動(dòng)放到python安裝目錄的lib目錄中，因?yàn)樗旧硪呀?jīng)存在于環(huán)境變量（我就是這么干的）。

使用python代碼模擬瀏覽器行為

要使用selenium先需要定義一個(gè)具體browser對(duì)象，這里就定義的時(shí)候就看你電腦安裝的具體瀏覽器和安裝的哪個(gè)瀏覽器的驅(qū)動(dòng)。這里以火狐瀏覽器為例：

from selenium import webdriver
browser = webdriver.Firefox()

再模擬打開貼吧首頁：

browser.get(https://tieba.baidu.com/index.html)

再模擬滾動(dòng)條滾動(dòng)到底部

for i in range(1, 5):
 browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
 time.sleep(1)

最后再使用BeautifulSoup，解析圖片標(biāo)簽：

html = BeautifulSoup(browser.page_source, "lxml")
imgs = html.select("#new_list li img")

幾個(gè)注意點(diǎn)

必須安裝瀏覽器和瀏覽器驅(qū)動(dòng)，并且瀏覽器和瀏覽器驅(qū)動(dòng)要配到

即如果使用谷歌瀏覽器模擬網(wǎng)頁行為，則需要下載谷歌瀏覽器驅(qū)動(dòng)；
如果使用火狐瀏覽器模擬網(wǎng)頁行為，則需要下載火狐瀏覽器驅(qū)動(dòng)

瀏覽器驅(qū)動(dòng)所在的目錄要在環(huán)境變量中，或者定義瀏覽器browser的時(shí)候指定驅(qū)動(dòng)的路徑

selenium更多用法

查找元素

from selenium import webdriver

browser = webdriver.Firefox()
browser.get("https://tieba.baidu.com/index.html")

new_list = browser.find_element_by_id('new_list')
user_name = browser.find_element_by_name ('user_name')
active = browser.find_element_by_class_name ('active')
p = browser.find_element_by_tag_name ('p')

# find_element_by_name 通過name查找單個(gè)元素
# find_element_by_xpath 通過xpath查找單個(gè)元素
# find_element_by_link_text 通過鏈接查找單個(gè)元素
# find_element_by_partial_link_text 通過部分鏈接查找單個(gè)元素
# find_element_by_tag_name 通過標(biāo)簽名稱查找單個(gè)元素
# find_element_by_class_name 通過類名查找單個(gè)元素
# find_element_by_css_selector 通過css選擇武器查找單個(gè)元素
# find_elements_by_name 通過name查找多個(gè)元素
# find_elements_by_xpath 通過xpath查找多個(gè)元素
# find_elements_by_link_text 通過鏈接查找多個(gè)元素
# find_elements_by_partial_link_text 通過部分鏈接查找多個(gè)元素
# find_elements_by_tag_name 通過標(biāo)簽名稱查找多個(gè)元素
# find_elements_by_class_name 通過類名查找多個(gè)元素
# find_elements_by_css_selector 通過css選擇武器查找多個(gè)元素

獲取元素信息

btn_more = browser.find_element_by_id('btn_more')
print(btn_more.get_attribute('class')) # 獲取屬性
print(btn_more.get_attribute('href')) # 獲取屬性
print(btn_more.text) # 獲取文本值

元素交互操作

btn_more = browser.find_element_by_id('btn_more')
btn_more.click() # 模擬點(diǎn)擊,可以模擬點(diǎn)擊加載更多

input_search = browser.find_element(By.ID,'q')
input_search.clear() # 清空輸入

執(zhí)行JavaScript

# 執(zhí)行JavaScript腳本
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

以上就是本文的全部內(nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

淺談python爬蟲使用Selenium模擬瀏覽器行為

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具