python使用selenium爬蟲知乎的方法示例
說起爬蟲一般想到的情況是,使用 python 中都通過 requests 庫獲取網(wǎng)頁內(nèi)容,然后通過 beautifulSoup 進行篩選文檔中的標簽和內(nèi)容。但是這樣有個問題就是,容易被反扒機制所攔住。
反扒機制有很多種,例如知乎:剛開始只加載幾個問題,當你往下滾動時才會繼續(xù)往下面加載,而且在往下滾動一段距離時就會出來一個登陸的彈框。
這樣的機制對于通過獲取服務器返回內(nèi)容的爬蟲方式進行了限制,我們只能獲得前幾個回答,而沒辦法或許后面的回答。
所以需要使用 selenium 模擬真實瀏覽器進行操作。
最終實現(xiàn)效果如下:
前提是需要自行搜索教程安裝:
- chromeDriver
- selenium 庫
想要使用下面代碼的可以直接修改 driver.get()
里的地址,然后爬取結(jié)果最終會存在message.txt
文件中
代碼如下:
from selenium import webdriver # 從selenium導入webdriver from selenium.webdriver.common.by import By # 內(nèi)置定位器策略集 from selenium.webdriver.support.wait import WebDriverWait # 用于實例化一個Driver的顯式等待 from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.action_chains import ActionChains import time option = webdriver.ChromeOptions() option.add_argument("headless") driver = webdriver.Chrome() # chrome_options=option 這個參數(shù)設置之后可以隱藏瀏覽器 driver.get('https://www.zhihu.com/question/22110581') #修改這里的地址 file = open("./messages.txt", "w") def waitFun(): js = """ let equalNum = 0; window.checkBottom = false; window.height = 0; window.intervalId = setInterval(()=>{ let currentHeight = document.body.scrollHeight; if(currentHeight === window.height){ equalNum++; if(equalNum === 2){ clearInterval(window.intervalId); window.checkBottom = true; } }else{ window.height = currentHeight; window.scrollTo(0,window.height); window.scrollTo(0,window.height-1000); } },1500)""" # 這個暫停一下是因為要等待頁面將下面的內(nèi)容加載出,這個 1500 可以根據(jù)自己的網(wǎng)絡快慢進行適當?shù)恼{(diào)節(jié) # 這里需要往上移動一下,因為不往上移動一下發(fā)現(xiàn)不會加載。 driver.execute_script(js) # selenium 可以獲取 瀏覽器中 js 的變量。調(diào)用的js return def getHeight(nice): # 這里獲取 js 中的 checkBottom 變量,作為到底部時進行停止。 js = """ return window.checkBottom; """ return driver.execute_script(js) try: # 先觸發(fā)登陸彈窗。 WebDriverWait(driver, 40, 1).until(EC.presence_of_all_elements_located( (By.CLASS_NAME, 'Modal-backdrop')), waitFun()) # 點擊空白關(guān)閉登陸窗口 ActionChains(driver).move_by_offset(200, 100).click().perform() # 當滾動到底部時 WebDriverWait(driver, 40, 3).until(getHeight, waitFun()) # 獲取回答 answerElementArr = driver.find_elements_by_css_selector('.RichContent-inner') for answer in answerElementArr: file.write('==================================================================================') file.write('\n') file.write(answer.text) file.write('\n') print('爬取成功 '+ str(len(answerElementArr)) +' 條,存入到 message.txt 文件內(nèi)') finally: driver.close() #close the driver
這套代碼實現(xiàn)了打開知乎,然后自動向下滑動,當彈出登陸框時,自動點擊左上角關(guān)閉登陸框。然后繼續(xù)向下滑動,加載頁面,直到滑動到底部。然后將內(nèi)容寫在 message.txt 文件里面。
selenium 功能非常強大, 可以模擬人為在瀏覽器的操作,進行輸入、點擊、滑動、播放、暫停等等操作,因此也可以用來寫一些腳本,用來刷學時,搶課等等。
到此這篇關(guān)于python使用selenium爬蟲知乎的方法示例的文章就介紹到這了,更多相關(guān)python selenium爬蟲知乎內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python使用asyncio包實現(xiàn)異步編程方式
這篇文章主要介紹了Python使用asyncio包實現(xiàn)異步編程方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-06-06Python中__repr__和__str__區(qū)別詳解
這篇文章主要介紹了Python中__repr__和__str__區(qū)別詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-11-11python實現(xiàn)決策樹C4.5算法詳解(在ID3基礎上改進)
下面小編就為大家?guī)硪黄猵ython實現(xiàn)決策樹C4.5算法詳解(在ID3基礎上改進)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-05-05Django Session和Cookie分別實現(xiàn)記住用戶登錄狀態(tài)操作
這篇文章主要介紹了Django Session和Cookie分別實現(xiàn)記住用戶登錄狀態(tài)操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-07-07用python + openpyxl處理excel2007文檔思路以及心得
最近要幫做RA的老姐寫個合并excel工作表的腳本……源數(shù)據(jù)是4000+個excel 工作表,分布在9個xlsm文件里,文件內(nèi)容是中英文混雜的一些數(shù)據(jù),需要從每張表中提取需要的部分,分門別類合并到多個大的表里。2014-07-07