Selenium結合BeautifulSoup4編寫簡單的python爬蟲

更新時間：2020年11月06日 16:09:13 作者：韓志超

這篇文章主要介紹了Selenium結合BeautifulSoup4編寫簡單的python爬蟲，幫助大家更好的理解和學習python 爬蟲的相關知識，感興趣的朋友可以了解下

在學會了抓包，接口請求(如requests庫）和Selenium的一些操作方法后，基本上就可以編寫爬蟲，爬取絕大多數網站的內容。

在爬蟲領域，Selenium永遠是最后一道防線。從本質上來說，訪問網頁實際上就是一個接口請求。請求url后，返回的是網頁的源代碼。

我們只需要解析html或者通過正則匹配提取出我們需要的數據即可。

有些網站我們可以使用requests.get(url)，得到的響應文本中獲取到所有的數據。而有些網頁數據是通過JS動態(tài)加載到頁面中的。使用requests獲取不到或者只能獲取到一部分數據。
此時我們就可以使用selenium打開頁面來，使用driver.page_source來獲取JS執(zhí)行完后的完整源代碼。

例如，我們要爬取，diro官網女包的名稱，價格，url,圖片等數據，可以使用requests先獲取到網頁源代碼：
訪問網頁，打開開發(fā)者工具，我們可以看到所有的商品都在一個

標簽里，展開這個li標簽，我們可找到商品名稱，價格，url，圖片鏈接等信息

從html格式的源碼中提取數據，有多種選擇，可以使用xml.etree等等方式，bs4是一個比較方便易用的html解析庫，配合lxml解析速度比較快。

bs4的使用方法為

from bs4 import BeautifulSoup

soup = BeautifulSoup(網頁源代碼字符串,'lxml')

soup.find(...).find(...)
soup.findall()
soup.select('css selector語法')

soup.find()可以通過節(jié)點屬性進行查找，如，soup.find('div', id='節(jié)點id')或soup.find('li', class_='某個類名')或soup.find('標簽名', 屬性=屬性值)，當找到一個節(jié)點后，還可以使用這個節(jié)點繼續(xù)在其子節(jié)點中查找。
soup.find_all()是查找多個，同樣屬性的節(jié)點，返回一個列表。
soup.select()是使用css selector語法查找，返回一個列表。

以下為示例代碼：

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome()
driver.get('https://www.dior.cn/zh_cn/女士精品/皮具系列/所有手提包')
soup = BeautifulSoup(driver.page_source, 'lxml')

products = soup.select('li.is-product')
for product in products:
 name = product.find('span', class_='product-title').text.strip()
 price = product.find('span', class_='price-line').text.replace('￥', '').replace(',','')
 url = 'https://www.dior.cn' + product.find('a', class_='product-link').attrs['href']
 img = product.find('img').attrs['src']
 sku = img.split('/')[-1]
 print(name, sku, price)

driver.quit()

運行結果，如下圖：