python爬蟲之異常捕獲及標簽過濾詳解
增加異常捕獲,更容易現(xiàn)問題的解決方向
import ssl import urllib.request from bs4 import BeautifulSoup from urllib.error import HTTPError, URLError def get_data(url): headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36" } ssl._create_default_https_context = ssl._create_unverified_context """ urlopen處增加兩個異常捕獲: 1、如果頁面出現(xiàn)錯誤或者服務器不存在時,會拋HTTP錯誤代碼 2、如果url寫錯了或者是鏈接打不開時,會拋URLError錯誤 """ try: url_obj = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(url_obj) html = response.read().decode('utf8') except (HTTPError, URLError)as e: raise e """ BeautifulSoup處增加異常捕獲是因為BeautifulSoup對象中有時候標簽實際不存在時,會返回None值; 因為不知道,所以調用了就會導致拋出AttributeError: 'NoneType' object has no xxxxxxx。 """ try: bs = BeautifulSoup(html, "html.parser") results = bs.body except AttributeError as e: return None return results if __name__ == '__main__': print(get_data("https://movie.douban.com/chart"))
解析html,更好的實現(xiàn)數(shù)據(jù)展示效果
- get_text():獲取文本信息
# 此處代碼同上面打開url代碼一致,故此處省略...... html = response.read().decode('utf8') bs = BeautifulSoup(html, "html.parser") data = bs.find('span', {'class': 'pl'}) print(f'電影評價數(shù):{data}') print(f'電影評價數(shù):{data.get_text()}')
運行后的結果顯示如下:
電影評價數(shù):<span class="pl">(38054人評價)</span> 電影評價數(shù):(38054人評價)
- find() 方法是過濾HTML標簽,查找需要的單個標簽
實際find方法封裝是調用了正則find_all方法,把find_all中的limt參數(shù)傳1,獲取單個標簽
1.name:可直接理解為標簽元素
2.attrs:字典格式,放屬性和屬性值 {"class": "indent"}
3.recursive:遞歸參數(shù),布爾值,為真時遞歸查詢子標簽
4.text:標簽的文本內容匹配 , 是標簽的文本,標簽的文本
- find_all() 方法是過濾HTML標簽,查找需要的標簽組
使用方法適合find一樣的,無非就是多了個limit參數(shù)(篩選數(shù)據(jù))
必須注意的小知識點:
# 下面兩種寫法,實際是一樣的功能,都是查詢id為text的屬性值 bs.find_all(id="text") bs.find_all(' ', {"id": "text"})
# 如果是class的就不能class="x x x"了,因為class是python中類的關鍵字 bs.find_all(class_="text") bs.find_all(' ', {"class": "text"})
到此這篇關于python爬蟲之異常捕獲及標簽過濾詳解的文章就介紹到這了,更多相關python異常捕獲及標簽過濾內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
python消費kafka數(shù)據(jù)批量插入到es的方法
今天小編就為大家分享一篇python消費kafka數(shù)據(jù)批量插入到es的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12使用Python和Pygame輕松實現(xiàn)播放音頻播放器
在這個數(shù)字化時代,音頻和音樂已成為我們日常生活的一部分,不管是為了放松、學習還是工作,一個好的音樂播放器總是必不可少的,所以本文給大家介紹了用Python和Pygame制作自己的音頻播放器,感興趣的朋友可以參考下2024-01-01使用python搭建服務器并實現(xiàn)Android端與之通信的方法
今天小編就為大家分享一篇使用python搭建服務器并實現(xiàn)Android端與之通信的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06python讀寫excel數(shù)據(jù)--pandas詳解
這篇文章主要為大家詳細介紹了python操作EXCEL讀數(shù)據(jù)、寫數(shù)據(jù)的實例源碼,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-09-09