Python通過BeautifulSoup抓取網(wǎng)頁數(shù)據(jù)并解析
技術(shù)棧介紹
本教程使用了以下幾個關(guān)鍵技術(shù):
- asyncio:Python的異步I/O框架,用于高效處理網(wǎng)絡(luò)請求
- crawl4ai:一個異步網(wǎng)頁爬蟲庫
- BeautifulSoup:流行的HTML解析庫
完整代碼解析
import asyncio
from crawl4ai import AsyncWebCrawler
from bs4 import BeautifulSoup
async def extract_div_text(html_content):
"""
從HTML內(nèi)容中提取特定樣式的div文本
參數(shù):
html_content: 網(wǎng)頁的HTML內(nèi)容
返回:
提取到的文本內(nèi)容或未找到的提示信息
"""
soup = BeautifulSoup(html_content, 'html.parser')
# 查找目標(biāo) div(根據(jù) style 屬性匹配)
target_div = soup.find('div', style=lambda
value: value and 'cursor: default;font-size: 16px;line-height: 1.8;padding: 0 19px 25px' in value)
if target_div:
# 獲取 div 內(nèi)的所有文本,并清理空白
text = target_div.get_text(separator='\n', strip=True)
return text
return "目標(biāo) div 未找到"
async def main():
"""
主函數(shù),執(zhí)行網(wǎng)頁抓取和內(nèi)容提取
"""
async with AsyncWebCrawler() as crawler:
# 抓取目標(biāo)網(wǎng)頁
result = await crawler.arun("https://www.jjwxc.net/onebook.php?novelid=2490683&chapterid=2")
if hasattr(result, 'html'):
# 提取目標(biāo)div中的文本
extracted_text = await extract_div_text(result.html)
print(extracted_text) # 打印全部字符
else:
print("未能獲取 HTML 內(nèi)容")
if __name__ == "__main__":
# 運行異步主函數(shù)
asyncio.run(main())代碼分步講解
1. 導(dǎo)入必要的庫
import asyncio from crawl4ai import AsyncWebCrawler from bs4 import BeautifulSoup
asyncio:Python的異步I/O框架AsyncWebCrawler:來自crawl4ai的異步網(wǎng)頁爬蟲BeautifulSoup:HTML解析庫
2. 定義提取函數(shù)
async def extract_div_text(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
target_div = soup.find('div', style=lambda
value: value and 'cursor: default;font-size: 16px;line-height: 1.8;padding: 0 19px 25px' in value)
# ...其余代碼...這個函數(shù)負責(zé):
- 使用BeautifulSoup解析HTML
- 通過lambda函數(shù)查找具有特定style屬性的div元素
- 提取并清理div中的文本內(nèi)容
3. 主函數(shù)
async def main():
async with AsyncWebCrawler() as crawler:
result = await crawler.arun("目標(biāo)URL")
# ...處理結(jié)果...主函數(shù)使用異步上下文管理器創(chuàng)建爬蟲實例,并抓取目標(biāo)網(wǎng)頁。
技術(shù)要點
異步編程:使用async/await語法提高爬蟲效率
精確選擇器:通過style屬性的部分匹配定位目標(biāo)元素
文本清理:使用get_text()方法提取干凈文本
應(yīng)用場景
這種技術(shù)可用于:
- 網(wǎng)絡(luò)小說內(nèi)容抓取
- 新聞文章提取
- 任何需要從特定HTML元素中提取文本的場景
注意事項
遵守目標(biāo)網(wǎng)站的robots.txt規(guī)則
設(shè)置適當(dāng)?shù)恼埱箝g隔避免被封禁
處理可能的異常情況(網(wǎng)絡(luò)錯誤、元素不存在等)
總結(jié)
本文展示了如何使用Python異步爬蟲高效抓取網(wǎng)頁并提取特定內(nèi)容。異步編程可以顯著提高爬蟲效率,而BeautifulSoup提供了靈活的HTML解析能力。你可以根據(jù)需要修改選擇器邏輯來適應(yīng)不同的網(wǎng)頁結(jié)構(gòu)。
到此這篇關(guān)于Python通過BeautifulSoup抓取網(wǎng)頁數(shù)據(jù)并解析的文章就介紹到這了,更多相關(guān)Python BeautifulSoup網(wǎng)頁內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python使用BeautifulSoup提取網(wǎng)頁數(shù)據(jù)的完整指南
- Python使用BeautifulSoup和Scrapy抓取網(wǎng)頁數(shù)據(jù)的具體教程
- Python使用BeautifulSoup抓取和解析網(wǎng)頁數(shù)據(jù)的操作方法
- Python利用BeautifulSoup解析網(wǎng)頁內(nèi)容
- Python爬蟲之使用BeautifulSoup和Requests抓取網(wǎng)頁數(shù)據(jù)
- Python如何使用BeautifulSoup爬取網(wǎng)頁信息
- python基于BeautifulSoup實現(xiàn)抓取網(wǎng)頁指定內(nèi)容的方法
相關(guān)文章
Python數(shù)據(jù)分析之?Matplotlib?餅圖繪制
這篇文章主要介紹了Python數(shù)據(jù)分析之?Matplotlib?餅圖繪制,文章基于python的相關(guān)資料展開詳細的餅圖繪制,具有一定的參考價值,需要的小伙伴可以參考一下2022-05-05
Python3使用tracemalloc實現(xiàn)追蹤mmap內(nèi)存變化
這篇文章主要為大家詳細介紹了在Python3中如何使用tracemalloc實現(xiàn)追蹤mmap內(nèi)存變化,文中的示例代碼講解詳細,感興趣的可以了解一下2023-03-03
Python 利用郵件系統(tǒng)完成遠程控制電腦的實現(xiàn)(關(guān)機、重啟等)
這篇文章主要介紹了Python 利用郵件系統(tǒng)完成遠程控制電腦(關(guān)機、重啟等),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-11-11
python庫構(gòu)建之pyproject.toml配置文件詳解
pyproject.toml是Python項目標(biāo)準(zhǔn)化配置文件,由PEP?518引入,用于定義構(gòu)建系統(tǒng)、項目元數(shù)據(jù)和依賴管理,它替代了傳統(tǒng)的setup.cfg文件,通過指定構(gòu)建工具如setuptools或poetry,管理項目依賴,配置工具行為等,需要的朋友可以參考下2024-09-09
Python實現(xiàn)多項式擬合正弦函數(shù)詳情
這篇文章主要介紹了Python實現(xiàn)多項式擬合正弦函數(shù)詳情,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下2022-08-08

