快捷導(dǎo)航

python數(shù)據(jù)抓取3種方法總結(jié)

更新時(shí)間：2021年02月07日 12:16:01 作者：呵呵樣

這篇文章主要給大家介紹了關(guān)于python數(shù)據(jù)抓取的3種方法，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

三種數(shù)據(jù)抓取的方法

正則表達(dá)式（re庫）
BeautifulSoup（bs4）
lxml

*利用之前構(gòu)建的下載網(wǎng)頁函數(shù)，獲取目標(biāo)網(wǎng)頁的html，我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例，獲取html。

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

*假設(shè)我們需要爬取該網(wǎng)頁中的國家名稱和概況，我們依次使用這三種數(shù)據(jù)抓取的方法實(shí)現(xiàn)數(shù)據(jù)抓取。

1.正則表達(dá)式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p>　　(.*?)</p>', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)

2.BeautifulSoup（bs4）

from get_html import download
from bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
html = download(url)
#創(chuàng)建 beautifulsoup 對(duì)象
soup = BeautifulSoup(html,"html.parser")
#搜索
country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).text
print(country,survey_info)

3.lxml

from get_html import download
from lxml import etree #解析樹

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
selector = etree.HTML(page_content)#可進(jìn)行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
 print(country.text)
survey_select = selector.xpath('//*[@id="wzneirong"]/p')
for survey_content in survey_select:
 print(survey_content.text,end='')

運(yùn)行結(jié)果：

最后，引用《用python寫網(wǎng)絡(luò)爬蟲》中對(duì)三種方法的性能對(duì)比，如下圖：

僅供參考。

總結(jié)

到此這篇關(guān)于python數(shù)據(jù)抓取3種方法的文章就介紹到這了,更多相關(guān)python數(shù)據(jù)抓取內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

python實(shí)現(xiàn)高斯投影正反算方式
今天小編就為大家分享一篇python實(shí)現(xiàn)高斯投影正反算方式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2020-01-01
python操作攝像頭截圖實(shí)現(xiàn)遠(yuǎn)程監(jiān)控的例子
這篇文章主要介紹了python操作攝像頭截圖實(shí)現(xiàn)遠(yuǎn)程監(jiān)控的例子,例子中包含了控制攝像頭、寫入Windows注冊(cè)表方法等,需要的朋友可以參考下
2014-03-03
Python一鍵生成核酸檢測(cè)日歷的操作代碼
這篇文章主要介紹了Python一鍵生成核酸檢測(cè)日歷,本文以深圳為例，結(jié)合實(shí)例代碼給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2022-09-09
python?3.10上如何安裝pyqt5
這篇文章主要介紹了python?3.9上安裝pyqt5的詳細(xì)步驟，本文分步驟給大家介紹如何在python?3.9?上安裝?pyqt5,需要的朋友可以參考下
2022-07-07
python中print的不換行即時(shí)輸出的快速解決方法
下面小編就為大家?guī)硪黄猵ython中print的不換行即時(shí)輸出的快速解決方法。小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考
2016-07-07
Python logging模塊進(jìn)行封裝實(shí)現(xiàn)原理解析
這篇文章主要介紹了Python logging模塊進(jìn)行封裝實(shí)現(xiàn)原理解析,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-08-08
Pandas實(shí)現(xiàn)一列數(shù)據(jù)分隔為兩列
這篇文章主要介紹了Pandas實(shí)現(xiàn)一列數(shù)據(jù)分隔為兩列，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
Python更新數(shù)據(jù)庫腳本兩種方法及對(duì)比介紹
這篇文章給大家介紹了Python更新數(shù)據(jù)庫腳本兩種方法及數(shù)據(jù)庫查詢?nèi)N方式，然后在文章下面給大家介紹了兩種方式對(duì)比介紹，非常不錯(cuò)，感興趣的朋友參考下吧
2017-07-07
python實(shí)現(xiàn)計(jì)算資源圖標(biāo)crc值的方法
這篇文章主要介紹了python實(shí)現(xiàn)計(jì)算資源圖標(biāo)crc值的方法,通過解析資源文件找到icon的數(shù)據(jù),從而實(shí)現(xiàn)該功能,需要的朋友可以參考下
2014-10-10
Python全景系列之模塊與包全面解讀
這篇文章將帶大家深入探討Python模塊與包的基本概念，使用方法以及其在實(shí)際項(xiàng)目中的應(yīng)用，同時(shí)也會(huì)揭示一些鮮為人知，卻又實(shí)用的技術(shù)細(xì)節(jié)
2023-05-05