亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python數(shù)據(jù)抓取3種方法總結(jié)

 更新時間:2021年02月07日 12:16:01   作者:呵呵樣  
這篇文章主要給大家介紹了關(guān)于python數(shù)據(jù)抓取的3種方法,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

三種數(shù)據(jù)抓取的方法

  • 正則表達式(re庫)
  • BeautifulSoup(bs4)
  • lxml

*利用之前構(gòu)建的下載網(wǎng)頁函數(shù),獲取目標(biāo)網(wǎng)頁的html,我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例,獲取html。

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

*假設(shè)我們需要爬取該網(wǎng)頁中的國家名稱和概況,我們依次使用這三種數(shù)據(jù)抓取的方法實現(xiàn)數(shù)據(jù)抓取。

1.正則表達式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p>  (.*?)</p>', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)

2.BeautifulSoup(bs4)

from get_html import download
from bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
html = download(url)
#創(chuàng)建 beautifulsoup 對象
soup = BeautifulSoup(html,"html.parser")
#搜索
country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).text
print(country,survey_info)

3.lxml

from get_html import download
from lxml import etree #解析樹

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
selector = etree.HTML(page_content)#可進行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
 print(country.text)
survey_select = selector.xpath('//*[@id="wzneirong"]/p')
for survey_content in survey_select:
 print(survey_content.text,end='')

運行結(jié)果:

最后,引用《用python寫網(wǎng)絡(luò)爬蟲》中對三種方法的性能對比,如下圖:

僅供參考。

總結(jié)

到此這篇關(guān)于python數(shù)據(jù)抓取3種方法的文章就介紹到這了,更多相關(guān)python數(shù)據(jù)抓取內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python實現(xiàn)高斯投影正反算方式

    python實現(xiàn)高斯投影正反算方式

    今天小編就為大家分享一篇python實現(xiàn)高斯投影正反算方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • python操作攝像頭截圖實現(xiàn)遠程監(jiān)控的例子

    python操作攝像頭截圖實現(xiàn)遠程監(jiān)控的例子

    這篇文章主要介紹了python操作攝像頭截圖實現(xiàn)遠程監(jiān)控的例子,例子中包含了控制攝像頭、寫入Windows注冊表方法等,需要的朋友可以參考下
    2014-03-03
  • Python一鍵生成核酸檢測日歷的操作代碼

    Python一鍵生成核酸檢測日歷的操作代碼

    這篇文章主要介紹了Python一鍵生成核酸檢測日歷,本文以深圳為例,結(jié)合實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-09-09
  • python?3.10上如何安裝pyqt5

    python?3.10上如何安裝pyqt5

    這篇文章主要介紹了python?3.9上安裝pyqt5的詳細步驟,本文分步驟給大家介紹如何在python?3.9?上安裝?pyqt5,需要的朋友可以參考下
    2022-07-07
  • python中print的不換行即時輸出的快速解決方法

    python中print的不換行即時輸出的快速解決方法

    下面小編就為大家?guī)硪黄猵ython中print的不換行即時輸出的快速解決方法。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考
    2016-07-07
  • Python logging模塊進行封裝實現(xiàn)原理解析

    Python logging模塊進行封裝實現(xiàn)原理解析

    這篇文章主要介紹了Python logging模塊進行封裝實現(xiàn)原理解析,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-08-08
  • Pandas實現(xiàn)一列數(shù)據(jù)分隔為兩列

    Pandas實現(xiàn)一列數(shù)據(jù)分隔為兩列

    這篇文章主要介紹了Pandas實現(xiàn)一列數(shù)據(jù)分隔為兩列,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • Python更新數(shù)據(jù)庫腳本兩種方法及對比介紹

    Python更新數(shù)據(jù)庫腳本兩種方法及對比介紹

    這篇文章給大家介紹了Python更新數(shù)據(jù)庫腳本兩種方法及數(shù)據(jù)庫查詢?nèi)N方式,然后在文章下面給大家介紹了兩種方式對比介紹,非常不錯,感興趣的朋友參考下吧
    2017-07-07
  • python實現(xiàn)計算資源圖標(biāo)crc值的方法

    python實現(xiàn)計算資源圖標(biāo)crc值的方法

    這篇文章主要介紹了python實現(xiàn)計算資源圖標(biāo)crc值的方法,通過解析資源文件找到icon的數(shù)據(jù),從而實現(xiàn)該功能,需要的朋友可以參考下
    2014-10-10
  • Python全景系列之模塊與包全面解讀

    Python全景系列之模塊與包全面解讀

    這篇文章將帶大家深入探討Python模塊與包的基本概念,使用方法以及其在實際項目中的應(yīng)用,同時也會揭示一些鮮為人知,卻又實用的技術(shù)細節(jié)
    2023-05-05

最新評論