快捷導(dǎo)航

urllib和BeautifulSoup爬取維基百科的詞條簡單實(shí)例

更新時(shí)間：2018年01月17日 14:08:41 作者：powerpoint_2016

這篇文章主要介紹了urllib和BeautifulSoup爬取維基百科的詞條簡單實(shí)例，具有一定借鑒價(jià)值,需要的朋友可以參考下

本文實(shí)例主要實(shí)現(xiàn)的是使用urllib和BeautifulSoup爬取維基百科的詞條，具體如下。

簡潔代碼：

#引入開發(fā)包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#請求URL并把結(jié)果用UTF-8編碼
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#獲取所有以/wiki/開頭的a標(biāo)簽的href屬性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#輸出所有詞條對應(yīng)的名稱和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

運(yùn)行結(jié)果：

總結(jié)

總的來說，Python是簡潔而又強(qiáng)大的，調(diào)用幾個(gè)庫，就能實(shí)現(xiàn)其他語言一大堆代碼才能實(shí)現(xiàn)的功能。

以上就是本文關(guān)于urllib和BeautifulSoup爬取維基百科的詞條簡單實(shí)例的全部內(nèi)容，希望對大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關(guān)專題，如有不足之處，歡迎留言指出。感謝朋友們對本站的支持！

您可能感興趣的文章:

相關(guān)文章

django中使用事務(wù)及接入支付寶支付功能
這篇文章主要介紹了django中使用事務(wù)以及接入支付寶支付功能,本文通過實(shí)例代碼給大家介紹的非常詳細(xì)，具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2019-09-09
Python3如何對urllib和urllib2進(jìn)行重構(gòu)
這篇文章主要介紹了Python3如何對urllib和urllib2進(jìn)行重構(gòu),文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-11-11
Python爬蟲框架Scrapy常用命令總結(jié)
這篇文章主要介紹了Python爬蟲框架Scrapy常用命令,結(jié)合實(shí)例形式總結(jié)分析了Scrapy框架中常見的全局命令與項(xiàng)目命令功能、使用方法及操作注意事項(xiàng),需要的朋友可以參考下
2018-07-07
使用Pandas的Series方法繪制圖像教程
今天小編就為大家分享一篇使用Pandas的Series方法繪制圖像教程，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12
詳解model.train()和model.eval()兩種模式的原理與用法
這篇文章主要介紹了詳解model.train()和model.eval()兩種模式的原理與用法,相信很多沒有經(jīng)驗(yàn)的人對此束手無策,那么看完這篇文章一定會(huì)對你有所幫助
2023-03-03
Python報(bào)錯(cuò):對象不存在此屬性的解決
這篇文章主要介紹了Python報(bào)錯(cuò):對象不存在此屬性的解決方案，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2023-05-05
python中copy和deepcopy的使用區(qū)別
本文主要介紹了python中copy和deepcopy的使用區(qū)別,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2024-04-04
python實(shí)現(xiàn)回旋矩陣方式(旋轉(zhuǎn)矩陣)
今天小編就為大家分享一篇python實(shí)現(xiàn)回旋矩陣方式(旋轉(zhuǎn)矩陣)，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12
使用python自動(dòng)辦公的實(shí)例代碼
os模塊基本來說就是處理文件個(gè)一個(gè)模塊，或者說接口，說白了就是處理文件。這篇文章主要介紹了python自動(dòng)辦公的實(shí)現(xiàn)代碼，代碼簡單易懂,需要的朋友可以參考下
2021-11-11
pycharm配置python環(huán)境的詳細(xì)圖文教程
PyCharm是一款功能強(qiáng)大的Python編輯器,具有跨平臺(tái)性,下面這篇文章主要給大家介紹了關(guān)于pycharm配置python環(huán)境的詳細(xì)圖文教程,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下
2023-01-01