urllib和BeautifulSoup爬取維基百科的詞條簡單實例
本文實例主要實現(xiàn)的是使用urllib和BeautifulSoup爬取維基百科的詞條,具體如下。
簡潔代碼:
#引入開發(fā)包 from urllib.request import urlopen from bs4 import BeautifulSoup import re #請求URL并把結(jié)果用UTF-8編碼 resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8") #使用BeautifulSoup去解析 soup=BeautifulSoup(resp,"html.parser") #print(soup) #獲取所有以/wiki/開頭的a標(biāo)簽的href屬性 listUrl=soup.findAll("a",href=re.compile("^/wiki/")) #輸出所有詞條對應(yīng)的名稱和URL for link in listUrl: if not re.search("\.(jpg|JPG)$",link["href"]): print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])
運行結(jié)果:
總結(jié)
總的來說,Python是簡潔而又強(qiáng)大的,調(diào)用幾個庫,就能實現(xiàn)其他語言一大堆代碼才能實現(xiàn)的功能。
以上就是本文關(guān)于urllib和BeautifulSoup爬取維基百科的詞條簡單實例的全部內(nèi)容,希望對大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關(guān)專題,如有不足之處,歡迎留言指出。感謝朋友們對本站的支持!
相關(guān)文章
Python3如何對urllib和urllib2進(jìn)行重構(gòu)
這篇文章主要介紹了Python3如何對urllib和urllib2進(jìn)行重構(gòu),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-11-11詳解model.train()和model.eval()兩種模式的原理與用法
這篇文章主要介紹了詳解model.train()和model.eval()兩種模式的原理與用法,相信很多沒有經(jīng)驗的人對此束手無策,那么看完這篇文章一定會對你有所幫助2023-03-03python實現(xiàn)回旋矩陣方式(旋轉(zhuǎn)矩陣)
今天小編就為大家分享一篇python實現(xiàn)回旋矩陣方式(旋轉(zhuǎn)矩陣),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12pycharm配置python環(huán)境的詳細(xì)圖文教程
PyCharm是一款功能強(qiáng)大的Python編輯器,具有跨平臺性,下面這篇文章主要給大家介紹了關(guān)于pycharm配置python環(huán)境的詳細(xì)圖文教程,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下2023-01-01