用Python程序抓取網(wǎng)頁的HTML信息的一個(gè)小實(shí)例
抓取網(wǎng)頁數(shù)據(jù)的思路有好多種,一般有:直接代碼請(qǐng)求http、模擬瀏覽器請(qǐng)求數(shù)據(jù)(通常需要登錄驗(yàn)證)、控制瀏覽器實(shí)現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況,放一個(gè)讀取簡(jiǎn)單網(wǎng)頁數(shù)據(jù)的小例子:
目標(biāo)數(shù)據(jù)
將ittf網(wǎng)站上這個(gè)頁面上所有這些選手的超鏈接保存下來。
數(shù)據(jù)請(qǐng)求
真的很喜歡符合人類思維的庫,比如requests,如果是要直接拿網(wǎng)頁文本,一句話搞定:
doc = requests.get(url).text
解析html獲得數(shù)據(jù)
以beautifulsoup為例,包含獲取標(biāo)簽、鏈接,以及根據(jù)html層次結(jié)構(gòu)遍歷等方法。參考見這里。下面這個(gè)片段,從ittf網(wǎng)站上獲取指定頁面上指定位置的鏈接。
url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page) doc = requests.get(url).text soup = BeautifulSoup(doc) atags = soup.find_all('a') rank_link_pre = 'http://www.ittf.com/ittf_ranking/' mlfile = open(linkfile,'a') for atag in atags: #print atag if atag!=None and atag.get('href') != None: if "WR_Table_3_A2_Details.asp" in atag['href']: link = rank_link_pre + atag['href'] links.append(link) mlfile.write(link+'\n') print 'fetch link: '+link mlfile.close()
- Python如何使用BeautifulSoup爬取網(wǎng)頁信息
- Python使用正則表達(dá)式獲取網(wǎng)頁中所需要的信息
- Python爬蟲實(shí)現(xiàn)網(wǎng)頁信息抓取功能示例【URL與正則模塊】
- 在Python中使用cookielib和urllib2配合PyQuery抓取網(wǎng)頁信息
- python使用BeautifulSoup分析網(wǎng)頁信息的方法
- python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)
- python如何爬取動(dòng)態(tài)網(wǎng)站
- python 爬取B站原視頻的實(shí)例代碼
- Python爬取網(wǎng)頁信息的示例
相關(guān)文章
Python中使用pprint函數(shù)進(jìn)行格式化輸出的教程
這篇文章主要介紹了Python中使用pprint函數(shù)進(jìn)行格式化輸出的教程,包括能夠控制輸出寬度等非常有用的特性,需要的朋友可以參考下2015-04-04Pandas操作CSV文件的讀寫實(shí)現(xiàn)方法
這篇文章主要介紹了Pandas操作CSV文件的讀寫實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-11-11pytorch和tensorflow計(jì)算Flops和params的詳細(xì)過程
這篇文章主要介紹了pytorch和tensorflow計(jì)算Flops和params,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-08-08如何利用PyQt5制作一個(gè)簡(jiǎn)單的登錄界面
初學(xué)者制作登錄界面時(shí)常遇到網(wǎng)上代碼看不懂、不會(huì)用、用不了的問題,下面這篇文章主要給大家介紹了關(guān)于如何利用PyQt5制作一個(gè)簡(jiǎn)單的登錄界面,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-06-06詳解Numpy中的數(shù)組拼接、合并操作(concatenate, append, stack, hstack, vstac
這篇文章主要介紹了詳解Numpy中的數(shù)組拼接、合并操作(concatenate, append, stack, hstack, vstack, r_, c_等),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-05-05Python 面向?qū)ο箪o態(tài)方法、類方法、屬性方法知識(shí)點(diǎn)小結(jié)
這篇文章主要介紹了Python 面向?qū)ο箪o態(tài)方法、類方法、屬性方法,總結(jié)分析了Python 面向?qū)ο蟪绦蛟O(shè)計(jì)中靜態(tài)方法、類方法、屬性方法相關(guān)概念、知識(shí)點(diǎn)、操作技巧與使用注意事項(xiàng),需要的朋友可以參考下2020-03-03使用Python快速實(shí)現(xiàn)文件共享并通過內(nèi)網(wǎng)穿透技術(shù)公網(wǎng)訪問
數(shù)據(jù)共享作為和連接作為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用,不僅在商業(yè)和辦公場(chǎng)景有廣泛的應(yīng)用,對(duì)于個(gè)人用戶也有很強(qiáng)的實(shí)用意義,今天,筆者就為大家介紹,如何使用python這樣的簡(jiǎn)單程序語言,在自己的電腦上搭建一個(gè)共享文件服務(wù)器,需要的朋友可以參考下2023-10-10簡(jiǎn)單實(shí)現(xiàn)Python爬取網(wǎng)絡(luò)圖片
這篇文章主要教大家如何簡(jiǎn)單實(shí)現(xiàn)Python爬取網(wǎng)絡(luò)圖片,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-04-04