Python爬蟲實(shí)現(xiàn)(偽)球迷速成
還有4天就世界杯了,作為一個(gè)資深(偽)球迷,必須要實(shí)時(shí)關(guān)注世界杯相關(guān)新聞,了解各個(gè)球隊(duì)動(dòng)態(tài),這樣才能在一堆球迷中如(大)魚(吹)得(特)水(吹),迎接大家仰慕的目光!
給大家分享一個(gè)快速了解相關(guān)信息的辦法:刷論壇!我們來一起做個(gè)虎撲論壇的爬蟲吧!
抓包獲取虎撲論壇相關(guān)帖子內(nèi)容,逐條顯示!
先來觀察下網(wǎng)頁(yè),打開論壇首頁(yè),選擇國(guó)際足球
然后往下拉,找到世界杯相關(guān)內(nèi)容
這里就是我們的目標(biāo)了,所有相關(guān)的新聞都會(huì)在這里顯示,用F12打開“開發(fā)者工具”然后往下瀏覽看看數(shù)據(jù)包
注意箭頭指向的那幾個(gè)地方!
這就是剛才瀏覽的新聞所在的json包,來看看具體數(shù)據(jù)是什么
ok,標(biāo)題、地址、發(fā)布時(shí)間包括來源都已經(jīng)出現(xiàn)了!我們可以直接抓取json數(shù)據(jù)然后取出相關(guān)內(nèi)容!
再進(jìn)入具體新聞頁(yè)面看看
世界杯快到了,看我用Python爬蟲實(shí)現(xiàn)(偽)球迷速成!
所有的文本內(nèi)容,都在<div class="artical-main-content">
這個(gè)標(biāo)簽下的<p></p>標(biāo)簽內(nèi),我們可以用xpath直接取div下的所有文本內(nèi)容!
這里就不一 一說明了,直接上代碼,并錄個(gè)小的GIF圖片給大家看看效果
#Q群542110741 # -*- coding:utf-8 -*- import requests from lxml import etree header = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0', 'Host':'soccer.hupu.com', 'Referer':'https://soccer.hupu.com/'} i = 0 while 1: #構(gòu)建循環(huán)頁(yè)面翻頁(yè) url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page=' i += 1 #獲取json數(shù)據(jù),一頁(yè)20個(gè) html = requests.get(url+str(i),headers=header).json()['result'] for info in html: time_r = info['time']#發(fā)布時(shí)間 title = info['title']#標(biāo)題 url_r = info['url']#新聞鏈接 origin = info['origin']#來源 print(title) print('發(fā)布時(shí)間:',time_r,' '*5,'來自:',origin) head = header head['Host'] = 'voice.hupu.com'#更改header中Host參數(shù) html_r = requests.get(url_r,headers=head)#獲取新聞詳情 html_r.encoding = 'utf-8'#編碼格式指定 #獲取div下的所有文本 datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip() print('\n'+'內(nèi)容:'+'\n'*2,datas,'\n') #可由用戶手動(dòng)退出循環(huán) if input('任意鍵繼續(xù),“q”退出') in ['q', 'Q']: exit()
總結(jié)
以上所述是小編給大家介紹的Python爬蟲實(shí)現(xiàn)(偽)球迷速成,希望對(duì)大家有所幫助,如果大家有任何疑問歡迎給我留言,小編會(huì)及時(shí)回復(fù)大家的!
- Python爬蟲實(shí)例爬取網(wǎng)站搞笑段子
- Python3.4編程實(shí)現(xiàn)簡(jiǎn)單抓取爬蟲功能示例
- Python網(wǎng)絡(luò)爬蟲與信息提取(實(shí)例講解)
- python利用urllib實(shí)現(xiàn)爬取京東網(wǎng)站商品圖片的爬蟲實(shí)例
- python制作小說爬蟲實(shí)錄
- python爬蟲實(shí)戰(zhàn)之最簡(jiǎn)單的網(wǎng)頁(yè)爬蟲教程
- Python 爬蟲之超鏈接 url中含有中文出錯(cuò)及解決辦法
- Python實(shí)現(xiàn)的爬蟲功能代碼
- 基于python爬蟲數(shù)據(jù)處理(詳解)
- python爬蟲入門教程--HTML文本的解析庫(kù)BeautifulSoup(四)
- Python爬蟲之模擬知乎登錄的方法教程
- python爬蟲入門教程--優(yōu)雅的HTTP庫(kù)requests(二)
相關(guān)文章
詳解Python如何使用Self類型實(shí)現(xiàn)返回類的實(shí)例對(duì)象
在 Python 中,類方法通常會(huì)返回類的實(shí)例對(duì)象,本文將詳細(xì)介紹如何在 Python 中使用 Self 類型來返回類的實(shí)例對(duì)象,并提供豐富的示例代碼幫助更好地理解,快跟隨小編一起學(xué)習(xí)起來吧2024-02-02Tensorflow實(shí)現(xiàn)多GPU并行方式
今天小編就為大家分享一篇Tensorflow實(shí)現(xiàn)多GPU并行方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-02-02python?實(shí)現(xiàn)dcmtk關(guān)聯(lián)pacs功能推送下拉影像(推薦)
這篇文章主要介紹了python?實(shí)現(xiàn)dcmtk關(guān)聯(lián)pacs功能?推送下拉影像,包含dcmtk關(guān)聯(lián)pacs技術(shù)筆記等相關(guān)知識(shí),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-10-10python目標(biāo)檢測(cè)yolo2詳解及預(yù)測(cè)代碼復(fù)現(xiàn)
這篇文章主要為大家介紹了python目標(biāo)檢測(cè)yolo2詳解及其預(yù)測(cè)代碼復(fù)現(xiàn),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05Python訪問純真IP數(shù)據(jù)庫(kù)腳本分享
這篇文章主要介紹了Python訪問純真IP數(shù)據(jù)庫(kù)腳本分享,本文直接給出實(shí)現(xiàn)代碼,需要的朋友可以參考下2015-06-06Django 實(shí)現(xiàn)對(duì)已存在的model進(jìn)行更改
這篇文章主要介紹了Django 實(shí)現(xiàn)對(duì)已存在的model進(jìn)行更改,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-03-03Python3.4學(xué)習(xí)筆記之列表、數(shù)組操作示例
這篇文章主要介紹了Python3.4列表、數(shù)組操作,結(jié)合實(shí)例形式分析了Python3.4列表的創(chuàng)建、元素追加、刪除、排序等相關(guān)操作技巧,需要的朋友可以參考下2019-03-03python django框架中使用FastDFS分布式文件系統(tǒng)的安裝方法
這篇文章主要介紹了python-django框架中使用FastDFS分布式文件系統(tǒng)的安裝方法,本文圖文并茂給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值 ,需要的朋友可以參考下2019-06-06