Python實現(xiàn)的爬取網(wǎng)易動態(tài)評論操作示例
本文實例講述了Python實現(xiàn)的爬取網(wǎng)易動態(tài)評論操作。分享給大家供大家參考,具體如下:
打開網(wǎng)易的一條新聞的源代碼后,發(fā)現(xiàn)并沒有所要得評論內(nèi)容。
經(jīng)過學(xué)習(xí)后發(fā)現(xiàn),源代碼只是一個完整頁面的“骨架”,而我所需要的內(nèi)容是它的填充物,這時候需要打開工具里面的開發(fā)人員工具,從加載的“骨肉”里找到我所要的評論
圈住的是類型
找到之后打開網(wǎng)頁,發(fā)現(xiàn)json類型的格式,用我已學(xué)過的正則,bs都不好鬧,于是便去了解了正則,發(fā)現(xiàn)把json的格式換化成python的格式后,用列表提取內(nèi)容是一條明朗的道路。。。
但是在細(xì)致分析的時候也發(fā)現(xiàn)了問題
從這里獲得每條評論時,感覺有點(diǎn)不對,觀察發(fā)現(xiàn)如果是回復(fù)評論的評論會出現(xiàn)他回復(fù)那條評論的數(shù)據(jù),于是用正則提取了一下
最終的代碼如下:
#coding=utf-8 __author__ = 'kongmengfan123' import urllib import re import json import time def gethothtml(url):#最熱評論 page=urllib.urlopen(url) html=page.read() get_json(html) def gethnewtml():#最新評論有5頁 for i in range(1,6): url = 'http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/newList?offset=%d&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc&_=1478010624978'%i*30 page = urllib.urlopen(url) html=page.read() time.sleep(1) get_json(html) def get_json(json_): end_=re.compile(r'\);')#將json網(wǎng)頁轉(zhuǎn)化成python數(shù)據(jù) begain=re.compile(r'getData\(') json_=begain.sub('',json_) json_=end_.sub('',json_) ajson=json.loads(json_) lis=ajson["commentIds"]#獲得每條評論的鍵 n=0 for i in range(1,len(lis)): try: xulie=re.compile('\d{10,}')#取得準(zhǔn)確評論的鍵(去掉回復(fù)) bia=re.findall(xulie,lis[n]) w.write(ajson['comments'][bia[len(bia)-1]]['user']['nickname'].encode('utf-8')+'|') except KeyError: w.write(ajson['comments'][bia[len(bia)-1]]['user']['location'].encode('utf-8')+'|') if (len(lis[n])>13): xulie=re.compile('\d{10,}') bia=re.findall(xulie,lis[n]) w.write(ajson['comments'][bia[len(bia)-1]]['content'].encode('utf-8')+'\n') else: w.write(ajson['comments'][lis[n]]['content'].encode('utf-8')+'\n') n=n+1 return lis w=open('wangyi.txt','w') w.write('用戶名'+'|'+'熱門評論'+'\n') hot_=gethothtml('http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/hotList?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc') w.write('用戶名'+'|'+'最新評論'+'\n') gethnewtml() w.close()
成功。
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設(shè)計有所幫助。
相關(guān)文章
Python的Django框架中消息通知的計數(shù)器實現(xiàn)教程
通知的計數(shù)器非常有用,新通知時+1和讀過通知后的-1是最基本的功能,這里我們就來看一下Python的Django框架中消息通知的計數(shù)器實現(xiàn)教程2016-06-06Python機(jī)器學(xué)習(xí)之基礎(chǔ)概述
今天帶大家回顧python機(jī)器學(xué)習(xí)的相關(guān)知識,文中非常詳細(xì)的介紹了Python機(jī)器學(xué)習(xí)的基礎(chǔ)概述,算法分類及研究內(nèi)容,需要的朋友可以參考下2021-05-05Python機(jī)器學(xué)習(xí)之PCA降維算法詳解
今天帶大家復(fù)習(xí)python機(jī)器學(xué)習(xí)的知識點(diǎn),文中對PCA降維算法介紹的非常詳細(xì),對正在學(xué)習(xí)python機(jī)器學(xué)習(xí)的小伙伴們有很好地幫助,需要的朋友可以參考下2021-05-05關(guān)于python3.9安裝wordcloud出錯的問題及解決辦法
這篇文章主要介紹了關(guān)于python3.9安裝wordcloud出錯的問題及解決辦法,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-11-11matplotlib 多個圖像共用一個colorbar的實現(xiàn)示例
這篇文章主要介紹了matplotlib 多個圖像共用一個colorbar的實現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09