Python采集某評論區(qū)內(nèi)容的實現(xiàn)示例

更新時間：2023年04月24日 09:14:55 作者：極客飛虎

本文主要介紹了Python采集某評論區(qū)內(nèi)容的實現(xiàn)示例，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

前言

我們知道在這個互聯(lián)網(wǎng)時代，評論已經(jīng)在我們的生活到處可見，評論區(qū)里面的信息是一個非常有趣和有爭議的地方。我們今天，就來獲取某技術(shù)平臺的評論，和大家分享一下，我獲取數(shù)據(jù)的過程，也是一個嘗試的過程。

發(fā)送請求

我們首先，確定我們要獲取哪一個文章下面的評論區(qū)。我們先使用開發(fā)者工具，定位到我們要的數(shù)據(jù)。

QQ圖片20230422182804.png

我們通過數(shù)據(jù)抓取，我們發(fā)現(xiàn)，這個平臺的評論區(qū)數(shù)據(jù)，放在了一個叫getlist數(shù)據(jù)包里面了。

QQ圖片20230422183157.png

我們就不難明白，我們只要請求這個url，在傳一個關(guān)于文章的參數(shù)，我們就能獲取到我們想要的數(shù)據(jù)。而且，我們發(fā)現(xiàn)，這個是post請求。我們先按正常思路寫代碼。

import requests

url = 'https://xie.infoq.cn/public/v1/comment/getList'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
}
res = requests.post(url,headers=headers)

print(res)

我們發(fā)現(xiàn)返回了一個<Response [451]>的值，我們可能就是少穿了參數(shù)，我們接下來，把參數(shù)加上試試。

data = {
    'id': "594899140323389440",
    'score': '1682043841339',# 1681968121323
    'size': '100',
}

我們發(fā)現(xiàn)還是不行，所以，我們想到了，這個要加一個防盜鏈。我們把相應的參數(shù)傳進去，我們再來看看效果。

headers ={
    'Host': 'xie.infoq.cn',
    'Origin': 'https://xie.infoq.cn',
    'Referer': 'https://xie.infoq.cn/article/a5f16dffb45139cba72691c29',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
}
res = requests.post(url,data = data,headers=headers)

我們發(fā)現(xiàn)雖然返回了<Response [200]>,但是，我們還是拿不到數(shù)據(jù)，我們看看服務器給我們返回了什么樣子的數(shù)值。

{"code":-1,"data":{},"error":{"code":-2005,"msg":"ID不能為空"},"extra":{"cost":0.000170465,"request-id":"7c1dc236c95aceb9e56da271b056be88@2@infoq"}}

它提示我們"msg":"ID不能為空"，說明我們data傳入傳錯了。

不難看出，就是我們的文章id沒有傳進去，可能是我們傳遞的參數(shù)方式錯了，我們這里要注意，要用json格式傳參。正確的請求方式如下：

res = requests.post(url,json = data,headers=headers)

我們發(fā)現(xiàn)，就可以獲取到了數(shù)據(jù)，在這個過程，我們不斷的嘗試，最后，也拿到了我們想要的數(shù)據(jù)，我們會不會有一些成就感。我們看看獲取到了什么樣子的數(shù)據(jù)吧。

QQ圖片20230422184646.png

拿到了，這樣的數(shù)據(jù)，大家就不難拿到我們要的數(shù)據(jù)，直接字典取值就好了，今天，我們用了大篇幅的段落，來解釋我們是如何獲取數(shù)據(jù)的。

解析數(shù)據(jù)

我們接下來就可以解析數(shù)據(jù)了，代碼很簡單。我這里直接獲取評論了，不獲取評論者了，原理是一樣的，大家感興趣的可以自己去試試。

datas = res.json()['data']['list']

for contents in datas:
    content = contents['content']
    print(content)

這段代碼將從 res.json()['data']['list'] 中獲取數(shù)據(jù)，并將其存儲在 datas 變量中。然后，它使用一個 for 循環(huán)遍歷 datas 中的每個元素，并將每個元素的 content 屬性存儲在 content 變量中。最后，它打印出每個元素的 content 屬性。

我們直接看效果，這個很簡單的。

QQ圖片20230422185330.png