Python使用Chrome插件實(shí)現(xiàn)爬蟲過(guò)程圖解
做電商時(shí),消費(fèi)者對(duì)商品的評(píng)論是很重要的,但是不會(huì)寫代碼怎么辦?這里有個(gè)Chrome插件可以做到簡(jiǎn)單的數(shù)據(jù)爬取,一句代碼都不用寫。下面給大家展示部分抓取后的數(shù)據(jù):
可以看到,抓取的地址,評(píng)論人,評(píng)論內(nèi)容,時(shí)間,產(chǎn)品顏色都已經(jīng)抓取下來(lái)了。那么,爬取這些數(shù)據(jù)需要哪些工具呢?就兩個(gè):
1. Chrome瀏覽器;
2. 插件:Web Scraper
插件下載地址:https://chromecj.com/productivity/2018-05/942.html
最后,如果你想自己動(dòng)手抓取一下,這里是這次抓取的詳細(xì)過(guò)程:
1. 首先,復(fù)制如下的代碼,對(duì),你不需要寫代碼,但是為了便于上手,復(fù)制代碼還是需要的,后續(xù)可以自己定制和選擇,不需要寫代碼。
{ "_id": "jdreview", "startUrl": [ "https://item.jd.com/100000680365.html#comment" ], "selectors": [ { "id": "user", "type": "SelectorText", "selector": "div.user-info", "parentSelectors": [ "main" ], "multiple": false, "regex": "", "delay": 0 }, { "id": "comments", "type": "SelectorText", "selector": "div.comment-column > p.comment-con", "parentSelectors": [ "main" ], "multiple": false, "regex": "", "delay": 0 }, { "id": "time", "type": "SelectorText", "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)", "parentSelectors": [ "main" ], "multiple": false, "regex": "", "delay": "0" }, { "id": "color", "type": "SelectorText", "selector": "div.order-info span:nth-of-type(1)", "parentSelectors": [ "main" ], "multiple": false, "regex": "", "delay": 0 }, { "id": "main", "type": "SelectorElementClick", "selector": "div.comment-item", "parentSelectors": [ "_root" ], "multiple": true, "delay": "10000", "clickElementSelector": "div.com-table-footer a.ui-pager-next", "clickType": "clickMore", "discardInitialElements": false, "clickElementUniquenessType": "uniqueHTMLText" } ] }
2. 然后打開chrome瀏覽器,在任意頁(yè)面同時(shí)按下Ctrl+Shift+i,在彈出的窗口中找到Web Scraper,如下:
3. 如下
4. 如圖,粘貼上述的代碼:
5. 如圖,如果需要定制網(wǎng)址,注意替代一下,網(wǎng)址后面的#comment是直達(dá)評(píng)論的鏈接,不能去掉:
6. 如圖:
7. 如圖:
8. 如圖,點(diǎn)擊Scrape后,會(huì)自動(dòng)運(yùn)行打開需要抓取得頁(yè)面,不要關(guān)閉窗口,靜靜等待完成,完成后右下方會(huì)提示完成,一般1000條以內(nèi)的評(píng)論不會(huì)有問(wèn)題:
9. 最后,點(diǎn)擊下載到電腦,數(shù)據(jù)保存好。
使用這個(gè)工具的好處是:
1. 不需要編程;
2. 京東的評(píng)論基本可以通用此腳本,修改對(duì)應(yīng)的url即可;
3. 如果需要爬取的評(píng)論不到1000條,這個(gè)工具會(huì)非常稱手,所有的數(shù)據(jù)完全自動(dòng)下載;
使用的注意點(diǎn):
1. 抓取過(guò)一次的數(shù)據(jù)會(huì)有記錄,立刻再次抓取將不會(huì)保存,建議關(guān)閉瀏覽器重新打開后再試;
2. 抓取數(shù)量:1000條以內(nèi)沒(méi)有問(wèn)題,可能是京東按照IP直接阻止了更多的爬?。?/p>
如果你的英語(yǔ)水平不錯(cuò),可以嘗試閱讀官方文檔,進(jìn)一步學(xué)習(xí)和定制自己的爬蟲。
官方教程:https://www.webscraper.io/documentation
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- Python中Pyenv virtualenv插件的使用
- python搶購(gòu)軟件/插件/腳本附完整源碼
- Python常用擴(kuò)展插件使用教程解析
- 基于Python第三方插件實(shí)現(xiàn)西游記章節(jié)標(biāo)注漢語(yǔ)拼音的方法
- Python插件機(jī)制實(shí)現(xiàn)詳解
- 詳解PyCharm安裝MicroPython插件的教程
- Python實(shí)現(xiàn)E-Mail收集插件實(shí)例教程
- Python實(shí)現(xiàn)SQL注入檢測(cè)插件實(shí)例代碼
- Python 帶你快速上手 Apache APISIX 插件開發(fā)
相關(guān)文章
Python collections.deque雙邊隊(duì)列原理詳解
這篇文章主要介紹了Python collections.deque雙邊隊(duì)列原理詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-10-10解決pandas報(bào)錯(cuò)'DataFrame' object has no
這篇文章主要介紹了解決pandas報(bào)錯(cuò)'DataFrame' object has no attribute 'as_matrix'問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-08-08request基本使用及各種請(qǐng)求方式參數(shù)的示例
這篇文章主要為大家介紹了request的基本使用及各種請(qǐng)求方式參數(shù)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步早日升職加薪2022-04-04Python?sklearn轉(zhuǎn)換器估計(jì)器和K-近鄰算法
這篇文章主要介紹了Python?sklearn轉(zhuǎn)換器估計(jì)器和K-近鄰算法,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-08-08Python利用DNN實(shí)現(xiàn)寶石識(shí)別
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,簡(jiǎn)稱DNN)是深度學(xué)習(xí)的基礎(chǔ),其結(jié)構(gòu)為input、hidden(可有多層)、output,每層均為全連接。本文將利用DNN實(shí)現(xiàn)寶石識(shí)別,感興趣的可以了解一下2022-01-01Python基類函數(shù)的重載與調(diào)用實(shí)例分析
這篇文章主要介紹了Python基類函數(shù)的重載與調(diào)用方法,實(shí)例分析了Python中基類函數(shù)的重載及調(diào)用技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-01-01Django中使用CORS實(shí)現(xiàn)跨域請(qǐng)求過(guò)程解析
這篇文章主要介紹了Django中使用CORS實(shí)現(xiàn)跨域請(qǐng)求過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08多線程python的實(shí)現(xiàn)及多線程有序性
這篇文章主要介紹了多線程python的實(shí)現(xiàn)及多線程有序性,多線程一般用于同時(shí)調(diào)用多個(gè)函數(shù),cpu時(shí)間片輪流分配給多個(gè)任務(wù)2022-06-06