亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python使用Chrome插件實(shí)現(xiàn)爬蟲過(guò)程圖解

 更新時(shí)間:2020年06月09日 12:07:13   作者:Johnthegreat  
這篇文章主要介紹了Python使用Chrome插件實(shí)現(xiàn)爬蟲,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

做電商時(shí),消費(fèi)者對(duì)商品的評(píng)論是很重要的,但是不會(huì)寫代碼怎么辦?這里有個(gè)Chrome插件可以做到簡(jiǎn)單的數(shù)據(jù)爬取,一句代碼都不用寫。下面給大家展示部分抓取后的數(shù)據(jù):

可以看到,抓取的地址,評(píng)論人,評(píng)論內(nèi)容,時(shí)間,產(chǎn)品顏色都已經(jīng)抓取下來(lái)了。那么,爬取這些數(shù)據(jù)需要哪些工具呢?就兩個(gè):

1. Chrome瀏覽器;

2. 插件:Web Scraper

插件下載地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己動(dòng)手抓取一下,這里是這次抓取的詳細(xì)過(guò)程:

1. 首先,復(fù)制如下的代碼,對(duì),你不需要寫代碼,但是為了便于上手,復(fù)制代碼還是需要的,后續(xù)可以自己定制和選擇,不需要寫代碼。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打開chrome瀏覽器,在任意頁(yè)面同時(shí)按下Ctrl+Shift+i,在彈出的窗口中找到Web Scraper,如下:

3. 如下

4. 如圖,粘貼上述的代碼:

5. 如圖,如果需要定制網(wǎng)址,注意替代一下,網(wǎng)址后面的#comment是直達(dá)評(píng)論的鏈接,不能去掉:

6. 如圖:

7. 如圖:

8. 如圖,點(diǎn)擊Scrape后,會(huì)自動(dòng)運(yùn)行打開需要抓取得頁(yè)面,不要關(guān)閉窗口,靜靜等待完成,完成后右下方會(huì)提示完成,一般1000條以內(nèi)的評(píng)論不會(huì)有問(wèn)題:

9. 最后,點(diǎn)擊下載到電腦,數(shù)據(jù)保存好。

使用這個(gè)工具的好處是:

1. 不需要編程;

2. 京東的評(píng)論基本可以通用此腳本,修改對(duì)應(yīng)的url即可;

3. 如果需要爬取的評(píng)論不到1000條,這個(gè)工具會(huì)非常稱手,所有的數(shù)據(jù)完全自動(dòng)下載;

使用的注意點(diǎn):

1. 抓取過(guò)一次的數(shù)據(jù)會(huì)有記錄,立刻再次抓取將不會(huì)保存,建議關(guān)閉瀏覽器重新打開后再試;

2. 抓取數(shù)量:1000條以內(nèi)沒(méi)有問(wèn)題,可能是京東按照IP直接阻止了更多的爬?。?/p>

如果你的英語(yǔ)水平不錯(cuò),可以嘗試閱讀官方文檔,進(jìn)一步學(xué)習(xí)和定制自己的爬蟲。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • 淺談如何使用Python控制手機(jī)(一)

    淺談如何使用Python控制手機(jī)(一)

    這篇文章主要為大家介紹了如何使用Python控制手機(jī),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助
    2021-11-11
  • Python collections.deque雙邊隊(duì)列原理詳解

    Python collections.deque雙邊隊(duì)列原理詳解

    這篇文章主要介紹了Python collections.deque雙邊隊(duì)列原理詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-10-10
  • 解決pandas報(bào)錯(cuò)'DataFrame' object has no attribute 'as_matrix'問(wèn)題

    解決pandas報(bào)錯(cuò)'DataFrame' object has no

    這篇文章主要介紹了解決pandas報(bào)錯(cuò)'DataFrame' object has no attribute 'as_matrix'問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • Python列表的索引與切片

    Python列表的索引與切片

    這篇文章主要介紹了Python列表的索引與切片,索引用來(lái)對(duì)單個(gè)成員(元素)進(jìn)行訪問(wèn),切片則是對(duì)一定范圍內(nèi)的成員(元素)進(jìn)行訪問(wèn)。下文相關(guān)自來(lái)需要的小伙伴可以參考一下
    2022-04-04
  • request基本使用及各種請(qǐng)求方式參數(shù)的示例

    request基本使用及各種請(qǐng)求方式參數(shù)的示例

    這篇文章主要為大家介紹了request的基本使用及各種請(qǐng)求方式參數(shù)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步早日升職加薪
    2022-04-04
  • Python?sklearn轉(zhuǎn)換器估計(jì)器和K-近鄰算法

    Python?sklearn轉(zhuǎn)換器估計(jì)器和K-近鄰算法

    這篇文章主要介紹了Python?sklearn轉(zhuǎn)換器估計(jì)器和K-近鄰算法,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下
    2022-08-08
  • Python利用DNN實(shí)現(xiàn)寶石識(shí)別

    Python利用DNN實(shí)現(xiàn)寶石識(shí)別

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,簡(jiǎn)稱DNN)是深度學(xué)習(xí)的基礎(chǔ),其結(jié)構(gòu)為input、hidden(可有多層)、output,每層均為全連接。本文將利用DNN實(shí)現(xiàn)寶石識(shí)別,感興趣的可以了解一下
    2022-01-01
  • Python基類函數(shù)的重載與調(diào)用實(shí)例分析

    Python基類函數(shù)的重載與調(diào)用實(shí)例分析

    這篇文章主要介紹了Python基類函數(shù)的重載與調(diào)用方法,實(shí)例分析了Python中基類函數(shù)的重載及調(diào)用技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下
    2015-01-01
  • Django中使用CORS實(shí)現(xiàn)跨域請(qǐng)求過(guò)程解析

    Django中使用CORS實(shí)現(xiàn)跨域請(qǐng)求過(guò)程解析

    這篇文章主要介紹了Django中使用CORS實(shí)現(xiàn)跨域請(qǐng)求過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-08-08
  • 多線程python的實(shí)現(xiàn)及多線程有序性

    多線程python的實(shí)現(xiàn)及多線程有序性

    這篇文章主要介紹了多線程python的實(shí)現(xiàn)及多線程有序性,多線程一般用于同時(shí)調(diào)用多個(gè)函數(shù),cpu時(shí)間片輪流分配給多個(gè)任務(wù)
    2022-06-06

最新評(píng)論