亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python爬蟲之scrapy框架詳解

 更新時間:2021年11月24日 08:39:47   作者:可小v.  
這篇文章主要為大家介紹了python爬蟲之scrapy框架,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
1.在pycharm下安裝scrapy函數(shù)庫
2.將安裝好scrapy函數(shù)庫下的路徑配置到系統(tǒng)path的環(huán)境變量中
3.打開cmd終端輸入:scrapy.exe檢查是否安裝成功
4.創(chuàng)建一個項目:scrapy startproject 項目名字
5.cd進入該目錄下,創(chuàng)建一個spider:scrapy genspider 項目名字 網(wǎng)址
6.編輯settings.py文件中的USER_AGENT選項為正常的瀏覽器頭部
7.執(zhí)行這個spider:scrapy crawl 項目名字
8.如果遇到因pip版本太低導致安裝不了scarpy函數(shù)庫,可以先在cmd窗口輸入py -m pip install --upgrade pip升級命令(前提是你的python環(huán)境下得有pip,可通過輸入pip命令查看是否已安裝,如未安裝得去官網(wǎng)下載并解壓至相應路徑)

代碼示例命令截圖:

在這里插入圖片描述

項目文件截圖:

在這里插入圖片描述

settings.py文件截圖:(需要修改爬取網(wǎng)站的USER_AGENT)

在這里插入圖片描述

scrapy運行工作流程圖:

Spiders(爬蟲):它負責處理所有Responses,從中分析提取數(shù)據(jù),獲取Item字段需要的數(shù)據(jù),并將需要跟進的URL提交給引擎,再次進入Scheduler(調(diào)度器)

Engine(引擎):負責Spider、ItemPipeline、DownloaderScheduler中間的通訊,信號、數(shù)據(jù)傳遞等。

Scheduler(調(diào)度器):它負責接受引擎發(fā)送過來的Request請求,并按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎。

Downloader(下載器):負責下載Scrapy Engine(引擎)發(fā)送的所有Requests請求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理

ItemPipeline(管道):它負責處理Spider中獲取到的Item,并進行進行后期處理(詳細分析、過濾、存儲等)的地方.

Downloader Middlewares(下載中間件):你可以當作是一個可以自定義擴展下載功能的組件。

Spider MiddlewaresSpider中間件):你可以理解為是一個可以自定擴展和操作引擎和Spider中間

通信的功能組件(比如進入Spider的Responses;和從Spider出去的Requests)
在這里插入圖片描述

總結(jié)

本篇文章就到這里了,希望能夠給你帶來幫助,也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!

相關(guān)文章

  • Python 3.10 的首個 PEP 誕生,內(nèi)置類型 zip() 迎來新特性(推薦)

    Python 3.10 的首個 PEP 誕生,內(nèi)置類型 zip() 迎來新特性(推薦)

    這篇文章主要介紹了Python 3.10 的首個 PEP 誕生,內(nèi)置類型 zip() 迎來新特性,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-07-07
  • 關(guān)于nn.BatchNorm1d()用法及說明

    關(guān)于nn.BatchNorm1d()用法及說明

    這篇文章主要介紹了關(guān)于nn.BatchNorm1d()用法及說明,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • Python實現(xiàn)圖書管理系統(tǒng)設計

    Python實現(xiàn)圖書管理系統(tǒng)設計

    這篇文章主要為大家詳細介紹了Python實現(xiàn)圖書管理系統(tǒng)設計,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-03-03
  • Python3.7 版本 lxml 模塊無法導入etree 問題及解決方法

    Python3.7 版本 lxml 模塊無法導入etree 問題及解決方法

    這篇文章主要介紹了Python3.7 版本 lxml 模塊無法導入etree 問題及解決方法,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友參考下吧
    2024-01-01
  • Python NumPy創(chuàng)建數(shù)組方法

    Python NumPy創(chuàng)建數(shù)組方法

    這篇文章主要介紹了Python NumPy創(chuàng)建數(shù)組方法,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的朋友可以參考一下
    2022-09-09
  • python 6行代碼制作月歷生成器

    python 6行代碼制作月歷生成器

    這篇文章主要介紹了python如何用6行代碼制作月歷生成器,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-09-09
  • python系列 文件操作的代碼

    python系列 文件操作的代碼

    這篇文章主要介紹了python系列 文件操作的代碼,主要是使用了python的open、read、write是些打開、讀取、寫入,導入numpy主要是用到數(shù)組操作,需要的朋友可以參考下
    2019-10-10
  • Python爬蟲之Selenium中frame/iframe表單嵌套頁面

    Python爬蟲之Selenium中frame/iframe表單嵌套頁面

    這篇文章主要介紹了Python爬蟲之Selenium中frame/iframe表單嵌套頁面,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-12-12
  • Python實現(xiàn)簡單的多任務mysql轉(zhuǎn)xml的方法

    Python實現(xiàn)簡單的多任務mysql轉(zhuǎn)xml的方法

    這篇文章主要介紹了Python實現(xiàn)簡單的多任務mysql轉(zhuǎn)xml的方法,結(jié)合實例形式分析了Python查詢mysql結(jié)果集轉(zhuǎn)xml格式數(shù)據(jù)輸出的相關(guān)操作技巧,需要的朋友可以參考下
    2017-02-02
  • django開發(fā)之settings.py中變量的全局引用詳解

    django開發(fā)之settings.py中變量的全局引用詳解

    當網(wǎng)站里面的一些內(nèi)容,如郵箱,網(wǎng)站標題,網(wǎng)站的描述,這些東西我們可以存在數(shù)據(jù)庫中也可以存放在我們的setting 文件中,這篇文章主要給大家介紹了django中settings.py變量的全局引用的相關(guān)資料,文中介紹的非常詳細,需要的朋友可以參考下。
    2017-03-03

最新評論