Python爬蟲(chóng)：通過(guò)關(guān)鍵字爬取百度圖片

更新時(shí)間：2017年02月17日 09:58:19 作者：WC-cong

本文主要介紹了Python爬蟲(chóng)：通過(guò)關(guān)鍵字爬取百度圖片的方法。具有很好的參考價(jià)值，下面跟著小編一起來(lái)看下吧

使用工具：Python2.7 點(diǎn)我下載

scrapy框架

sublime text3

一。搭建python（Windows版本）

1.安裝python2.7 ---然后在cmd當(dāng)中輸入python，界面如下則安裝成功

2.集成Scrapy框架----輸入命令行：pip install Scrapy

安裝成功界面如下：

失敗的情況很多，舉例一種：

解決方案：

其余錯(cuò)誤可百度搜索。

二。開(kāi)始編程。

1.爬取無(wú)反爬蟲(chóng)措施的靜態(tài)網(wǎng)站。例如百度貼吧，豆瓣讀書(shū)。

例如-《桌面吧》的一個(gè)帖子https://tieba.baidu.com/p/2460150866?red_tag=3569129009

python代碼如下：

代碼注釋?zhuān)阂肓藘蓚€(gè)模塊urllib,re。定義兩個(gè)函數(shù)，第一個(gè)函數(shù)是獲取整個(gè)目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)，第二個(gè)函數(shù)是在目標(biāo)網(wǎng)頁(yè)中獲取目標(biāo)圖片，遍歷網(wǎng)頁(yè)，并且給獲取的圖片按照0開(kāi)始排序。

注：re模塊知識(shí)點(diǎn):

爬取圖片效果圖：

圖片保存路徑默認(rèn)在建立的.py同目錄文件下。

2.爬取有反爬蟲(chóng)措施的百度圖片。如百度圖片等。

例如關(guān)鍵字搜索“表情包”https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

圖片采用滾動(dòng)式加載，先爬取最優(yōu)先的30張。

代碼如下：

代碼注釋?zhuān)簩?dǎo)入4個(gè)模塊，os模塊用于指定保存路徑。前兩個(gè)函數(shù)同上。第三個(gè)函數(shù)使用了if語(yǔ)句，并tryException異常。

爬取過(guò)程如下：

爬取結(jié)果：

注：編寫(xiě)python代碼注重對(duì)齊，and不能混用Tab和空格，易報(bào)錯(cuò)。

以上就是本文的全部?jī)?nèi)容，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助，同時(shí)也希望多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

Pyramid將models.py文件的內(nèi)容分布到多個(gè)文件的方法
默認(rèn)的Pyramid代碼結(jié)構(gòu)中，就只有一個(gè)models.py文件，在實(shí)際項(xiàng)目中，如果需要對(duì)models進(jìn)行分類(lèi)，放到不同文件下，應(yīng)該怎么辦
2013-11-11
Selenium定時(shí)刷新網(wǎng)頁(yè)的實(shí)現(xiàn)代碼
這篇文章主要介紹了Selenium定時(shí)刷新網(wǎng)頁(yè)的實(shí)現(xiàn)代碼，小編覺(jué)得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
2018-10-10
基于python實(shí)現(xiàn)語(yǔ)音錄入識(shí)別代碼實(shí)例
這篇文章主要介紹了如何通過(guò)python實(shí)現(xiàn)語(yǔ)音錄入識(shí)別,文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-01-01
Django Haystack 全文檢索與關(guān)鍵詞高亮的實(shí)現(xiàn)
這篇文章主要介紹了Django Haystack 全文檢索與關(guān)鍵詞高亮的實(shí)現(xiàn)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-02-02
Python高級(jí)應(yīng)用實(shí)例對(duì)比：高效計(jì)算大文件中的最長(zhǎng)行的長(zhǎng)度
在操作某個(gè)很多進(jìn)程都要頻繁用到的大文件的時(shí)候，應(yīng)該盡早釋放文件資源（f.close()）,只有這樣才能算是一則高效率的代碼，下面我們就來(lái)分析下這3種方法的優(yōu)劣
2014-06-06
pytorch 實(shí)現(xiàn)tensor與numpy數(shù)組轉(zhuǎn)換
今天小編就為大家分享一篇使用pytorch 實(shí)現(xiàn)tensor與numpy數(shù)組轉(zhuǎn)換，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2019-12-12
Python全棧之學(xué)習(xí)CSS(2)
這篇文章主要為大家介紹了Python全棧之CSS，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來(lái)幫助
2022-01-01
python根據(jù)txt文本批量創(chuàng)建文件夾
這篇文章主要為大家詳細(xì)介紹了python根據(jù)txt文本批量創(chuàng)建文件夾，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2019-03-03
Python使用代理抓取網(wǎng)站圖片（多線程）
Python作為一門(mén)功能強(qiáng)大的腳本語(yǔ)言，經(jīng)常被用來(lái)寫(xiě)爬蟲(chóng)程序，下面是使用Python通過(guò)代理進(jìn)行多線程抓取圖片，算是一個(gè)簡(jiǎn)易的python多線程爬蟲(chóng)
2014-03-03
Python切片知識(shí)解析
這篇文章主要介紹了Python切片知識(shí)解析的相關(guān)資料,需要的朋友可以參考下
2016-03-03