亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python爬蟲:通過關(guān)鍵字爬取百度圖片

 更新時(shí)間:2017年02月17日 09:58:19   作者:WC-cong  
本文主要介紹了Python爬蟲:通過關(guān)鍵字爬取百度圖片的方法。具有很好的參考價(jià)值,下面跟著小編一起來看下吧

使用工具:Python2.7 點(diǎn)我下載

scrapy框架

sublime text3

一。搭建python(Windows版本)

 1.安裝python2.7 ---然后在cmd當(dāng)中輸入python,界面如下則安裝成功

 2.集成Scrapy框架----輸入命令行:pip install Scrapy

安裝成功界面如下:

失敗的情況很多,舉例一種:

解決方案:

其余錯(cuò)誤可百度搜索。

二。開始編程。

1.爬取無反爬蟲措施的靜態(tài)網(wǎng)站。例如百度貼吧,豆瓣讀書。

例如-《桌面吧》的一個(gè)帖子https://tieba.baidu.com/p/2460150866?red_tag=3569129009

python代碼如下:

代碼注釋:引入了兩個(gè)模塊urllib,re。定義兩個(gè)函數(shù),第一個(gè)函數(shù)是獲取整個(gè)目標(biāo)網(wǎng)頁數(shù)據(jù),第二個(gè)函數(shù)是在目標(biāo)網(wǎng)頁中獲取目標(biāo)圖片,遍歷網(wǎng)頁,并且給獲取的圖片按照0開始排序。

注:re模塊知識(shí)點(diǎn):

爬取圖片效果圖:

圖片保存路徑默認(rèn)在建立的.py同目錄文件下。

2.爬取有反爬蟲措施的百度圖片。如百度圖片等。

例如關(guān)鍵字搜索“表情包”https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

圖片采用滾動(dòng)式加載,先爬取最優(yōu)先的30張。

代碼如下:

代碼注釋:導(dǎo)入4個(gè)模塊,os模塊用于指定保存路徑。前兩個(gè)函數(shù)同上。第三個(gè)函數(shù)使用了if語句,并tryException異常。

爬取過程如下:

爬取結(jié)果:

注:編寫python代碼注重對(duì)齊,and不能混用Tab和空格,易報(bào)錯(cuò)。

以上就是本文的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來一定的幫助,同時(shí)也希望多多支持腳本之家!

相關(guān)文章

最新評(píng)論