腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語(yǔ)言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫(kù)

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

Python實(shí)戰(zhàn)練習(xí)之終于對(duì)肯德基下手

更新時(shí)間：2021年10月12日 09:16:03 作者：Bitdancing

讀萬(wàn)卷書不如行萬(wàn)里路，學(xué)的扎不扎實(shí)要通過(guò)實(shí)戰(zhàn)才能看出來(lái)，本篇文章手把手帶你爬下肯德基的官網(wǎng),大家可以在過(guò)程中查缺補(bǔ)漏，看看自己掌握程度怎么樣

請(qǐng)?zhí)砑訄D片描述

準(zhǔn)備工作

查看肯德基官網(wǎng)的請(qǐng)求方法：post請(qǐng)求。

在這里插入圖片描述

X-Requested-With: XMLHttpRequest 判斷得肯德基官網(wǎng)是ajax請(qǐng)求

在這里插入圖片描述

通過(guò)這兩個(gè)準(zhǔn)備步驟，明確本次爬蟲目標(biāo)：
ajax的post請(qǐng)求肯德基官網(wǎng) 獲取上?？系禄攸c(diǎn)前10頁(yè)。

分析

獲取上?？系禄攸c(diǎn)前10頁(yè)，那就需要先對(duì)每頁(yè)的url進(jìn)行分析。

第一頁(yè)

# page1
# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# POST
# cname: 上海
# pid:
# pageIndex: 1
# pageSize: 10

第二頁(yè)

# page2
# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# POST
# cname: 上海
# pid:
# pageIndex: 2
# pageSize: 10

第三頁(yè)依次類推。

程序入口

首先回顧urllib爬取的基本操作：

# 使用urllib獲取百度首頁(yè)的源碼
import urllib.request

# 1.定義一個(gè)url，就是你要訪問的地址
url = 'http://www.baidu.com'

# 2.模擬瀏覽器向服務(wù)器發(fā)送請(qǐng)求 response響應(yīng)
response = urllib.request.urlopen(url)

# 3.獲取響應(yīng)中的頁(yè)面的源碼 content內(nèi)容
# read方法 返回的是字節(jié)形式的二進(jìn)制數(shù)據(jù)
# 將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為字符串
# 二進(jìn)制-->字符串  解碼 decode方法
content = response.read().decode('utf-8')

# 4.打印數(shù)據(jù)
print(content)

定義一個(gè)url，就是你要訪問的地址
模擬瀏覽器向服務(wù)器發(fā)送請(qǐng)求 response響應(yīng)
獲取響應(yīng)中的頁(yè)面的源碼 content內(nèi)容

if __name__ == '__main__':
    start_page = int(input('請(qǐng)輸入起始頁(yè)碼: '))
    end_page = int(input('請(qǐng)輸入結(jié)束頁(yè)碼: '))

    for page in range(start_page, end_page+1):
        # 請(qǐng)求對(duì)象的定制
        request = create_request(page)
        # 獲取網(wǎng)頁(yè)源碼
        content = get_content(request)
        # 下載數(shù)據(jù)
        down_load(page, content)

對(duì)應(yīng)的，我們?cè)谥骱瘮?shù)中也類似聲明方法。

url組成數(shù)據(jù)定位

請(qǐng)?zhí)砑訄D片描述

爬蟲的關(guān)鍵在于找接口。對(duì)于這個(gè)案例，在預(yù)覽頁(yè)可以找到頁(yè)面對(duì)應(yīng)的json數(shù)據(jù)，說(shuō)明這是我們要的數(shù)據(jù)。

請(qǐng)?zhí)砑訄D片描述

構(gòu)造url

不難發(fā)現(xiàn)，肯德基官網(wǎng)的url的一個(gè)共同點(diǎn)，我們把它保存為base_url。

base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'

參數(shù)

老樣子，找規(guī)律，只有'pageIndex'和頁(yè)碼有關(guān)。

    data = {
        'cname': '上海',
        'pid': '',
        'pageIndex': page,
        'pageSize': '10'
    }

post請(qǐng)求

post請(qǐng)求的參數(shù) 必須要進(jìn)行編碼

data = urllib.parse.urlencode(data).encode('utf-8')

編碼之后必須調(diào)用encode方法
參數(shù)放在請(qǐng)求對(duì)象定制的方法中：post的請(qǐng)求的參數(shù)，是不會(huì)拼接在url后面的，而是放在請(qǐng)求對(duì)象定制的參數(shù)中

所以將data進(jìn)行編碼

data = urllib.parse.urlencode(data).encode('utf-8')

標(biāo)頭獲?。ǚ乐狗磁赖囊环N手段）

請(qǐng)?zhí)砑訄D片描述

即響應(yīng)頭中UA部分。

User Agent，用戶代理，特殊字符串頭，使得服務(wù)器能夠識(shí)別客戶使用的操作系統(tǒng)及版本，CPU類型，瀏覽器及版本，瀏覽器內(nèi)核，瀏覽器渲染引擎，瀏覽器語(yǔ)言，瀏覽器插件等。

 headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38'
    }

請(qǐng)求對(duì)象定制

參數(shù)，base_url，請(qǐng)求頭都準(zhǔn)備得當(dāng)后，就可以進(jìn)行請(qǐng)求對(duì)象定制了。

 request = urllib.request.Request(base_url,
  headers=headers, data=data)

獲取網(wǎng)頁(yè)源碼

把request請(qǐng)求作為參數(shù)，模擬瀏覽器向服務(wù)器發(fā)送請(qǐng)求獲得response響應(yīng)。

 response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')

獲取響應(yīng)中的頁(yè)面的源碼，下載數(shù)據(jù)

使用 read()方法，得到字節(jié)形式的二進(jìn)制數(shù)據(jù)，需要使用 decode進(jìn)行解碼，轉(zhuǎn)換為字符串。

content = response.read().decode('utf-8')

然后我們將下載得到的數(shù)據(jù)寫進(jìn)文件，使用 with open() as fp 的語(yǔ)法，系統(tǒng)自動(dòng)關(guān)閉文件。

def down_load(page, content):
    with open('kfc_' + str(page) + '.json', 'w', encoding='utf-8') as fp:
        fp.write(content)

全部代碼

# ajax的post請(qǐng)求肯德基官網(wǎng) 獲取上海肯德基地點(diǎn)前10頁(yè)

# page1
# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# POST
# cname: 上海
# pid:
# pageIndex: 1
# pageSize: 10

# page2
# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# POST
# cname: 上海
# pid:
# pageIndex: 2
# pageSize: 10

import urllib.request, urllib.parse

def create_request(page):
    base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'

    data = {
        'cname': '上海',
        'pid': '',
        'pageIndex': page,
        'pageSize': '10'
    }

    data = urllib.parse.urlencode(data).encode('utf-8')

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38'
    }

    request = urllib.request.Request(base_url, headers=headers, data=data)
    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(page, content):
    with open('kfc_' + str(page) + '.json', 'w', encoding='utf-8') as fp:
        fp.write(content)

if __name__ == '__main__':
    start_page = int(input('請(qǐng)輸入起始頁(yè)碼: '))
    end_page = int(input('請(qǐng)輸入結(jié)束頁(yè)碼: '))

    for page in range(start_page, end_page+1):
        # 請(qǐng)求對(duì)象的定制
        request = create_request(page)
        # 獲取網(wǎng)頁(yè)源碼
        content = get_content(request)
        # 下載數(shù)據(jù)
        down_load(page, content)

爬取后結(jié)果

在這里插入圖片描述

鞠躬?。?！其實(shí)還爬過(guò)Lisa的照片，想看爬蟲代碼的歡迎留言 ?。。?/p>

到此這篇關(guān)于Python實(shí)戰(zhàn)練習(xí)之終于對(duì)肯德基下手的文章就介紹到這了,更多相關(guān)Python 肯德基官網(wǎng)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS

常用工具

Python實(shí)戰(zhàn)練習(xí)之終于對(duì)肯德基下手

準(zhǔn)備工作

分析

程序入口

url組成數(shù)據(jù)定位

構(gòu)造url

參數(shù)

post請(qǐng)求

標(biāo)頭獲?。ǚ乐狗磁赖囊环N手段）

請(qǐng)求對(duì)象定制

獲取網(wǎng)頁(yè)源碼

獲取響應(yīng)中的頁(yè)面的源碼，下載數(shù)據(jù)

全部代碼

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python實(shí)戰(zhàn)練習(xí)之終于對(duì)肯德基下手

準(zhǔn)備工作

分析

程序入口

url組成數(shù)據(jù)定位

構(gòu)造url

參數(shù)

post請(qǐng)求

標(biāo)頭獲?。ǚ乐狗磁赖囊环N手段）

請(qǐng)求對(duì)象定制

獲取網(wǎng)頁(yè)源碼

獲取響應(yīng)中的頁(yè)面的源碼，下載數(shù)據(jù)

全部代碼

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

標(biāo)頭獲?。ǚ乐狗磁赖囊环N手段）