快捷導(dǎo)航

Python爬蟲學(xué)習(xí)之翻譯小程序

更新時(shí)間：2019年07月30日 15:07:46 作者：羅思洋

這篇文章主要為大家詳細(xì)介紹了Python爬蟲學(xué)習(xí)之翻譯小程序，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

本次博客分享的內(nèi)容為基于有道在線翻譯實(shí)現(xiàn)一個(gè)實(shí)時(shí)翻譯小程序，本次任務(wù)是參考小甲魚的書《零基礎(chǔ)入門學(xué)習(xí)Python》完成的，書中代碼對(duì)于當(dāng)前的有道詞典并不適用，使用后無法實(shí)現(xiàn)翻譯功能，在網(wǎng)上進(jìn)行學(xué)習(xí)之后解決了這一問題。

2、前置工作

1）由于有道在線翻譯是“反爬蟲”的，所以在編寫該程序的時(shí)候需要使用到User-Agent，通過使用request模塊中的headers參數(shù)，對(duì)它進(jìn)行適當(dāng)?shù)脑O(shè)置就可以將程序訪問偽裝為瀏覽器訪問，有兩種方法可以添加headers參數(shù)，我使用的方法是通過add_header（）方法往Request對(duì)象中添加headers參數(shù)；

2）我使用的是360瀏覽器，獲取它User-Agent的方法是在地址欄中輸入about：version即可，結(jié)果如下圖：

3)在獲得該參數(shù)后還需要獲取有道翻譯的data數(shù)據(jù)，首先先打開有道翻譯界面，然后打開其審查元素，點(diǎn)擊netwoek，然后在翻譯框內(nèi)輸入word點(diǎn)擊翻譯，找到如下圖所示的位置：

4）一直往下滑動(dòng)，就可以找到data參數(shù)，在編程時(shí)的設(shè)置就需要按照這里來完成，如下圖：

其中在headers中需要設(shè)置的Referer及User-Agent也在上圖中可以找到。

3、任務(wù)代碼

在程序的編寫中需要使用到許多python模塊，包括urllib、json 、time等等。

對(duì)于urllib在上一篇博客中已經(jīng)用到了，它的作用是一個(gè)高級(jí)的 web 交流庫(kù)，其核心功能就是模仿web瀏覽器等客戶端，去請(qǐng)求相應(yīng)的資源，并返回一個(gè)類文件對(duì)象。

json是一種輕量級(jí)的數(shù)據(jù)交換格式，易于人閱讀和編寫，我們需要使用json.loads 解碼 json數(shù)據(jù)。

time是用于獲取當(dāng)前時(shí)間戳并延遲提交數(shù)據(jù)，延遲提交數(shù)據(jù)雖然會(huì)降低工作效率，但是也降低了ip被網(wǎng)頁(yè)拉黑的風(fēng)險(xiǎn)。

具體的代碼如下圖所示：

import urllib.request #導(dǎo)入urllib.request庫(kù)
import urllib.parse #導(dǎo)入urllib.parse庫(kù)
import json #導(dǎo)入json庫(kù)
import time #導(dǎo)入time庫(kù)
import random #導(dǎo)入random庫(kù)
import hashlib #導(dǎo)入hashlib庫(kù)
url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule" #有道翻譯的網(wǎng)址
while True: #定義死循環(huán)
 fanyi = input("請(qǐng)輸入想要翻譯的內(nèi)容:") #用戶輸入想要翻譯的內(nèi)容
 #設(shè)置API接口
 a = 'fanyideskweb'   #設(shè)置client
 b = fanyi    #需要翻譯的內(nèi)容
 c = str(int(time.time() * 1000)+ random.randint(1, 10)) #當(dāng)前時(shí)間戳
 d = 'rY0D^0\'nM0}g5Mm1z%1G4'   #加密字符
 sign = hashlib.md5((a +b +c + d).encode('utf - 8')).hexdigest() #根據(jù)內(nèi)容進(jìn)行md5加密
 #設(shè)置data，按照網(wǎng)頁(yè)審查元素設(shè)置即可
 data = {}
 data['i'] = fanyi
 data['from'] = 'AUTO'
 data['to'] = 'AUTO'
 data['smartresult'] = 'dict'
 data['client'] = 'fanyideskweb'
 data['salt'] = c
 data['sign'] = sign
 data['doctype'] = 'json'
 data['version'] = '2.1'
 data['keyform'] = 'fanyi.web'
 data['action'] = 'FY_BY_CLICKBUTTION'
 data['typoResult'] = 'true'
 data = urllib.parse.urlencode(data).encode('utf - 8') #urlencode轉(zhuǎn)換data數(shù)據(jù)并編碼為utf-8碼
 req = urllib.request.Request(url, data)  #指定網(wǎng)頁(yè)，包含url、data和head
 #偽造瀏覽器訪問
 req.add_header('Referer','http://fanyi.youdao.com')
 req.add_header('User - Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE')
 response = urllib.request.urlopen(req)  #post方式打開指定網(wǎng)頁(yè)
 html = response.read()   #讀取網(wǎng)頁(yè)信息
 html = html.decode('utf - 8')  #將utf-8碼解碼為unicode碼
 target = json.loads(html)   #把json頁(yè)面轉(zhuǎn)換為一個(gè)字典
 print("翻譯結(jié)果: %s" % (target['translateResult'][0][0]['tgt'])) #輸出
 time.sleep(5) #延遲提交數(shù)據(jù)

運(yùn)行結(jié)果如下圖所示：

4、總結(jié)

書上的知識(shí)是否正確還需要自己敲一邊代碼才能進(jìn)行驗(yàn)證，所以說動(dòng)手才是最重要的，本次制作這個(gè)翻譯小程序，由于書本知識(shí)的錯(cuò)誤，我通過網(wǎng)上查找資料才解決了這個(gè)問題，從中也學(xué)到了許多知識(shí)，希望自己能繼續(xù)加油，學(xué)到更多的知識(shí)。

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: