Python人工智能實(shí)戰(zhàn)之對(duì)話機(jī)器人的實(shí)現(xiàn)

更新時(shí)間：2022年02月09日 11:05:45 作者：程序員笑武

本文將通過(guò)Python開發(fā)一個(gè)可以講笑話的機(jī)器人，可以自由定制功能，想講幾個(gè)笑話就講幾個(gè)笑話。文中的示例代碼講解詳細(xì)，感興趣的可以動(dòng)手試一試

背景

當(dāng)我慢慢的開在高速公路上，寬敞的馬路非常的擁擠！這時(shí)候我喜歡讓百度導(dǎo)航的小度給我講笑話，但她有點(diǎn)弱，每次只能講一個(gè)。

百度號(hào)稱要發(fā)力人工智能，成為國(guó)內(nèi)人工智能的領(lǐng)軍企業(yè)。但從小度的智商和理解能力上，我對(duì)此非常懷疑。

所以我們干脆用Python來(lái)開發(fā)一個(gè)可以講笑話的機(jī)器人，可以自由定制功能，想講幾個(gè)笑話就講幾個(gè)笑話。

用到的技術(shù)

本文用到以下技術(shù)：

爬蟲 - 抓取笑話

數(shù)據(jù)庫(kù) - 用sqlite保存笑話

面向?qū)ο?- 封裝joke對(duì)象

模塊 - 代碼分模塊放在多個(gè)文件中

語(yǔ)音識(shí)別 - 識(shí)別用戶輸入的語(yǔ)音，把笑話轉(zhuǎn)換成語(yǔ)音

GUI - 開發(fā)簡(jiǎn)單的用戶界面

打包 - 把程序打包成可執(zhí)行文件

主要流程

代碼模塊

為了代碼結(jié)構(gòu)清晰，方便維護(hù)，我們把代碼放到了多個(gè)py文件中，每個(gè)文件各司其職。

本程序共包括一下幾個(gè)代碼模塊：

joke.py - 笑話對(duì)象，被多個(gè)模塊共用

joke_crawler.py - 笑話爬蟲

joke_db.py - 處理數(shù)據(jù)庫(kù)相關(guān)，保存笑話，查詢笑話等

joke_ui.py - 用戶界面模塊

joke_audio.py - 處理和語(yǔ)音相關(guān)的任務(wù) 和2個(gè)非代碼結(jié)構(gòu)：

joke_audio - 存放語(yǔ)音文件的文件夾

jokeDB.db - sqlite3數(shù)據(jù)庫(kù)文件

現(xiàn)在開始寫代碼，請(qǐng)先創(chuàng)建一個(gè)文件夾，建議取名為myjoke。后面所有的代碼都在這個(gè)文件夾中。

Joke對(duì)象

我們使用面向?qū)ο蟮木幊趟枷耄瑒?chuàng)建一個(gè)叫做Joke的類，來(lái)表示一個(gè)笑話。

用了Joke類，代碼更清晰，數(shù)據(jù)傳輸也更方便。Joke類會(huì)被所有其他的模塊用到。

創(chuàng)建一個(gè)名為joke.py的文件

代碼如下：

class Joke:
? ? '''
? ? 表示一個(gè)笑話。
? ? 其中title是笑話標(biāo)題，detail是笑話內(nèi)容
? ? url是笑話的采集網(wǎng)址，通過(guò)url判定笑話是否重復(fù)，防止保存重復(fù)笑話
? ? id是數(shù)據(jù)庫(kù)生成的唯一標(biāo)識(shí)符，剛剛采集下來(lái)的笑話是沒(méi)有id的，所以id可以為空
? ? '''
? ? def __init__(self, title, detail, url, id=None):
? ? ? ? self.title = title
? ? ? ? self.detail = detail
? ? ? ? self.url = url
? ? ? ? self.id = id

? ? def __str__(self):
? ? ? ? '''
? ? ? ? 有了這個(gè)方法，print(joke)會(huì)把笑話打印成下面格式的字符串，否則只會(huì)打印對(duì)象的內(nèi)存地址
? ? ? ? '''
? ? ? ? return f'{id}-{title}\n{detail}\n{url}'

這個(gè)類中只有兩個(gè)魔術(shù)方法，一個(gè)是構(gòu)造函數(shù)__init__，一個(gè)是__str__。

爬蟲抓取笑話

分析網(wǎng)頁(yè)結(jié)構(gòu)

我們要抓取的網(wǎng)址是這個(gè)：http://xiaohua.zol.com.cn/detail1/1.html 我們要抓的數(shù)據(jù)點(diǎn)有三個(gè)：

在谷歌瀏覽器中，右鍵點(diǎn)擊檢查，就可以在下面看到網(wǎng)頁(yè)的代碼結(jié)構(gòu)：

1.用鼠標(biāo)點(diǎn)擊1的按鈕

2.然后把鼠標(biāo)移到2的地方

3.就可以看到成功這兩個(gè)字在網(wǎng)頁(yè)中的結(jié)構(gòu)。

通過(guò)分析這個(gè)結(jié)構(gòu)，我們可以得出：成功這兩個(gè)字是在一個(gè)h1結(jié)構(gòu)內(nèi)，這個(gè)h1的class是article-title，因?yàn)榭梢允褂眠@個(gè)特征提取其中的內(nèi)容（示例代碼）：

title = html.select_one('h1.article-title').getText()

用同樣的方法可以分析出笑話內(nèi)容和下一頁(yè)URL的特征。

分析網(wǎng)頁(yè)結(jié)構(gòu)需要基本的HTML和CSS的知識(shí)，如果完全不懂，可以先直接模仿我的代碼，然后再慢慢理解相關(guān)知識(shí)。

代碼實(shí)現(xiàn)

現(xiàn)在來(lái)看完整的代碼。

新建一個(gè)名為joke_crawler.py的文件。

import requests
import bs4
import time
import random
#先注釋掉數(shù)據(jù)庫(kù)相關(guān)的代碼，后面需要反注釋回來(lái)
#import joke_db 
from joke import Joke

#起始URL
url = 'http://xiaohua.zol.com.cn/detail1/1.html'  

#網(wǎng)站的域名地址，用來(lái)拼接完整地址
host = 'http://xiaohua.zol.com.cn'

def craw_joke(url):
    '''
    抓取指定的URL，返回一個(gè)Joke對(duì)象，和下一個(gè)要抓取的URL
    如果抓取失敗，返回None, None
    必須設(shè)置User-Agent header，否則容易被封
    '''
    print(f'正在抓?。簕url}')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    html = requests.get(url, headers=headers).text
    soup = bs4.BeautifulSoup(html, 'lxml')
    try:
        #分別使用css選擇器提取title, detail和next_url
        title = soup.select_one('h1.article-title').getText()
        detail = soup.select_one('div.article-text').getText().strip()
        next_url = soup.select_one('span.next > a')['href']
        return Joke(title, detail, url), next_url
    except Exception as e:
        print('出錯(cuò)了：', e)
        print(html)
        return None, None 

# 抓取笑話，以學(xué)習(xí)為目的，建議不要抓取太多，本例子只抓取了10個(gè)
count = 0
for i in range(0, 10):
    joke, next_url = craw_joke(url)
    if joke:
        #先注釋掉數(shù)據(jù)庫(kù)相關(guān)的代碼，后面需要反注釋回來(lái)
        #joke_db.save(joke)
        print(joke)
        url = host + next_url
    print('歇一會(huì)兒再抓!')
    time.sleep(random.randint(1, 5))
print('抓完收工！')

代碼中已經(jīng)添加了一些注釋，有基礎(chǔ)的應(yīng)該可以看懂。

有兩個(gè)點(diǎn)要注意：

1.在craw_joke函數(shù)中，必須添加User-Agent的header，否則會(huì)很快被封鎖。

2.代碼中注釋掉了和數(shù)據(jù)庫(kù)相關(guān)的代碼，現(xiàn)在只是把笑話打印出來(lái)。寫好了數(shù)據(jù)庫(kù)模塊，要把相關(guān)代碼反注釋回來(lái)。

3.抓取的中間有隨機(jī)1到5秒的停頓，一個(gè)防止被封鎖，二是出于文明禮貌，不要給服務(wù)器帶來(lái)太大壓力。

保存到sqlite數(shù)據(jù)庫(kù)

抓來(lái)的笑話可以保存到文件中，但是用文件存儲(chǔ)不方便檢索，也不方便判斷笑話是否重復(fù)等。

所以更好的方法是把笑話保存到數(shù)據(jù)庫(kù)，這里選擇sqlite做數(shù)據(jù)庫(kù)。原因如下：

1.sqlite是文件數(shù)據(jù)庫(kù)，不需要安裝額外的數(shù)據(jù)庫(kù)服務(wù)器

2.python默認(rèn)支持sqlite數(shù)據(jù)庫(kù)，不需要任何額外的安裝和配置

但如果你想把世界上所有的笑話都抓下來(lái)，數(shù)據(jù)量很大，那建議使用更正式的數(shù)據(jù)庫(kù)，比如MySQL.

新建一個(gè)名為joke_db.py的文件

代碼如下：

import sqlite3
from joke import Joke 

def setup():
    '''
    創(chuàng)建數(shù)據(jù)庫(kù)和創(chuàng)建表，如果已經(jīng)存在了不會(huì)重復(fù)創(chuàng)建
    '''
    con = sqlite3.connect('jokeDB.db')
    with con:
        con.execute('''CREATE TABLE IF NOT EXISTS jokes
                    (id INTEGER PRIMARY KEY,
                    title varchar(256) NOT NULL,
                    detail varchar(1024) NOT NULL,
                    url varchar(1024) NOT NULL)''')

def save(joke):
    '''
    把笑話保存到數(shù)據(jù)庫(kù)
    根據(jù)url判斷是否已經(jīng)有這個(gè)笑話了，如果有了就不再保存
    '''
    con = sqlite3.connect('jokeDB.db')
    with con:
        cur = con.cursor()
        cur.execute(
            'SELECT * FROM jokes WHERE (url = ?)', [(joke.url)])
        has_joke = cur.fetchone()
        if has_joke:
            print('重復(fù)了，不再插入')
        else:
            con.execute('INSERT INTO jokes(title, detail, url) VALUES (?,?,?)', (joke.title, joke.detail, joke.url))
            print('笑話保存成功')

def get_jokes():
    '''
    返回所有的笑話列表
    '''
    print('loading jokes...')
    con = sqlite3.connect('jokeDB.db')
    jokes = []
    with con:
        for row in con.execute('SELECT * FROM jokes'):
            joke = Joke(row[1], row[2], row[3], row[0])
            jokes.append(joke)
    return jokes

# 調(diào)用最上面的代碼
setup()

# 測(cè)試代碼，本模塊被別的模塊引入的時(shí)候，不會(huì)執(zhí)行下面的代碼
if __name__ == '__main__':
    save(Joke('笑話Test', '笑話內(nèi)容test', 'https://www.joke.com/1.html'))
    save(Joke('笑話Test2', '笑話內(nèi)容test', 'https://www.joke.com/2.html'))
    print('========打印一下所有的笑話======')
    for joke in get_jokes():
        print(joke)
        print()

代碼已經(jīng)添加了比較多的注釋，請(qǐng)先看代碼。這里額外的補(bǔ)充：

1.要使用sqlite，需要引入sqlite3模塊

2.使用sqlite要先用connect()方法獲得鏈接，然后調(diào)用execute()方法執(zhí)行SQL語(yǔ)句。

運(yùn)行上面的代碼，就可以發(fā)現(xiàn)文件夾下多了一個(gè)名為jokeDB.db的文件，這是程序自動(dòng)創(chuàng)建的數(shù)據(jù)庫(kù)文件，笑話就保存在里面。下面里面只有兩個(gè)測(cè)試的笑話：

> python joke_db.py
笑話保存成功
笑話保存成功
========打印一下所有的笑話======
loading jokes...
1-笑話Test
笑話內(nèi)容test
https://www.joke.com/1.html

2-笑話Test2
笑話內(nèi)容test
https://www.joke.com/2.html

這一部分需要一定的數(shù)據(jù)庫(kù)知識(shí)，不過(guò)你也可以比這葫蘆畫瓢，先把功能做出來(lái)，再加強(qiáng)相關(guān)知識(shí)。

抓取笑話并保存到數(shù)據(jù)庫(kù)

現(xiàn)在回到j(luò)oke_crawler.py中，去掉關(guān)于joke_db的注釋代碼

第1處在文件開頭：

#先注釋掉數(shù)據(jù)庫(kù)相關(guān)的代碼，后面需要反注釋回來(lái)
#import joke_db

第2處在文件的最下面：

for i in range(0, 10):
    joke, next_url = craw_joke(url)
    if joke:
        #先注釋掉數(shù)據(jù)庫(kù)相關(guān)的代碼，后面需要反注釋回來(lái)
        #joke_db.save(joke)
        print(joke)
        url = host + next_url
    print('歇一會(huì)兒再抓!')
    time.sleep(random.randint(1, 5))
print('抓完收工！')

去掉注釋后，再次運(yùn)行joke_crawler.py，就會(huì)把笑話保存在數(shù)據(jù)庫(kù)中。

為了驗(yàn)證是否保存成功了，可以去運(yùn)行joke_db.py，因?yàn)檫@個(gè)文件最后會(huì)打印出所有的笑話：

========打印一下所有的笑話======
loading jokes...
1-笑話Test
笑話內(nèi)容test
https://www.joke.com/1.html

2-笑話Test2
笑話內(nèi)容test
https://www.joke.com/2.html

3-成功
她：“因?yàn)閯e人都不同情你，我才做你的妻子。”他：“你總算成功了?，F(xiàn)在每個(gè)人都因此同情我?！?
http://xiaohua.zol.com.cn/detail1/1.html

4-結(jié)婚以后
女：“為什么從前你對(duì)我百依百順，可結(jié)婚才三天，你就跟我吵了兩天的架？”男：“因?yàn)槲业娜棠褪怯邢薅鹊??！?
http://xiaohua.zol.com.cn/detail1/2.html

5-我們的
燕爾新婚，新娘對(duì)新郎說(shuō)：“今后咱們不興說(shuō)‘我的'了，要說(shuō)‘我們的'。”新郎去洗澡，良久不出，新娘問(wèn)：“你在干什么哪？”“親愛(ài)的，我在刮我們的胡子呢?！?
http://xiaohua.zol.com.cn/detail1/3.html

6-杞人憂天
妻子患了重病，醫(yī)生宣告回天乏術(shù)。妻子即對(duì)丈夫說(shuō)：“我現(xiàn)在希望你能夠發(fā)誓?！薄鞍l(fā)什么誓?！薄叭绻阍倩?，不準(zhǔn)把我的衣服給你的新妻子穿。”丈夫恍然大悟道：“這個(gè)我可以發(fā)誓。說(shuō)實(shí)話，你根本不必操心，因?yàn)槲以僖膊幌胝蚁衲氵@樣胖的太太了。”
http://xiaohua.zol.com.cn/detail1/5.html

7-理由充分
法官：“離婚理由是什么？”新娘：“他打呼嚕?！狈ü伲骸敖Y(jié)婚多長(zhǎng)時(shí)間了？”新娘：“三天?！狈ü伲骸半x婚理由充分，結(jié)婚三天還不是打呼嚕的時(shí)候。”
http://xiaohua.zol.com.cn/detail1/6.html

8-聰明丈夫
某夫婦當(dāng)街而過(guò)，一只鴿子飛過(guò)天空，一泡鴿糞不偏不倚正巧落在太太肩上，太太急了，忙叫丈夫拿紙。丈夫抬頭，見鴿子不講衛(wèi)生，到處拉屎，卻不知妻子叫他拿紙干嘛，說(shuō)：“叫我有啥辦法，追上前去給它擦屁股呀！ ”
http://xiaohua.zol.com.cn/detail1/8.html

9-事故與災(zāi)難
一位夫人問(wèn)她的丈夫：“親愛(ài)的，你能告訴我‘事故'與‘災(zāi)難'這兩個(gè)詞之間有什么區(qū)別嗎？”“這很簡(jiǎn)單?！闭煞蛘J(rèn)真地回答說(shuō)，“譬如你失足落水，這就叫‘事故'；如果人家又把你當(dāng)魚釣上來(lái)，這就是‘災(zāi)難'了。”
http://xiaohua.zol.com.cn/detail1/13.html

10-吵架的結(jié)果
夫妻吵架了。當(dāng)丈夫下班回到家里，他發(fā)現(xiàn)妻子不在家。只在桌上留了一個(gè)條子，上面寫道：“午飯?jiān)凇杜胝{(diào)大全》第215頁(yè)；晚飯?jiān)?17頁(yè)?！?
http://xiaohua.zol.com.cn/detail1/14.html

11-保險(xiǎn)之險(xiǎn)
太太不懂保險(xiǎn)的道理，認(rèn)為繳保險(xiǎn)費(fèi)是浪費(fèi)，先生連忙解釋說(shuō)：“保險(xiǎn)是為了你和孩子，萬(wàn)一我死了；你們也有個(gè)保障呀！ ”太太反駁說(shuō)：“要是你不死呢？”
http://xiaohua.zol.com.cn/detail1/16.html

12-補(bǔ)不足
妻：“我曉得，你與我結(jié)婚，是因?yàn)槲矣绣X?！狈颍骸安皇?，是因?yàn)槲覜](méi)有錢?！?
http://xiaohua.zol.com.cn/detail1/17.html

到此這篇關(guān)于Python人工智能實(shí)戰(zhàn)之對(duì)話機(jī)器人的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Python對(duì)話機(jī)器人內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: