快捷導(dǎo)航

Python實(shí)現(xiàn)語(yǔ)音識(shí)別vosk的示例代碼

更新時(shí)間：2023年12月13日 11:21:09 作者：愛(ài)看書(shū)的小沐

Vosk是一個(gè)功能強(qiáng)大且易于使用的語(yǔ)音識(shí)別工具包,它提供了Python綁定,使得在Python中使用Vosk變得非常方便,本文主要介紹了Python實(shí)現(xiàn)語(yǔ)音識(shí)別vosk的示例代碼,具有一定的參考價(jià)值,感興趣的可以了解一下

1、簡(jiǎn)介

https://alphacephei.com/vosk/index.zh.html

Vosk 是一個(gè)語(yǔ)音識(shí)別工具包。

1.1 vosk簡(jiǎn)介

支持二十+種語(yǔ)言 - 中文，英語(yǔ)，印度英語(yǔ)，德語(yǔ)，法語(yǔ)，西班牙語(yǔ)，葡萄牙語(yǔ)，俄語(yǔ)，土耳其語(yǔ)，越南語(yǔ)，意大利語(yǔ)，荷蘭人，加泰羅尼亞語(yǔ)，阿拉伯, 希臘語(yǔ), 波斯語(yǔ), 菲律賓語(yǔ)，烏克蘭語(yǔ), 哈薩克語(yǔ), 瑞典語(yǔ), 日語(yǔ), 世界語(yǔ), 印地語(yǔ), 捷克語(yǔ), 波蘭語(yǔ), 烏茲別克語(yǔ), 韓國(guó)語(yǔ)
移動(dòng)設(shè)備上脫機(jī)工作-Raspberry Pi，Android，iOS
使用簡(jiǎn)單的 pip3 install vosk 安裝
每種語(yǔ)言的手提式模型只有是50Mb, 但還有更大的服務(wù)器模型可用
提供流媒體API，以提供最佳用戶體驗(yàn)（與流行的語(yǔ)音識(shí)別python包不同）
還有用于不同編程語(yǔ)言的包裝器-java / csharp / javascript等
可以快速重新配置詞匯以實(shí)現(xiàn)最佳準(zhǔn)確性
支持說(shuō)話人識(shí)別

1.2 vosk模型

https://alphacephei.com/vosk/models

有兩種類型的模型 - 大模型和小模型，非常適合移動(dòng)應(yīng)用程序上的一些有限任務(wù)。它們可以在智能手機(jī)上運(yùn)行，樹(shù)莓派的。還建議將它們用于桌面應(yīng)用程序。小模型的大小通常約為 50Mb，需要大約 300Mb 的內(nèi)存在運(yùn)行時(shí)。大模型用于服務(wù)器。大型型號(hào)需要高達(dá) 16Gb 的內(nèi)存，因?yàn)樗鼈儜?yīng)用了先進(jìn)的人工智能算法。

在這里插入圖片描述

# 下載模型文件：
wget -c https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip
wget -c https://alphacephei.com/vosk/models/vosk-model-cn-0.15.zip
wget -c https://alphacephei.com/vosk/models/vosk-model-cn-kaldi-multicn-0.15.zip

1.3 vosk服務(wù)

一個(gè)基于Vosk-API的非常簡(jiǎn)單的服務(wù)器。
不同的協(xié)議有四種實(shí)現(xiàn) - websocket、grpc、mqtt、webrtc。
啟動(dòng)服務(wù)器：

#獲取docker鏡像：
docker pull alphacep/kaldi-cn:latest
#啟動(dòng)服務(wù)：
docker run -d -p 2700:2700 alphacep/kaldi-cn:latest

若要測(cè)試服務(wù)器，請(qǐng)運(yùn)行示例腳本：

git clone https://github.com/alphacep/vosk-server
cd vosk-server/websocket
./test.py test.wav

使用麥克風(fēng)進(jìn)行測(cè)試，您需要安裝 sounddevice pip 包：

pip3 install sounddevice

要使用麥克風(fēng)進(jìn)行測(cè)試，請(qǐng)運(yùn)行：

./test_microphone.py -u ws://localhost:2700

使用docker方式啟動(dòng)服務(wù)，比較簡(jiǎn)單，但下載docker包比較耗時(shí)，如果已經(jīng)下載好vosk-server代碼及對(duì)應(yīng)的模型文件，可以直接通過(guò)python代碼啟動(dòng)vosk-server提供asr服務(wù)。

#1、下載vosk-server代碼
git clone https://github.com/alphacep/vosk-server
#2、下載模型文件
wget -c https://alphacephei.com/vosk/models/vosk-model-cn-0.15.zip
#3、啟動(dòng)vosk服務(wù)
python asr_server.py vosk-model-cn-0.15

2、安裝

確保您擁有最新的 pip 和 python3 版本：

Python版本：3.5-3.9
pip 版本：20.3 及更高版本。

pip3 install vosk
# pip3 install vosk -i https://pypi.doubanio.com/simple
# pip3 install https://github.com/alphacep/vosk-api/releases/download/v0.3.42/vosk-0.3.42-py3-none-linux_riscv64.whl

在這里插入圖片描述

python3 --version
pip3 --version
pip3 -v install vosk

# 驗(yàn)證ffmpeg是否已安裝，調(diào)用命令行（windows+R輸入cmd）/ Ubuntu終端
$ ffmpeg –version

在這里插入圖片描述

3、測(cè)試

3.1 命令行測(cè)試

vosk-transcriber -i test.mp4 -o test.txt
vosk-transcriber -i test.mp4 -t srt -o test.srt
vosk-transcriber -l fr -i test.m4a -t srt -o test.srt
vosk-transcriber --list-languages

# windows 
$ cd xxx/xxx
 
# 查看help命令
$ vosk-transcriber -h
 
# 列舉當(dāng)前的語(yǔ)言
$ vosk-transcriber --list-languages
 
# 方式一 ：中文語(yǔ)音轉(zhuǎn)漢字
$ vosk-transcriber -i xxx.mp3 -o xxx.txt -l cn  
 
# 方式二 ：中文語(yǔ)音轉(zhuǎn)漢字， 也可以去網(wǎng)站下載模型后直接指定模型路徑
$ vosk-transcriber -i xxx.mp3 -o xxx.txt -m 解壓后的文件夾路徑

在這里插入圖片描述

3.2 代碼測(cè)試

若要運(yùn)行 python 示例，請(qǐng)克隆 vosk-api 并運(yùn)行以下命令：

git clone https://github.com/alphacep/vosk-api
cd vosk-api/python/example
python3 ./test_simple.py test.wav

在這里插入圖片描述

使用您自己的音頻文件時(shí)，請(qǐng)確保其格式正確 - PCM 16kHz 16bit 單聲道。否則，如果您安裝了 ffmpeg，則可以使用，它為您進(jìn)行轉(zhuǎn)換。

到此這篇關(guān)于Python實(shí)現(xiàn)語(yǔ)音識(shí)別vosk的示例代碼的文章就介紹到這了,更多相關(guān)Python 語(yǔ)音識(shí)別vosk內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: