Python的speech_recognition庫如何將聲音轉為文字
前言
本篇給大家分享一下通過Python的speech_recognition庫將聲音轉為文字。
之前已經介紹了將音頻文件轉為文字,只依賴speech_recognition
庫,本篇將聲音轉為文字,除了speech_recognition
庫,還要依賴pyaudio
庫,而且mac用戶需要安裝PortAudio
。
Python-語音轉文字相關庫介紹 可見文末詳細介紹
一、PortAudio
1.PortAudio是什么?
PortAudio是一種跨平臺的音頻I/O庫,用于實現音頻輸入和輸出功能。它提供了一種簡單、一致的跨平臺API,可以讓開發(fā)者在不同操作系統(tǒng)上編寫音頻應用程序,如音頻錄制和播放器。PortAudio支持多種音頻設備,包括音頻接口、音頻文件、網絡流等,并且可以在各種操作系統(tǒng)上使用,如Windows、Mac OS X、Linux、Unix等。同時,PortAudio還提供了一些高級特性,如流控制、同步、緩沖管理、音頻格式轉換等。
2.安裝PortAudio
macOS下:
brew install portaudio
二、使用方法
1.引入庫
import speech_recognition as sr
2.創(chuàng)建一個Recognizer對象
r = sr.Recognizer()
3.使用麥克風錄音,從麥克風錄制音頻
# 使用麥克風錄音 with sr.Microphone() as source: print("請說話...") # 從麥克風錄制音頻 audio = r.listen(source) print("錄音結束")
4.將音頻轉換為文字
try: # 將音頻轉換為文字 text = r.recognize_google(audio, language='zh-CN') print("你說的是:", text) except sr.UnknownValueError: print("Google Speech Recognition could not understand audio") except sr.RequestError as e: print("Could not request results from Google Speech Recognition service; {0}".format(e))
5.轉換結果
聲音:深度神經網絡模型部署
請說話...
錄音結束
你說的是: 深度神經網絡模型部署Process finished with exit code 0
Python-語音轉文字相關庫介紹
一、speech_recognition庫是什么?
Python的speech_recognition庫是一個用于語音識別的Python包,它可以使Python程序能夠識別和翻譯來自麥克風、音頻文件或網絡流的語音。它支持多種語音識別引擎,包括Google Speech Recognition、CMU Sphinx、Microsoft Bing Voice Recognition等,可以根據需要選擇不同的引擎進行語音識別。
使用speech_recognition庫進行語音識別非常簡單,只需要導入該庫并創(chuàng)建一個Recognizer對象,然后調用該對象的recognize_*()方法即可。例如,調用recognize_google()方法可以使用Google Speech Recognition引擎進行語音識別。
二、安裝speech_recognition庫
pip install SpeechRecognition
三、查看speech_recognition版本
pip show SpeechRecognition
Name: SpeechRecognition
Version: 3.10.0
Summary: Library for performing speech recognition, with support for several engines and APIs, online and offline.
Home-page: https://github.com/Uberi/speech_recognition#readme
Author: Anthony Zhang (Uberi)
Author-email: azhang9@gmail.com
License: BSD
Requires: requests
Required-by:
四、pyaudio庫是什么?
Pyaudio是Python語言的一個音頻處理庫,可以用來錄制音頻、播放音頻、讀取音頻文件等。它是一個跨平臺的庫,可以在Windows、Mac、Linux等多個操作系統(tǒng)上使用。Pyaudio庫是基于PortAudio C庫開發(fā)的,PortAudio是一個跨平臺的音頻處理庫,Pyaudio庫可以方便的使用PortAudio庫的功能。
五、安裝pyaudio庫
pip install pyaudio
六、查看pyaudio版本
pip show pyaudio
Name: PyAudio
Version: 0.2.13
Summary: Cross-platform audio I/O with PortAudio
Home-page: https://people.csail.mit.edu/hubert/pyaudio/
Author: Hubert Pham
Author-email:
License: MIT
Requires:
Required-by:
到此這篇關于通過Python的speech_recognition庫將聲音轉為文字的文章就介紹到這了,更多相關Python聲音轉為文字內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Django REST framework 單元測試實例解析
這篇文章主要介紹了Django REST framework 單元測試實例解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2019-11-11