Python使用pyaudio實(shí)現(xiàn)錄音功能

更新時(shí)間：2023年05月19日 15:53:30 作者：風(fēng)吹落葉花飄蕩

pyaudio是一個(gè)跨平臺(tái)的音頻I/O庫，使用PyAudio可以在Python程序中播放和錄制音頻，本文將利用它實(shí)現(xiàn)錄音功能，并做到停止說話時(shí)自動(dòng)結(jié)束

一、程序邏輯

主要是根據(jù)麥克檢測到聲音的大小來判斷是否說話完畢

主要邏輯：檢測到聲音小于某個(gè)值后，再停頓一點(diǎn)時(shí)間，再次檢測，若聲音依舊小于某個(gè)值，再次檢測，若依然小于某個(gè)值，則判斷為說話結(jié)束；如果其中聲音再次大于某個(gè)值，則重新檢測。

二、全部程序

import pyaudio,wave
import numpy as np
def listen():
    temp = 20
    CHUNK = 1024
    FORMAT = pyaudio.paInt16
    CHANNELS = 1
    RATE = 16000
    RECORD_SECONDS = 2
    WAVE_OUTPUT_FILENAME = 'test.wav'

    mindb=2000    #最小聲音，大于則開始錄音，否則結(jié)束
    delayTime=1.3  #小聲1.3秒后自動(dòng)終止
    p = pyaudio.PyAudio()
    stream = p.open(format=FORMAT,
                    channels=CHANNELS,
                    rate=RATE,
                    input=True,
                    frames_per_buffer=CHUNK)
    #snowboydecoder.play_audio_file()
    print("開始!計(jì)時(shí)")

    frames = []
    flag = False            # 開始錄音節(jié)點(diǎn)
    stat = True				#判斷是否繼續(xù)錄音
    stat2 = False			#判斷聲音小了

    tempnum = 0				#tempnum、tempnum2、tempnum3為時(shí)間
    tempnum2 = 0

    while stat:
        data = stream.read(CHUNK,exception_on_overflow = False)
        frames.append(data)
        audio_data = np.frombuffer(data, dtype=np.short)
        temp = np.max(audio_data)
        if temp > mindb and flag==False:
            flag =True
            print("開始錄音")
            tempnum2=tempnum

        if flag:

            if(temp < mindb and stat2==False):
                stat2 = True
                tempnum2 = tempnum
                print("聲音小，且之前是是大的或剛開始，記錄當(dāng)前點(diǎn)")
            if(temp > mindb):
                stat2 =False
                tempnum2 = tempnum
                #刷新

            if(tempnum > tempnum2 + delayTime*15 and stat2==True):
                print("間隔%.2lfs后開始檢測是否還是小聲"%delayTime)
                if(stat2 and temp < mindb):
                    stat = False
                    #還是小聲，則stat=True
                    print("小聲！")
                else:
                    stat2 = False
                    print("大聲！")


        print(str(temp)  +  "      " +  str(tempnum))
        tempnum = tempnum + 1
        if tempnum > 150:				#超時(shí)直接退出
            stat = False
    print("錄音結(jié)束")

    stream.stop_stream()
    stream.close()
    p.terminate()
    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()

listen()

三、方法補(bǔ)充

除了上述方法，小編還為大家整理了其他可以實(shí)現(xiàn)錄音的功能，希望對(duì)大家有所幫助

import pyaudio
import numpy as np
from scipy import fftpack
import wave
# 錄音
# 錄音必須安裝portaudio模塊，否則會(huì)報(bào)錯(cuò)
# http://portaudio.com/docs/v19-doxydocs/compile_linux.html
def recording(filename, time=0, threshold=7000):
"""
:param filename: 文件名
:param time: 錄音時(shí)間,如果指定時(shí)間，按時(shí)間來錄音，默認(rèn)為自動(dòng)識(shí)別是否結(jié)束錄音
:param threshold: 判斷錄音結(jié)束的閾值
:return:
"""
CHUNK = 1024 # 塊大小
FORMAT = pyaudio.paInt16 # 每次采集的位數(shù)
CHANNELS = 1 # 聲道數(shù)
RATE = 16000 # 采樣率：每秒采集數(shù)據(jù)的次數(shù)
RECORD_SECONDS = time # 錄音時(shí)間
WAVE_OUTPUT_FILENAME = filename # 文件存放位置
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK)
print("* 錄音中...")
frames = []
if time > 0:
    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
        data = stream.read(CHUNK)
        frames.append(data)
        else:
            stopflag = 0
            stopflag2 = 0
            while True:
                data = stream.read(CHUNK)
                rt_data = np.frombuffer(data, np.dtype('
# print(rt_data*10)
# 傅里葉變換
fft_temp_data = fftpack.fft(rt_data, rt_data.size, overwrite_x=True)
fft_data = np.abs(fft_temp_data)[0:fft_temp_data.size // 2 + 1]
# 測試閾值，輸出值用來判斷閾值
print(sum(fft_data) // len(fft_data))
# 判斷麥克風(fēng)是否停止，判斷說話是否結(jié)束，# 麥克風(fēng)閾值，默認(rèn)7000
if sum(fft_data) // len(fft_data) > threshold:
    stopflag += 1
    else:
        stopflag2 += 1
        oneSecond = int(RATE / CHUNK)
        if stopflag2 + stopflag > oneSecond:
            if stopflag2 > oneSecond // 3 * 2:
            break
            else:
                stopflag2 = 0
                stopflag = 0
                frames.append(data)
                print("* 錄音結(jié)束")
                stream.stop_stream()
                stream.close()
                p.terminate()
                with wave.open(WAVE_OUTPUT_FILENAME, 'wb') as wf:
                    wf.setnchannels(CHANNELS)
                    wf.setsampwidth(p.get_sample_size(FORMAT))
                    wf.setframerate(RATE)
                    wf.writeframes(b''.join(frames))
                    # recording('ppp.mp3', time=5) # 按照時(shí)間來錄音，錄音5秒
                    recording('ppp.mp3') # 沒有聲音自動(dòng)停止，自動(dòng)停止

到此這篇關(guān)于Python使用pyaudio實(shí)現(xiàn)錄音功能的文章就介紹到這了,更多相關(guān)Python pyaudio錄音內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: