python語(yǔ)音識(shí)別whisper的使用
一、背景
最近想提取一些視頻的字幕,語(yǔ)音文案,研究了一波
二、whisper語(yǔ)音識(shí)別
Whisper 是一種通用的語(yǔ)音識(shí)別模型。它在不同音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,也是一個(gè)多任務(wù)模型,可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別以及語(yǔ)音翻譯和語(yǔ)言識(shí)別。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代碼發(fā)布,生成更準(zhǔn)確的階段時(shí)間切換,并在無須額外推介的情況下獲得申領(lǐng)
安裝
pip install openai-whisper pip install stable-ts
Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
三、示例
模型越大,越精確,相應(yīng)話費(fèi)的時(shí)間越長(zhǎng)
自帶語(yǔ)言識(shí)別功能,language最好加上,下面歌曲識(shí)別為英語(yǔ),加后為中文
stable_whisper 是 whisper 進(jìn)化版
import whisper import stable_whisper as whisper class WhisperTranscriber(object): ? ? def __init__(self, model_name): ? ? ? ? self.model = whisper.load_model(model_name) ? ? def whisper_transcribe(self, audio_path): ? ? ? ? audio = self.model.transcribe(audio_path, fp16=False, language='Chinese') ? ? ? ? return audio['text'] if __name__ == '__main__': ? ? transcriber = WhisperTranscriber("base") ? ? text = transcriber.whisper_transcribe("257853511.mp3") ? ? print(text)
可能是伴奏聲音過大,你才出來這是什么歌了嗎?stable_whisper 別的用法、生成字幕
import stable_whisper model = stable_whisper.load_model('base') results = model.transcribe('257853511.mp3', fp16=False, language='Chinese') stable_whisper.results_to_sentence_srt(results, 'audio') stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')
四、封裝工具
如果遇到簡(jiǎn)繁轉(zhuǎn)換可以石下面
pip install zhconv
- zh-cn 大陸簡(jiǎn)體
- zh-hant 繁體
from zhconv import convert convert('Python是一種動(dòng)態(tài)的、面向?qū)ο蟮哪_本語(yǔ)言', 'zh-hant') 'Python是一種動(dòng)態(tài)的、面向?qū)ο蟮哪_本語(yǔ)言'
到此這篇關(guān)于python語(yǔ)音識(shí)別whisper的使用的文章就介紹到這了,更多相關(guān)python語(yǔ)音識(shí)別whisper內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Pyside2中嵌入Matplotlib的繪圖的實(shí)現(xiàn)
這篇文章主要介紹了Pyside2中嵌入Matplotlib的繪圖的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-02-02關(guān)于Python?Selenium自動(dòng)化導(dǎo)出新版WOS(web?of?science)檢索結(jié)果的問題
這篇文章主要介紹了Python?Selenium自動(dòng)化導(dǎo)出新版WOS(web?of?science)檢索結(jié)果,本代碼屬于半自動(dòng)化導(dǎo)出,考慮到開發(fā)效率等因素,有兩處在首次導(dǎo)出時(shí)需要手動(dòng)操作,具體實(shí)現(xiàn)過程跟隨小編一起看看吧2022-01-01利用pandas進(jìn)行數(shù)據(jù)清洗的方法
本文主要介紹了利用pandas進(jìn)行數(shù)據(jù)清洗的方法,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-09-09Python正則表達(dá)式如何進(jìn)行字符串替換實(shí)例
Python正則表達(dá)式在使用中會(huì)經(jīng)常應(yīng)用到字符串替換的代碼。這篇文章主要介紹了Python正則表達(dá)式如何進(jìn)行字符串替換,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下。2016-12-12tensorflow1.15與numpy、keras以及Python兼容版本對(duì)照方式
這篇文章主要介紹了tensorflow1.15與numpy、keras以及Python兼容版本對(duì)照方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-03-03使用python寫一個(gè)自動(dòng)瀏覽文章的腳本實(shí)例
今天小編就為大家分享一篇使用python寫一個(gè)自動(dòng)瀏覽文章的腳本實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-12-12