Python巧用SnowNLP實現(xiàn)生成srt字幕文件
前言
最近在嘗試moviepy制作視頻,但是有時候需要制作字幕。一般視頻剪輯軟件都是手工添加字幕,這個很費時費力。
雖然某音等可以自動識別語音添加字幕,但寶寶要使用moviepy制作視頻,都已經(jīng)有文字了,還需要再語音識別么?這就有點脫褲子放屁了。
那有沒有一種簡便的方法呢?比如我給一段話就可以自動生成字幕。如何可以一鍵生成字幕文件?
但皇天不負苦心人,還真讓我搞出來了。
要做字幕,首先就得處理文章斷句。這個搞不定,后面都弄不成。但現(xiàn)在大部分的自然語言處理庫基本都是針對英文的,那需要處理中文,怎么辦呢?這里給大家推薦一個方便處理中文的類庫SnowNLP。通過這個庫進行斷句,再加上合適的方法,就可以生成srt字幕文件了。
一、SnowNLP是什么
SnowNLP是一個可以方便的處理中文文本內(nèi)容的python類庫,據(jù)作者介紹,是受到了TextBlob的啟發(fā)而寫的,和TextBlob不同的是,這里沒有用NLTK,所有的算法都是自己實現(xiàn)的,并且自帶了一些訓練好的字典。
SnowNLP主要功能包括分詞、詞性標注、情感分析、漢字轉(zhuǎn)拼音、繁體轉(zhuǎn)簡體、關(guān)鍵詞提取以及文本摘要等等。
二、SnowNLP使用方法
1. 安裝
pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple
2. 官方示例
官方已經(jīng)舉例了一些使用方法,這里羅列以下,引文本文重點不在這里。
from snownlp import SnowNLP s = SnowNLP(u'這個東西真心很贊') s.words # [u'這個', u'東西', u'真心', # u'很', u'贊'] s.tags # [(u'這個', u'r'), (u'東西', u'n'), # (u'真心', u'd'), (u'很', u'd'), # (u'贊', u'Vg')] s.sentiments # 0.9769663402895832 positive的概率 s.pinyin # [u'zhe', u'ge', u'dong', u'xi', # u'zhen', u'xin', u'hen', u'zan'] s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。') s.han # u'「繁體字」「繁體中文」的叫法 # 在臺灣亦很常見。' text = u''' 自然語言處理是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。 它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。 自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。 因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言, 所以它與語言學的研究有著密切的聯(lián)系,但又有重要的區(qū)別。 自然語言處理并不是一般地研究自然語言, 而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng), 特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分。 ''' s = SnowNLP(text) s.keywords(3) # [u'語言', u'自然', u'計算機'] s.summary(3) # [u'因而它是計算機科學的一部分', # u'自然語言處理是一門融語言學、計算機科學、 # 數(shù)學于一體的科學', # u'自然語言處理是計算機科學領(lǐng)域與人工智能 # 領(lǐng)域中的一個重要方向'] s.sentences s = SnowNLP([[u'這篇', u'文章'], [u'那篇', u'論文'], [u'這個']]) s.tf s.idf s.sim([u'文章'])# [0.3756070762985226, 0, 0]
這些都不是重點,重點是s.sentences這個用法。
三、借用SnowNLP制作srt字幕文件
在給視頻添加字幕,我們需要srt字幕文件(有點像MP3的lrc歌詞文件)。格式就是序號、時間、內(nèi)容。格式雖然很簡單,但是要讓程序字段斷句可不好弄。而且文章一般還有標點符號,字幕一般還不能太長,太長了一屏顯示不下也不好。
如何可以自動斷句,去掉標點符號,還得控制字幕在15個字符,還得根據(jù)15個字幕的速度控制好顯示的時間。哦,想想都頭大。
不過,經(jīng)過多個日夜的反復調(diào)試,目前終于可以實現(xiàn)如上功能,給定一段文字,用程序自動生成字幕文件。且各種節(jié)奏都已處理好。
代碼如下
def gen_srt(text,srt_path): import re from snownlp import SnowNLP # popboy:將文本分成多個句子 sentences = [] t = SnowNLP(text) for sen in t.sentences: # print(sen + "\n") sentences.append(sen) # 逐句進行再判斷,如果大于15個字符則再進行分割。 captions = [] delimiter_set = {'。', '#', '?', '?', '$', ':', ':'} for sen in sentences: if len(sen)>15: sub_sen = re.split(r'[{char_set}]'.format(char_set=delimiter_set), sen) for i in sub_sen: captions.append(i) else: captions.append(sen) # 計算每個句子的持續(xù)時間 end_time = 0 srt = '' for i, sentence in enumerate(captions): start_time = end_time + 0 start_time_str = "{:02d}:{:02d}:{:02d},{}".format(int(start_time // 3600), int((start_time % 3600) // 60), int(start_time % 60), "000") duration = len(sentence) * 0.225 end_time = start_time + duration end_time_str = "{:02d}:{:02d}:{:02d},{}".format(int(end_time // 3600), int((end_time % 3600) // 60), int(end_time % 60), "000") srt += "{}\n{} --> {}\n{}\n\n".format(i+1, start_time_str, end_time_str, sentence) # 保存srt文件 with open(srt_path, 'w', encoding='utf-8') as f: f.write(srt) print(f'字幕srt文件已保存到{srt_path}') if __name__ == "__main__": text = ''' 在上面的代碼中,我們首先指定要打開的文本文件的路徑。然后,我們創(chuàng)建了一個簡單的窗口布局,其中包含一個文本框元素用于顯示文件內(nèi)容。接下來,我們打開文本文件并讀取其內(nèi)容。 ''' srt_path = r'c:\captions.srt' gen_srt(text,srt_path)
經(jīng)過調(diào)試,最終生成的字幕文件如下:
1
00:00:00,000 --> 00:00:01,000
在上面的代碼中
2
00:00:01,000 --> 00:00:05,000
我們首先指定要打開的文本文件的路徑
3
00:00:05,000 --> 00:00:05,000
然后
4
00:00:05,000 --> 00:00:09,000
我們創(chuàng)建了一個簡單的窗口布局
5
00:00:09,000 --> 00:00:13,000
其中包含一個文本框元素用于顯示文件內(nèi)容
6
00:00:13,000 --> 00:00:13,000
接下來
7
00:00:13,000 --> 00:00:17,000
我們打開文本文件并讀取其內(nèi)容
如上的srt就成為moviepy可以使用的字幕文件了。
總結(jié)
今天就先寫到這里,這個主要是介紹如何生成字幕文件,后續(xù)再考慮如何添加字幕文件給視頻。
另外,moviepy在讀取srt文件時經(jīng)常報錯,博主已經(jīng)替大家掃除了障礙,詳見:
關(guān)聯(lián)閱讀
moviepy讀取字幕srt文件報錯‘gbk‘ codec can‘t decode的解決辦法(修改subtitles.py中SubtitlesClip類完美解決)
博主自己調(diào)測,費了好大勁才完成的代碼,貢獻出來,如果幫到大家不妨點個贊再復制使用!
附錄
(base) C:\Users\Administrator>pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting snownlp
Downloading https://pypi.tuna.tsinghua.edu.cn/packages/3d/b3/37567686662100d3bce62d3b0f2adec18ab4b9ff2b61abd7a61c39343c1d/snownlp-0.12.3.tar.gz (37.6 MB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 37.6/37.6 MB 22.6 MB/s eta 0:00:00
Preparing metadata (setup.py) ... done
Building wheels for collected packages: snownlp
Building wheel for snownlp (setup.py) ... done
Created wheel for snownlp: filename=snownlp-0.12.3-py3-none-any.whl size=37760953 sha256=7d043a27ee980f427133a879dd55ceb3647cb54b8713d358b865b31f7cb25253
Stored in directory: c:\users\administrator\appdata\local\pip\cache\wheels\86\7d\1d\8f369105b5ef43f33d885ba1fd289d47c57014b391a6708131
Successfully built snownlp
Installing collected packages: snownlp
Successfully installed snownlp-0.12.3
(base) C:\Users\Administrator>
到此這篇關(guān)于Python巧用SnowNLP實現(xiàn)生成srt字幕文件的文章就介紹到這了,更多相關(guān)Python SnowNLP生成srt字幕內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python OpenCV學習筆記實現(xiàn)二維直方圖
本篇文章主要介紹了python OpenCV學習筆記實現(xiàn)二維直方圖,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-02-02python3.5+tesseract+adb實現(xiàn)西瓜視頻或頭腦王者輔助答題
這篇文章主要介紹了python3.5+tesseract+adb實現(xiàn)西瓜視頻或頭腦王者輔助答題,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-01-01python統(tǒng)計mysql數(shù)據(jù)量變化并調(diào)用接口告警的示例代碼
這篇文章主要介紹了python統(tǒng)計mysql數(shù)據(jù)量變化并調(diào)用接口告警的示例代碼,幫助大家更好的利用python操作數(shù)據(jù)庫,感興趣的朋友可以了解下2020-09-09