亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python巧用SnowNLP實現(xiàn)生成srt字幕文件

 更新時間:2024年01月23日 09:06:25   作者:IT里的交易員  
SnowNLP是一個可以方便的處理中文文本內(nèi)容的python類庫,本文主要為大家詳細介紹了Python如何巧用SnowNLP實現(xiàn)將一段話一鍵生成srt字幕文件,感興趣的可以了解下

前言

最近在嘗試moviepy制作視頻,但是有時候需要制作字幕。一般視頻剪輯軟件都是手工添加字幕,這個很費時費力。

雖然某音等可以自動識別語音添加字幕,但寶寶要使用moviepy制作視頻,都已經(jīng)有文字了,還需要再語音識別么?這就有點脫褲子放屁了。

那有沒有一種簡便的方法呢?比如我給一段話就可以自動生成字幕。如何可以一鍵生成字幕文件?

但皇天不負苦心人,還真讓我搞出來了。

要做字幕,首先就得處理文章斷句。這個搞不定,后面都弄不成。但現(xiàn)在大部分的自然語言處理庫基本都是針對英文的,那需要處理中文,怎么辦呢?這里給大家推薦一個方便處理中文的類庫SnowNLP。通過這個庫進行斷句,再加上合適的方法,就可以生成srt字幕文件了。

一、SnowNLP是什么

SnowNLP是一個可以方便的處理中文文本內(nèi)容的python類庫,據(jù)作者介紹,是受到了TextBlob的啟發(fā)而寫的,和TextBlob不同的是,這里沒有用NLTK,所有的算法都是自己實現(xiàn)的,并且自帶了一些訓練好的字典。

SnowNLP主要功能包括分詞、詞性標注、情感分析、漢字轉(zhuǎn)拼音、繁體轉(zhuǎn)簡體、關(guān)鍵詞提取以及文本摘要等等。

二、SnowNLP使用方法

1. 安裝

pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 官方示例

官方已經(jīng)舉例了一些使用方法,這里羅列以下,引文本文重點不在這里。

from snownlp import SnowNLP

s = SnowNLP(u'這個東西真心很贊')

s.words         # [u'這個', u'東西', u'真心',
                #  u'很', u'贊']

s.tags          # [(u'這個', u'r'), (u'東西', u'n'),
                #  (u'真心', u'd'), (u'很', u'd'),
                #  (u'贊', u'Vg')]

s.sentiments    # 0.9769663402895832 positive的概率

s.pinyin        # [u'zhe', u'ge', u'dong', u'xi',
                #  u'zhen', u'xin', u'hen', u'zan']

s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')

s.han           # u'「繁體字」「繁體中文」的叫法
                # 在臺灣亦很常見。'

text = u'''
自然語言處理是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。
它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。
自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。
因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,
所以它與語言學的研究有著密切的聯(lián)系,但又有重要的區(qū)別。
自然語言處理并不是一般地研究自然語言,
而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),
特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分。
'''

s = SnowNLP(text)

s.keywords(3)	# [u'語言', u'自然', u'計算機']

s.summary(3)	# [u'因而它是計算機科學的一部分',
                #  u'自然語言處理是一門融語言學、計算機科學、
				#	 數(shù)學于一體的科學',
				#  u'自然語言處理是計算機科學領(lǐng)域與人工智能
				#	 領(lǐng)域中的一個重要方向']
s.sentences

s = SnowNLP([[u'這篇', u'文章'],
             [u'那篇', u'論文'],
             [u'這個']])
s.tf
s.idf
s.sim([u'文章'])# [0.3756070762985226, 0, 0]

這些都不是重點,重點是s.sentences這個用法。

三、借用SnowNLP制作srt字幕文件

在給視頻添加字幕,我們需要srt字幕文件(有點像MP3的lrc歌詞文件)。格式就是序號、時間、內(nèi)容。格式雖然很簡單,但是要讓程序字段斷句可不好弄。而且文章一般還有標點符號,字幕一般還不能太長,太長了一屏顯示不下也不好。

如何可以自動斷句,去掉標點符號,還得控制字幕在15個字符,還得根據(jù)15個字幕的速度控制好顯示的時間。哦,想想都頭大。

不過,經(jīng)過多個日夜的反復調(diào)試,目前終于可以實現(xiàn)如上功能,給定一段文字,用程序自動生成字幕文件。且各種節(jié)奏都已處理好。

代碼如下

def gen_srt(text,srt_path):
    import re
    from snownlp import SnowNLP
    # popboy:將文本分成多個句子
    sentences = []
    t = SnowNLP(text)
    for sen in t.sentences:
        # print(sen + "\n")
        sentences.append(sen)

    # 逐句進行再判斷,如果大于15個字符則再進行分割。
    captions = []
    delimiter_set = {'。', '#', '?', '?', '$', ':', ':'} 
    for sen in sentences:
        if len(sen)>15:
            sub_sen = re.split(r'[{char_set}]'.format(char_set=delimiter_set), sen)
            for i in sub_sen:
                captions.append(i)
        else:
            captions.append(sen)

    # 計算每個句子的持續(xù)時間
    end_time = 0
    srt = ''
    for i, sentence in enumerate(captions):
        start_time = end_time + 0
        start_time_str = "{:02d}:{:02d}:{:02d},{}".format(int(start_time // 3600), int((start_time % 3600) // 60), int(start_time % 60), "000")
        duration = len(sentence) * 0.225
        end_time = start_time + duration
        end_time_str = "{:02d}:{:02d}:{:02d},{}".format(int(end_time // 3600), int((end_time % 3600) // 60), int(end_time % 60), "000")
        srt += "{}\n{} --> {}\n{}\n\n".format(i+1, start_time_str, end_time_str, sentence)

    # 保存srt文件
    with open(srt_path, 'w', encoding='utf-8') as f:
        f.write(srt)
    print(f'字幕srt文件已保存到{srt_path}')

if __name__ == "__main__": 
    text = '''
    在上面的代碼中,我們首先指定要打開的文本文件的路徑。然后,我們創(chuàng)建了一個簡單的窗口布局,其中包含一個文本框元素用于顯示文件內(nèi)容。接下來,我們打開文本文件并讀取其內(nèi)容。
    '''
    srt_path = r'c:\captions.srt'
    gen_srt(text,srt_path)

經(jīng)過調(diào)試,最終生成的字幕文件如下:

1
00:00:00,000 --> 00:00:01,000
在上面的代碼中

2
00:00:01,000 --> 00:00:05,000
我們首先指定要打開的文本文件的路徑

3
00:00:05,000 --> 00:00:05,000
然后

4
00:00:05,000 --> 00:00:09,000
我們創(chuàng)建了一個簡單的窗口布局

5
00:00:09,000 --> 00:00:13,000
其中包含一個文本框元素用于顯示文件內(nèi)容

6
00:00:13,000 --> 00:00:13,000
接下來

7
00:00:13,000 --> 00:00:17,000
我們打開文本文件并讀取其內(nèi)容

如上的srt就成為moviepy可以使用的字幕文件了。

總結(jié)

今天就先寫到這里,這個主要是介紹如何生成字幕文件,后續(xù)再考慮如何添加字幕文件給視頻。

另外,moviepy在讀取srt文件時經(jīng)常報錯,博主已經(jīng)替大家掃除了障礙,詳見:

關(guān)聯(lián)閱讀

moviepy讀取字幕srt文件報錯‘gbk‘ codec can‘t decode的解決辦法(修改subtitles.py中SubtitlesClip類完美解決)

博主自己調(diào)測,費了好大勁才完成的代碼,貢獻出來,如果幫到大家不妨點個贊再復制使用!

附錄

(base) C:\Users\Administrator>pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting snownlp
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/3d/b3/37567686662100d3bce62d3b0f2adec18ab4b9ff2b61abd7a61c39343c1d/snownlp-0.12.3.tar.gz (37.6 MB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 37.6/37.6 MB 22.6 MB/s eta 0:00:00
  Preparing metadata (setup.py) ... done
Building wheels for collected packages: snownlp
  Building wheel for snownlp (setup.py) ... done
  Created wheel for snownlp: filename=snownlp-0.12.3-py3-none-any.whl size=37760953 sha256=7d043a27ee980f427133a879dd55ceb3647cb54b8713d358b865b31f7cb25253
  Stored in directory: c:\users\administrator\appdata\local\pip\cache\wheels\86\7d\1d\8f369105b5ef43f33d885ba1fd289d47c57014b391a6708131
Successfully built snownlp
Installing collected packages: snownlp
Successfully installed snownlp-0.12.3

(base) C:\Users\Administrator>

到此這篇關(guān)于Python巧用SnowNLP實現(xiàn)生成srt字幕文件的文章就介紹到這了,更多相關(guān)Python SnowNLP生成srt字幕內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python中的Pillow常用功能詳解

    python中的Pillow常用功能詳解

    Pillow是一個強大的圖像處理庫,支持多種圖像操作,如打開、保存、裁剪、調(diào)整大小、旋轉(zhuǎn)、翻轉(zhuǎn)、過濾、合成、添加文字、調(diào)整模式和創(chuàng)建縮略圖,本文介紹python中的Pillow常用功能,感興趣的朋友一起看看
    2025-02-02
  • Python如何判斷字符串是否僅包含數(shù)字

    Python如何判斷字符串是否僅包含數(shù)字

    在用Python進行數(shù)據(jù)處理的時候,經(jīng)常會遇到DataFrame中的某一列本應該是數(shù)值類型,但由于數(shù)據(jù)不規(guī)范導致在字段中夾雜了非數(shù)值類型,本文就介紹了Python如何判斷字符串是否僅包含數(shù)字,感興趣的可以了解一下
    2022-03-03
  • python OpenCV學習筆記實現(xiàn)二維直方圖

    python OpenCV學習筆記實現(xiàn)二維直方圖

    本篇文章主要介紹了python OpenCV學習筆記實現(xiàn)二維直方圖,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-02-02
  • Python實現(xiàn)冒泡,插入,選擇排序簡單實例

    Python實現(xiàn)冒泡,插入,選擇排序簡單實例

    這篇文章主要介紹了Python實現(xiàn)冒泡,插入,選擇排序簡單實例,很適合Python初學者學習參考之用,需要的朋友可以參考下
    2014-08-08
  • python3.5+tesseract+adb實現(xiàn)西瓜視頻或頭腦王者輔助答題

    python3.5+tesseract+adb實現(xiàn)西瓜視頻或頭腦王者輔助答題

    這篇文章主要介紹了python3.5+tesseract+adb實現(xiàn)西瓜視頻或頭腦王者輔助答題,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-01-01
  • python設計模式大全

    python設計模式大全

    這篇文章主要介紹了python設計模式,通過簡單的代碼實現(xiàn)了Python常見的各種設計模式,包括橋接模式、觀測者模式、適配器模式、工廠模式、單例模式等,需要的朋友可以參考下
    2016-06-06
  • Python編程獲取終端命令行參數(shù)示例

    Python編程獲取終端命令行參數(shù)示例

    這篇文章主要為大家介紹了Python編程獲取終端命令行參數(shù)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-06-06
  • python頻繁寫入文件時提速的方法

    python頻繁寫入文件時提速的方法

    在本篇內(nèi)容里小編給大家整理了關(guān)于python頻繁寫入文件時提速的方法以及相關(guān)代碼,需要的朋友們學習下。
    2019-06-06
  • python統(tǒng)計mysql數(shù)據(jù)量變化并調(diào)用接口告警的示例代碼

    python統(tǒng)計mysql數(shù)據(jù)量變化并調(diào)用接口告警的示例代碼

    這篇文章主要介紹了python統(tǒng)計mysql數(shù)據(jù)量變化并調(diào)用接口告警的示例代碼,幫助大家更好的利用python操作數(shù)據(jù)庫,感興趣的朋友可以了解下
    2020-09-09
  • 5行Python代碼實現(xiàn)一鍵批量扣圖

    5行Python代碼實現(xiàn)一鍵批量扣圖

    在日常生活或者工作中,經(jīng)常會遇到想將某張照片中的人物摳出來,本文就介紹了Python代碼實現(xiàn)一鍵批量扣圖,感興趣的可以了解一下
    2021-06-06

最新評論