亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

編寫簡單的Python程序來判斷文本的語種

 更新時間:2015年04月07日 17:00:13   投稿:goldensun  
這篇文章主要介紹了編寫簡單的Python程序來判斷語種,代碼非常簡單,主要用到了langid工具包,需要的朋友可以參考下

1.問題的描述

用Python進行文本處理時,有時候處理的文本中包含中文、英文、日文等多個語系的文本,有時候不能同時進行處理,這個時候就需要判別當前文本是屬于哪個語系的。Python中有個langid工具包提供了此功能,langid目前支持97種語言的檢測,非常好用。


2.程序的代碼

以下Python是調(diào)用langid工具包來對文本進行語言檢測與判別的程序代碼:
 

import langid                             #引入langid模塊 
  
def translate(inputFile, outputFile): 
  fin = open(inputFile, 'r')                  #以讀的方式打開輸入文件 
  fout = open(outputFile, 'w')                 #以寫的方式打開輸出文件 
  
  for eachLine in fin:                     #依次讀入每一行 
    line = eachLine.strip().decode('utf-8', 'ignore')   #去除每行的首位空格等,并統(tǒng)一轉(zhuǎn)化成Unicode 
    lineTuple = langid.classify(line)           #調(diào)用langid來對該行進行語言檢測 
    if lineTuple[0] == "zh":               #如果該行語言大部分為中文,則不進行任何處理 
      continue 
  
    outstr = line                     #如果該行語言為非中文,則準備輸出 
    fout.write(outstr.strip().encode('utf-8') + '\n')   #輸出非中文的行,從Unicode轉(zhuǎn)化成utf-8輸出 
  
  fin.close() 
  fout.close() 
  
if __name__ == '__main__':                      #相當于main函數(shù) 
  translate("myInputFile.txt", "myOutputFile.txt") 
 

 以上代碼是用來處理一個文本,將不屬于中文的行依次輸出到一個新的文件。

 
3.注意

第9、10行代碼,langid.classify(line)的輸出結(jié)果是一個二元組,二元組的第一項表示該文本所屬的語系,如:zh表示中文、en表示英語、等等;二元組的第二項表示該文本中屬于第一項中語系的所占比例。

 

希望對大家有所幫助。

相關(guān)文章

  • Python中Numba庫裝飾器的具體使用

    Python中Numba庫裝飾器的具體使用

    Numba是一個針對Python的開源JIT編譯器,使用Numba非常方便,只需要在Python原生函數(shù)上增加一個裝飾器,本文主要介紹了Python中Numba庫裝飾器的具體使用,感興趣的可以了解一下
    2024-01-01
  • pycharm實現(xiàn)增加運行時內(nèi)存

    pycharm實現(xiàn)增加運行時內(nèi)存

    這篇文章主要介紹了pycharm實現(xiàn)增加運行時內(nèi)存方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • Django分組聚合查詢實例分享

    Django分組聚合查詢實例分享

    在本篇文章里小編給大家分享的是關(guān)于Django分組聚合查詢實例內(nèi)容,需要的朋友們可以參考下。
    2020-04-04
  • 如何將bag文件批量轉(zhuǎn)成mp4

    如何將bag文件批量轉(zhuǎn)成mp4

    這篇文章主要介紹了將bag文件批量轉(zhuǎn)成mp4,這篇博客涉及的腳本用來將bag文件批量轉(zhuǎn)化為mp4文件,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-10-10
  • python使用鄰接矩陣構(gòu)造圖代碼示例

    python使用鄰接矩陣構(gòu)造圖代碼示例

    這篇文章主要介紹了python使用鄰接矩陣構(gòu)造圖代碼示例,具有一定參考價值,需要的朋友可以了解下。
    2017-11-11
  • 使用tensorflow根據(jù)輸入更改tensor shape

    使用tensorflow根據(jù)輸入更改tensor shape

    這篇文章主要介紹了使用tensorflow根據(jù)輸入更改tensor shape,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-06-06
  • Python實現(xiàn)將JSON格式文件導入redis

    Python實現(xiàn)將JSON格式文件導入redis

    這篇文章主要為大家詳細介紹了Python實現(xiàn)將JSON格式文件導入redis的多種方法,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起了解一下
    2023-01-01
  • 簡單談談Python面向?qū)ο蟮南嚓P(guān)知識

    簡單談談Python面向?qū)ο蟮南嚓P(guān)知識

    由于馬上就要期末考試了,正在抓緊時間復習 所以這一篇就拖了很久,抱歉啦~ 今天會說說: 屬性私有,方法私有,重寫,魔術(shù)方法,需要的朋友可以參考下
    2021-01-01
  • Python面向?qū)ο竽Хǚ椒ê蛦卫K代碼實例

    Python面向?qū)ο竽Хǚ椒ê蛦卫K代碼實例

    這篇文章主要介紹了Python面向?qū)ο竽Хǚ椒ê蛦卫K代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-03-03
  • python使用writerows寫csv文件產(chǎn)生多余空行的處理方法

    python使用writerows寫csv文件產(chǎn)生多余空行的處理方法

    這篇文章主要介紹了python使用writerows寫csv文件產(chǎn)生多余空行的處理方法,需要的朋友可以參考下
    2019-08-08

最新評論