快捷導(dǎo)航

利用Python將文本中的中英文分離方法

更新時間：2018年10月31日 11:12:01 作者：微瀾同學(xué)

今天小編就為大家分享一篇利用Python將文本中的中英文分離方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

在進行文本分析、提取關(guān)鍵詞時，新聞評論等文本通常是中英文及其他語言的混雜，若不加處理直接分析，結(jié)果往往差強人意。

下面對中英文文本進行分離做一下總結(jié)：

1、超短文本，ASCII識別。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.該集團總裁朱利安周二表示，中國聯(lián)想控股將分拆其多個業(yè)務(wù)部門在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)

out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode編碼識別

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.該集團總裁朱利安周二表示，中國聯(lián)想控股將分拆其多個業(yè)務(wù)部門在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)

out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的編碼范圍是：\u4e00-\u9fa5，相應(yīng)的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文時，需要將空格[\u0020]加入，不然單詞之間沒空格了。

以上這篇利用Python將文本中的中英文分離方法就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python采用Django制作簡易的知乎日報API
這篇文章主要為大家詳細介紹了Python采用Django制作簡易的知乎日報API，感興趣的小伙伴們可以參考一下
2016-08-08
python實現(xiàn)簡單俄羅斯方塊
這篇文章主要為大家詳細介紹了python實現(xiàn)簡單俄羅斯方塊，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2020-03-03
python使用Tkinter顯示網(wǎng)絡(luò)圖片的方法
這篇文章主要介紹了python使用Tkinter顯示網(wǎng)絡(luò)圖片的方法,涉及Python操作圖片的相關(guān)技巧,需要的朋友可以參考下
2015-04-04
Python實現(xiàn)利用最大公約數(shù)求三個正整數(shù)的最小公倍數(shù)示例
這篇文章主要介紹了Python實現(xiàn)利用最大公約數(shù)求三個正整數(shù)的最小公倍數(shù),涉及Python數(shù)學(xué)運算相關(guān)操作技巧,需要的朋友可以參考下
2017-09-09
python實現(xiàn)多人聊天服務(wù)器以及客戶端
這篇文章主要為大家詳細介紹了python實現(xiàn)多人聊天服務(wù)器以及客戶端，帶圖形化界面，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-07-07
python將中文數(shù)字轉(zhuǎn)化成阿拉伯數(shù)字的簡單方法
這篇文章主要給大家介紹了關(guān)于python如何將中文數(shù)字轉(zhuǎn)化成阿拉伯數(shù)字的相關(guān)資料，文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2021-03-03
Python使用線程來接收串口數(shù)據(jù)的示例
今天小編就為大家分享一篇Python使用線程來接收串口數(shù)據(jù)的示例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-07-07
python Paramiko使用示例
這篇文章主要介紹了python Paramiko的使用示例，幫助大家遠程控制類 UNIX 系統(tǒng)，感興趣的朋友可以了解下。
2020-09-09
Scrapy爬蟲Response子類在應(yīng)用中的問題解析
這篇文章主要為大家介紹了Scrapy爬蟲Response它的子類（TextResponse、HtmlResponse、XmlResponse）在應(yīng)用問題解析
2023-05-05
使用python腳本檢查ssl證書到期時間
這篇文章主要為大家介紹了使用python腳本檢查ssl證書到期時間,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
2024-01-01