快捷導(dǎo)航

一篇文章徹底弄懂Python字符編碼

更新時(shí)間：2022年03月30日 11:42:52 作者：AstralWind

這篇文章主要介紹了一篇文章徹底弄懂Python字符編碼，各種常用的字符編碼的特點(diǎn)，并介紹了在python2.x中如何與編碼問題作戰(zhàn)?，下文詳細(xì)介紹需要的小伙伴可以參考一下

1. 字符編碼簡介

1.1. ASCII

ASCII(American Standard Code for Information Interchange)，是一種單字節(jié)的編碼。計(jì)算機(jī)世界里一開始只有英文，而單字節(jié)可以表示256個(gè)不同的字符，可以表示所有的英文字符和許多的控制符號(hào)。不過ASCII只用到了其中的一半（\x80以下），這也是MBCS得以實(shí)現(xiàn)的基礎(chǔ)。

1.2. MBCS

然而計(jì)算機(jī)世界里很快就有了其他語言，單字節(jié)的ASCII已無法滿足需求。后來每個(gè)語言就制定了一套自己的編碼，由于單字節(jié)能表示的字符太少，而且同時(shí)也需要與ASCII編碼保持兼容，所以這些編碼紛紛使用了多字節(jié)來表示字符，如GBxxx、BIGxxx等等，他們的規(guī)則是，如果第一個(gè)字節(jié)是\x80以下，則仍然表示ASCII字符；而如果是\x80以上，則跟下一個(gè)字節(jié)一起（共兩個(gè)字節(jié)）表示一個(gè)字符，然后跳過下一個(gè)字節(jié)，繼續(xù)往下判斷。

這里，IBM發(fā)明了一個(gè)叫Code Page的概念，將這些編碼都收入囊中并分配頁碼，GBK是第936頁，也就是CP936。所以，也可以使用CP936表示GBK。

MBCS(Multi-Byte Character Set)是這些編碼的統(tǒng)稱。目前為止大家都是用了雙字節(jié)，所以有時(shí)候也叫做DBCS(Double-Byte Character Set)。必須明確的是，MBCS并不是某一種特定的編碼，Windows里根據(jù)你設(shè)定的區(qū)域不同，MBCS指代不同的編碼，而Linux里無法使用MBCS作為編碼。在Windows中你看不到MBCS這幾個(gè)字符，因?yàn)槲④洖榱烁友髿猓褂昧薃NSI來嚇唬人，記事本的另存為對話框里編碼ANSI就是MBCS。同時(shí)，在簡體中文Windows默認(rèn)的區(qū)域設(shè)定里，指代GBK。

1.3. Unicode

后來，有人開始覺得太多編碼導(dǎo)致世界變得過于復(fù)雜了，讓人腦袋疼，于是大家坐在一起拍腦袋想出來一個(gè)方法：所有語言的字符都用同一種字符集來表示，這就是Unicode。

最初的Unicode標(biāo)準(zhǔn)UCS-2使用兩個(gè)字節(jié)表示一個(gè)字符，所以你常?？梢月牭経nicode使用兩個(gè)字節(jié)表示一個(gè)字符的說法。但過了不久有人覺得256*256太少了，還是不夠用，于是出現(xiàn)了UCS-4標(biāo)準(zhǔn)，它使用4個(gè)字節(jié)表示一個(gè)字符，不過我們用的最多的仍然是UCS-2。

UCS(Unicode Character Set)還僅僅是字符對應(yīng)碼位的一張表而已，比如"漢"這個(gè)字的碼位是6C49。字符具體如何傳輸和儲(chǔ)存則是由UTF(UCS Transformation Format)來負(fù)責(zé)。

一開始這事很簡單，直接使用UCS的碼位來保存，這就是UTF-16，比如，"漢"直接使用\x6C\x49保存(UTF-16-BE)，或是倒過來使用\x49\x6C保存(UTF-16-LE)。但用著用著美國人覺得自己吃了大虧，以前英文字母只需要一個(gè)字節(jié)就能保存了，現(xiàn)在大鍋飯一吃變成了兩個(gè)字節(jié)，空間消耗大了一倍……于是UTF-8橫空出世。

UTF-8是一種很別扭的編碼，具體表現(xiàn)在他是變長的，并且兼容ASCII，ASCII字符使用1字節(jié)表示。然而這里省了的必定是從別的地方摳出來的，你肯定也聽說過UTF-8里中文字符使用3個(gè)字節(jié)來保存吧？4個(gè)字節(jié)保存的字符更是在淚奔……（具體UCS-2是怎么變成UTF-8的請自行搜索）

另外值得一提的是BOM(Byte Order Mark)。我們在儲(chǔ)存文件時(shí)，文件使用的編碼并沒有保存，打開時(shí)則需要我們記住原先保存時(shí)使用的編碼并使用這個(gè)編碼打開，這樣一來就產(chǎn)生了許多麻煩。（你可能想說記事本打開文件時(shí)并沒有讓選編碼？不妨先打開記事本再使用文件 -> 打開看看）而UTF則引入了BOM來表示自身編碼，如果一開始讀入的幾個(gè)字節(jié)是其中之一，則代表接下來要讀取的文字使用的編碼是相應(yīng)的編碼：

BOM_UTF8 '\xef\xbb\xbf'
BOM_UTF16_LE '\xff\xfe'
BOM_UTF16_BE '\xfe\xff'

并不是所有的編輯器都會(huì)寫入BOM，但即使沒有BOM，Unicode還是可以讀取的，只是像MBCS的編碼一樣，需要另行指定具體的編碼，否則解碼將會(huì)失敗。

你可能聽說過UTF-8不需要BOM，這種說法是不對的，只是絕大多數(shù)編輯器在沒有BOM時(shí)都是以UTF-8作為默認(rèn)編碼讀取。即使是保存時(shí)默認(rèn)使用ANSI(MBCS)的記事本，在讀取文件時(shí)也是先使用UTF-8測試編碼，如果可以成功解碼，則使用UTF-8解碼。記事本這個(gè)別扭的做法造成了一個(gè)BUG：如果你新建文本文件并輸入"姹塧"然后使用ANSI(MBCS)保存，再打開就會(huì)變成"漢a"，你不妨試試：）

2. Python2.x中的編碼問題

2.1. str和unicode

str和unicode都是basestring的子類。嚴(yán)格意義上說，str其實(shí)是字節(jié)串，它是unicode經(jīng)過編碼后的字節(jié)組成的序列。對UTF-8編碼的str'漢'使用len()函數(shù)時(shí)，結(jié)果是3，因?yàn)閷?shí)際上，UTF-8編碼的'漢' == '\xE6\xB1\x89'。

unicode才是真正意義上的字符串，對字節(jié)串str使用正確的字符編碼進(jìn)行解碼后獲得，并且len(u'漢') == 1。

再來看看encode()和decode()兩個(gè)basestring的實(shí)例方法，理解了str和unicode的區(qū)別后，這兩個(gè)方法就不會(huì)再混淆了：

# coding: UTF-8
?
u = u'漢'
print repr(u) # u'\u6c49'
s = u.encode('UTF-8')
print repr(s) # '\xe6\xb1\x89'
u2 = s.decode('UTF-8')
print repr(u2) # u'\u6c49'
?
# 對unicode進(jìn)行解碼是錯(cuò)誤的
# s2 = u.decode('UTF-8')
# 同樣，對str進(jìn)行編碼也是錯(cuò)誤的
# u2 = s.encode('UTF-8')

需要注意的是，雖然對str調(diào)用encode()方法是錯(cuò)誤的，但實(shí)際上Python不會(huì)拋出異常，而是返回另外一個(gè)相同內(nèi)容但不同id的str；對unicode調(diào)用decode()方法也是這樣。很不理解為什么不把encode()和decode()分別放在unicode和str中而是都放在basestring中，但既然已經(jīng)這樣了，我們就小心避免犯錯(cuò)吧。

2.2. 字符編碼聲明

源代碼文件中，如果有用到非ASCII字符，則需要在文件頭部進(jìn)行字符編碼的聲明，如下：

#-*- coding: UTF-8 -*-

實(shí)際上Python只檢查#、coding和編碼字符串，其他的字符都是為了美觀加上的。另外，Python中可用的字符編碼有很多，并且還有許多別名，還不區(qū)分大小寫，比如UTF-8可以寫成u8。參見

另外需要注意的是聲明的編碼必須與文件實(shí)際保存時(shí)用的編碼一致，否則很大幾率會(huì)出現(xiàn)代碼解析異?！，F(xiàn)在的IDE一般會(huì)自動(dòng)處理這種情況，改變聲明后同時(shí)換成聲明的編碼保存，但文本編輯器控們需要小心：）

2.3. 讀寫文件

內(nèi)置的open()方法打開文件時(shí)，read()讀取的是str，讀取后需要使用正確的編碼格式進(jìn)行decode()。write()寫入時(shí)，如果參數(shù)是unicode，則需要使用你希望寫入的編碼進(jìn)行encode()，如果是其他編碼格式的str，則需要先用該str的編碼進(jìn)行decode()，轉(zhuǎn)成unicode后再使用寫入的編碼進(jìn)行encode()。如果直接將unicode作為參數(shù)傳入write()方法，Python將先使用源代碼文件聲明的字符編碼進(jìn)行編碼然后寫入。

# coding: UTF-8
?
f = open('test.txt')
s = f.read()
f.close()
print type(s) # <type 'str'>
# 已知是GBK編碼，解碼成unicode
u = s.decode('GBK')
?
f = open('test.txt', 'w')
# 編碼成UTF-8編碼的str
s = u.encode('UTF-8')
f.write(s)
f.close()

另外，模塊codecs提供了一個(gè)open()方法，可以指定一個(gè)編碼打開文件，使用這個(gè)方法打開的文件讀取返回的將是unicode。寫入時(shí)，如果參數(shù)是unicode，則使用open()時(shí)指定的編碼進(jìn)行編碼后寫入；如果是str，則先根據(jù)源代碼文件聲明的字符編碼，解碼成unicode后再進(jìn)行前述操作。相對內(nèi)置的open()來說，這個(gè)方法比較不容易在編碼上出現(xiàn)問題。

# coding: GBK
?
import codecs
?
f = codecs.open('test.txt', encoding='UTF-8')
u = f.read()
f.close()
print type(u) # <type 'unicode'>
?
f = codecs.open('test.txt', 'a', encoding='UTF-8')
# 寫入unicode
f.write(u)
?
# 寫入str，自動(dòng)進(jìn)行解碼編碼操作
# GBK編碼的str
s = '漢'
print repr(s) # '\xba\xba'
# 這里會(huì)先將GBK編碼的str解碼為unicode再編碼為UTF-8寫入
f.write(s)?
f.close()

2.4. 與編碼相關(guān)的方法

sys/locale模塊中提供了一些獲取當(dāng)前環(huán)境下的默認(rèn)編碼的方法。

import sys
import locale
?
def p(f):
? ? print '%s.%s(): %s' % (f.__module__, f.__name__, f())
?
# 返回當(dāng)前系統(tǒng)所使用的默認(rèn)字符編碼
p(sys.getdefaultencoding)
?
# 返回用于轉(zhuǎn)換Unicode文件名至系統(tǒng)文件名所使用的編碼
p(sys.getfilesystemencoding)
?
# 獲取默認(rèn)的區(qū)域設(shè)置并返回元祖(語言, 編碼)
p(locale.getdefaultlocale)
?
# 返回用戶設(shè)定的文本數(shù)據(jù)編碼
# 文檔提到this function only returns a guess
p(locale.getpreferredencoding)
?
# \xba\xba是'漢'的GBK編碼
# mbcs是不推薦使用的編碼，這里僅作測試表明為什么不應(yīng)該用
print r"'\xba\xba'.decode('mbcs'):", repr('\xba\xba'.decode('mbcs'))
?
#在筆者的Windows上的結(jié)果(區(qū)域設(shè)置為中文(簡體, 中國))
#sys.getdefaultencoding(): gbk
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp936')
#locale.getpreferredencoding(): cp936
#'\xba\xba'.decode('mbcs'): u'\u6c49'

3.建議

3.1.字符編碼聲明

使用字符編碼聲明，并且同一工程中的所有源代碼文件使用相同的字符編碼聲明。

這點(diǎn)是一定要做到的。

3.2. 拋棄str，全部使用unicode。

按引號(hào)前先按一下u最初做起來確實(shí)很不習(xí)慣而且經(jīng)常會(huì)忘記再跑回去補(bǔ)，但如果這么做可以減少90%的編碼問題。如果編碼困擾不嚴(yán)重，可以不參考此條。

3.3. 使用codecs.open()替代內(nèi)置的open()。

如果編碼困擾不嚴(yán)重，可以不參考此條。

3.4. 絕對需要避免使用的字符編碼：MBCS/DBCS和UTF-16。

這里說的MBCS不是指GBK什么的都不能用，而是不要使用Python里名為'MBCS'的編碼，除非程序完全不移植。

Python中編碼'MBCS'與'DBCS'是同義詞，指當(dāng)前Windows環(huán)境中MBCS指代的編碼。Linux的Python實(shí)現(xiàn)中沒有這種編碼，所以一旦移植到Linux一定會(huì)出現(xiàn)異常！另外，只要設(shè)定的Windows系統(tǒng)區(qū)域不同，MBCS指代的編碼也是不一樣的。

分別設(shè)定不同的區(qū)域運(yùn)行2.4小節(jié)中的代碼的結(jié)果：

#中文(簡體, 中國)
#sys.getdefaultencoding(): gbk
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp936')
#locale.getpreferredencoding(): cp936
#'\xba\xba'.decode('mbcs'): u'\u6c49'
?
#英語(美國)
#sys.getdefaultencoding(): UTF-8
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp1252')
#locale.getpreferredencoding(): cp1252
#'\xba\xba'.decode('mbcs'): u'\xba\xba'
?
#德語(德國)
#sys.getdefaultencoding(): gbk
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp1252')
#locale.getpreferredencoding(): cp1252
#'\xba\xba'.decode('mbcs'): u'\xba\xba'
?
#日語(日本)
#sys.getdefaultencoding(): gbk
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp932')
#locale.getpreferredencoding(): cp932
#'\xba\xba'.decode('mbcs'): u'\uff7a\uff7a'

可見，更改區(qū)域后，使用mbcs解碼得到了不正確的結(jié)果，所以，當(dāng)我們需要使用'GBK'時(shí)，應(yīng)該直接寫'GBK'，不要寫成'MBCS'。

UTF-16同理，雖然絕大多數(shù)操作系統(tǒng)中'UTF-16'是'UTF-16-LE'的同義詞，但直接寫'UTF-16-LE'只是多寫3個(gè)字符而已，而萬一某個(gè)操作系統(tǒng)中'UTF-16'變成了'UTF-16-BE'的同義詞，就會(huì)有錯(cuò)誤的結(jié)果。實(shí)際上，UTF-16用的相當(dāng)少，但用到的時(shí)候還是需要注意。

到此這篇關(guān)于一篇文章徹底弄懂Python字符編碼的文章就介紹到這了,更多相關(guān)ython字符編碼內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

一篇文章徹底弄懂Python字符編碼

目錄

1. 字符編碼簡介

1.1. ASCII

1.2. MBCS

1.3. Unicode

2. Python2.x中的編碼問題

2.1. str和unicode

2.2. 字符編碼聲明

2.3. 讀寫文件

2.4. 與編碼相關(guān)的方法

3.建議

3.1.字符編碼聲明

3.2. 拋棄str，全部使用unicode。

3.3. 使用codecs.open()替代內(nèi)置的open()。

3.4. 絕對需要避免使用的字符編碼：MBCS/DBCS和UTF-16。

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一篇文章徹底弄懂Python字符編碼

目錄

1. 字符編碼簡介

1.1. ASCII

1.2. MBCS

1.3. Unicode

2. Python2.x中的編碼問題

2.1. str和unicode

2.2. 字符編碼聲明

2.3. 讀寫文件

2.4. 與編碼相關(guān)的方法

3.建議

3.1.字符編碼聲明

3.2. 拋棄str，全部使用unicode。

3.3. 使用codecs.open()替代內(nèi)置的open()。

3.4. 絕對需要避免使用的字符編碼：MBCS/DBCS和UTF-16。

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

3.2. 拋棄str，全部使用unicode。

3.3. 使用codecs.open()替代內(nèi)置的open()。

3.4. 絕對需要避免使用的字符編碼：MBCS/DBCS和UTF-16。