腳本之家服務器常用軟件

快捷導航

深入淺析python3中的unicode和bytes問題

更新時間：2019年07月03日 11:05:38 作者：虞大膽

在python3中，有兩種字符串類型，默認的就是str，即unicode，也叫做文本類型。這篇文章主要介紹了python3中的unicode和bytes問題,需要的朋友可以參考下

最近寫了一些python3程序，四處能看到bytes類型，而它并不存在于python2中，這也是python3和python2顯著區(qū)別之一。

以前在寫python2代碼的時候，經常會遇到很多編碼報錯的異常，原因在于python2對unicode的支持不是特別理想。而在python3中，所有編寫的代碼都是unicode，python解析器在運行的時候，內部都轉換（除非你顯示定義為bytes類型）為unicode，減少了出錯的可能性。

在python3中，有兩種字符串類型，默認的就是str，即unicode，也叫做文本類型。但一個程序總是會有I/O操作（磁盤，網絡），即I/O二進制數據，在python3中定義為bytes類型。bytes類型就是一個個字節(jié)串，包含0~256 之間的一個整數。

那么如何定義bytes類型呢，有兩種顯示的方法，比如：

#只能允許ASCII值
x=b'abc'
y=b'\xe6\x88\x91'
print (x,y)
#對unicode字符集進行特定編碼
t=bytes("我們","UTF-8")
#輸出b'\xe6\x88\x91\xe4\xbb\xac'
#一個中文字符，UTF-8編碼占用三個字節(jié)
print (t)
#返回6，對于python來說，就是字節(jié)序列的長度
print (len(t))
#返回2，代表兩個字符
print (len("我們"))

接下去說說str類型和bytes類型之間的轉換，比如從網絡上讀取到二進制數據后，python需要你顯示的將其轉換為str類型，也就是說 python不會隱式在str和bytes之間轉換，看上去麻煩了很多，但會減少你出錯的幾率，自己明確自己做要的事情。

如果要將str轉換為bytes，必須選擇一個編碼，明確二進制數據是如何編碼的，比如：

x="我"
y=x.encode("UTF-8")
z=x.encode("GBK")
#b'\xe6\x88\x91' b'\xce\xd2'
print (y,z)

如果要將bytes轉換為str，也需要一個編碼，必須說明的是，你必須知道二進制數據的編碼是什么，如果選錯了，轉換為unicode的時候會錯誤，另外在python內部，它不關心二進制數據是什么編碼的，只要是bytes類型，它就是一串字節(jié)序列，比如：

x=b'\xe6\x88\x91'
print (x.decode("UTF-8"))
#會報錯
print (x.decode("GBK"))

總之一句話，“ python內部使用unicode，外部使用bytes類型 ”，python內建庫中，很多函數會說明需要str類型還是bytes類型（嚴格說來是bytes-like對象，比如bytes、bytearray ），在寫代碼的時候一定要看清楚，比如 hamc 庫的new方法，就要求：

hmac.new(key, msg=None, digestmod=None) key is a bytes or bytearray object giving the secret key

很多庫，尤其第三方庫（比如requests）為了兼容python2和python3，會在內部做很多轉換工作，讓你意識不到bytes類型的存在，雖然生產力提高了，但對于理解python并沒有太大的好處。

如果要充分理解bytes和str的應用，可以參考open和write兩個內建函數。

使用文本方式打開文件，python在內部會自動轉換為str類型，比如：

file ="t.txt"
t = open(file,mode="r").read()

而如果是二進制方式打開，如果要顯示在終端，需要轉換為str類型，比如：

file ="t.txt"
t = open(file,mode="rb").read()
print (t.decode())
print (t,type(t))

而如果是二進制方式寫入，則將bytes類型數據直接寫入，比如：

file="t.txt"
t=open(file,mode="wb")
t.write(b'\xe6\x88\x91')

在上面幾個例子中，都沒有說明使用那種編碼，如果不顯示指定，一般編碼等同于locale.getpreferedencoding() 。

總結

以上所述是小編給大家介紹的python3中的unicode和bytes問題,希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對腳本之家網站的支持！
如果你覺得本文對你有幫助，歡迎轉載，煩請注明出處，謝謝！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

深入淺析python3中的unicode和bytes問題

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具