亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python 編碼處理-str與Unicode的區(qū)別

 更新時間:2016年09月06日 16:25:34   投稿:lqh  
本文主要介紹Python 編碼處理的問題,這里整理了相關資料,并詳細說明如何處理編碼問題,有需要的小伙伴可以參考下

一篇關于STR和UNICODE的好文章

整理下python編碼相關的內容

注意: 以下討論為Python2.x版本, Py3k的待嘗試

開始

用python處理中文時,讀取文件或消息,http參數等等

一運行,發(fā)現(xiàn)亂碼(字符串處理,讀寫文件,print)

然后,大多數人的做法是,調用encode/decode進行調試,并沒有明確思考為何出現(xiàn)亂碼

所以調試時最常出現(xiàn)的錯誤

錯誤1

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)

錯誤2

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

首先

必須有大體概念,了解下字符集,字符編碼

ASCII | Unicode | UTF-8 | 等等

字符編碼筆記:ASCII,Unicode和UTF-8

淘寶搜索技術博客-中文編碼雜談

str 和 unicode

str和unicode都是basestring的子類

所以有判斷是否是字符串的方法

def is_str(s):     return isinstance(s, basestring)

str和unicode 轉換

decode 文檔

encode 文檔

str  -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str

區(qū)別

str是字節(jié)串,由unicode經過編碼(encode)后的字節(jié)組成的

聲明方式

s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)  >>> type(‘中文‘) <type ‘str‘>

求長度(返回字節(jié)數)

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ >>> len(u‘中文‘.encode(‘utf-8‘)) 6

unicode才是真正意義上的字符串,由字符組成

聲明方式

s = u‘中文‘ s = ‘中文‘.decode(‘utf-8‘) s = unicode(‘中文‘, ‘utf-8‘)  >>> type(u‘中文‘) <type ‘unicode‘>

求長度(返回字符數),在邏輯中真正想要用的

>>> u‘中文‘ u‘\u4e2d\u6587‘ >>> len(u‘中文‘) 2

結論

搞明白要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法

>>> isinstance(u‘中文‘, unicode) True >>> isinstance(‘中文‘, unicode) False  >>> isinstance(‘中文‘, str) True >>> isinstance(u‘中文‘, str) False

簡單原則:不要對str使用encode,不要對unicode使用decode (事實上可以對str進行encode的,具體見最后,為了保證簡單,不建議)

>>> ‘中文‘.encode(‘utf-8‘) Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  >>> u‘中文‘.decode(‘utf-8‘) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

不同編碼轉換,使用unicode作為中間編碼

#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

文件處理,IDE和控制臺

處理流程,可以這么使用,把python看做一個水池,一個入口,一個出口

入口處,全部轉成unicode, 池里全部使用unicode處理,出口處,再轉成目標編碼(當然,有例外,處理邏輯中要用到具體編碼的情況)

讀文件  外部輸入編碼,decode轉成unicode  處理(內部編碼,統(tǒng)一unicode)  encode轉成需要的目標編碼  寫到目標輸出(文件或控制臺)

IDE和控制臺報錯,原因是print時,編碼和IDE自身編碼不一致導致

輸出時將編碼轉換成一致的就可以正常輸出

>>> print u‘中文‘.encode(‘gbk‘) ???? >>> print u‘中文‘.encode(‘utf-8‘) 中文

建議

規(guī)范編碼

統(tǒng)一編碼,防止由于某個環(huán)節(jié)產生的亂碼

環(huán)境編碼,IDE/文本編輯器, 文件編碼,數據庫數據表編碼

保證代碼源文件編碼

這個很重要

py文件默認編碼是ASCII, 在源代碼文件中,如果用到非ASCII字符,需要在文件頭部進行編碼聲明 文檔

不聲明的話,輸入非ASCII會遇到的錯誤,必須放在文件第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
聲明方法

# -*- coding: utf-8 -*- 或者 #coding=utf-8

若頭部聲明coding=utf-8, a = ‘中文‘ 其編碼為utf-8

若頭部聲明coding=gb2312, a = ‘中文‘ 其編碼為gbk

so, 同一項目中所有源文件頭部統(tǒng)一一個編碼,并且聲明的編碼要和源文件保存的編碼一致(編輯器相關)

在源代碼用作處理的硬編碼字符串,統(tǒng)一用unicode

將其類型和源文件本身的編碼隔離開, 獨立無依賴方便流程中各個位置處理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意這里 s到這里時,確保轉為unicode

以上幾步搞定后,你只需要關注兩個 unicode和 你設定的編碼(一般使用utf-8)

處理順序

1. Decode early 2. Unicode everywhere 3. Encode later

相關模塊及一些方法

獲得和設置系統(tǒng)默認編碼

>>> import sys >>> sys.getdefaultencoding() ‘ascii‘  >>> reload(sys) <module ‘sys‘ (built-in)> >>> sys.setdefaultencoding(‘utf-8‘) >>> sys.getdefaultencoding() ‘utf-8‘
str.encode(‘other_coding‘)

在python中,直接將某種編碼的str進行encode成另一種編碼str

#str_A為utf-8 str_A.encode(‘gbk‘)  執(zhí)行的操作是 str_A.decode(‘sys_codec‘).encode(‘gbk‘) 這里sys_codec即為上一步 sys.getdefaultencoding() 的編碼

‘獲得和設置系統(tǒng)默認編碼‘和這里的str.encode是相關的,但我一般很少這么用,主要是覺得復雜不可控,還是輸入明確decode,輸出明確encode來得簡單些(個人觀點)

chardet

文件編碼檢測,下載

>>> import chardet >>> f = open(‘test.txt‘,‘r‘) >>> result = chardet.detect(f.read()) >>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}

\u字符串轉對應unicode字符串

>>> u‘中‘ u‘\u4e2d‘  >>> s = ‘\u4e2d‘ >>> print s.decode(‘unicode_escape‘) 中  >>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ >>> a.decode(‘unicode_escape‘) u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘

 以上就是對Python 編碼處理的資料整理,后續(xù)繼續(xù)補充相關資料,謝謝大家對本站的支持!

相關文章

  • 實現(xiàn)用python算法計算圓周率的小訣竅

    實現(xiàn)用python算法計算圓周率的小訣竅

    什么!你不會背圓周率(鄙夷的眼神) 3.1415926535 8979323846 26433... 但是,我會算啊,本文用一個簡單的python代碼,教你計算圓周率
    2021-08-08
  • 在?Python?中使用變量創(chuàng)建文件名的方法

    在?Python?中使用變量創(chuàng)建文件名的方法

    這篇文章主要介紹了在?Python?中使用變量創(chuàng)建文件名,格式化的字符串文字使我們能夠通過在字符串前面加上 f 來在字符串中包含表達式和變量,本文給大家詳細講解,需要的朋友可以參考下
    2023-03-03
  • python 監(jiān)聽salt job狀態(tài),并任務數據推送到redis中的方法

    python 監(jiān)聽salt job狀態(tài),并任務數據推送到redis中的方法

    今天小編就為大家分享一篇python 監(jiān)聽salt job狀態(tài),并任務數據推送到redis中的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • python中如何實現(xiàn)徑向基核函數

    python中如何實現(xiàn)徑向基核函數

    這篇文章主要介紹了python中如何實現(xiàn)徑向基核函數問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-02-02
  • 利用Python爬取可用的代理IP

    利用Python爬取可用的代理IP

    我們平時在用Python爬蟲時,有時會要用到IP代理。網上有很多的免費代理IP網站,但不是所有的ip都能用,所以這篇文章教大家如何爬取可用的代理IP。
    2016-08-08
  • Python小技巧練習分享

    Python小技巧練習分享

    這篇文章主要介紹了Python小技巧練習分享,文章基于python的相關內容展開詳細的python小技巧內容,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-05-05
  • Python多重繼承的方法解析執(zhí)行順序實例分析

    Python多重繼承的方法解析執(zhí)行順序實例分析

    這篇文章主要介紹了Python多重繼承的方法解析執(zhí)行順序,結合實例形式分析了Python多重繼承時存在方法命名沖突情況的解析執(zhí)行順序與相關原理,需要的朋友可以參考下
    2018-05-05
  • 基于python 字符編碼的理解

    基于python 字符編碼的理解

    下面小編就為大家?guī)硪黄趐ython 字符編碼的理解。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-09-09
  • python3在各種服務器環(huán)境中安裝配置過程

    python3在各種服務器環(huán)境中安裝配置過程

    這篇文章主要介紹了python3在各種服務器環(huán)境中安裝配置過程,源碼包編譯安裝步驟詳解,本文通過圖文并茂的形式給大家介紹的非常詳細,需要的朋友可以參考下
    2022-01-01
  • Python基礎之python循環(huán)控制語句break/continue詳解

    Python基礎之python循環(huán)控制語句break/continue詳解

    Python中提供了兩個關鍵字用來控制循環(huán)語句,分別是break和continue,接下來通過兩個案例來區(qū)分這兩個控制語句的不同,感興趣的朋友一起看看吧
    2021-09-09

最新評論