對python數(shù)據(jù)清洗容易遇到的函數(shù)-re.sub bytes string詳解
re.sub
功能,比replace強大的替換函數(shù),將正則表達式匹配上的模塊替換成repl
re.sub(pattern, repl, string, count=0, flags=0)
返回最左邊正則表達式限定的被repl代替的字符串,如果正則表達式?jīng)]有匹配上,則字符串不做修改。
\n is converted to a single newline character,
\r is converted to a carriage return, and so forth. Unknown escapes such as \j are left alone. 如果后面跟的是數(shù)字 such as \6, 則替換第6組字符串,group 6 in the pattern. For example:
>>> >>> re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):', ... r'static PyObject*\npy_\1(void)\n{', ... 'def myfunc():') 'static PyObject*\npy_myfunc(void)\n{'
如果repl是一個函數(shù),則會對每個不重疊的模式發(fā)生調(diào)用。 該函數(shù)采用單個匹配對象參數(shù),并返回替換字符串。 例如:
>>> >>> def dashrepl(matchobj): ... if matchobj.group(0) == '-': return ' ' ... else: return '-' >>> re.sub('-{1,2}', dashrepl, 'pro----gram-files') 'pro--gram files' >>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.IGNORECASE) 'Baked Beans & Spam'
模板可以是一個字符串或者RE對象
count是最大替換個數(shù),非負整數(shù),如果省略或者取0則全文檔都被匹配替換;
class bytes([source[, encoding[, errors]]])
返回一個新的數(shù)組對象,這個數(shù)組對象不能對數(shù)組元素進行修改。每個元素值范圍: 0 <= x < 256。bytes函數(shù)與bytearray函數(shù)主要區(qū)別是bytes函數(shù)產(chǎn)生的對象的元素不能修改,而bytearray函數(shù)產(chǎn)生的對象的元素可以修改。因此,除了可修改的對象函數(shù)跟bytearray函數(shù)不一樣之外,其它使用方法全部是相同的。最后它的參數(shù)定義方式也與bytearray函數(shù)是一樣的。
實例
a = bytes("abs",'utf-8') print(a) b'abs' b = bytes(1) print(b) b'\x00'
class bytearray([source[, encoding[, errors]]])
返回一個新的字節(jié)數(shù)組。 bytearray類是0 <= x <256的整數(shù)可變序列。它具有可變序列類型中描述的可變序列的大多數(shù)常用方法,以及字節(jié)類型具有的大多數(shù)方法,請參見字節(jié)和 Bytearray操作。
可選的源參數(shù)可用于以幾種不同的方式初始化數(shù)組:
如果是字符串,還必須給出編碼(和可選的錯誤)參數(shù); bytearray()然后使用str.encode()將字符串轉(zhuǎn)換為字節(jié)。
如果它是整數(shù),則數(shù)組將具有該大小,并且將以空字節(jié)初始化。
如果是符合緩沖區(qū)接口的對象,則將使用對象的只讀緩沖區(qū)來初始化字節(jié)數(shù)組。
如果它是一個可迭代的,它必須是0 <= x <256的整數(shù)的迭代,它們被用作數(shù)組的初始內(nèi)容。
沒有參數(shù),將創(chuàng)建一個大小為0的數(shù)組。
bytes.strip([chars]) & bytearray.strip([chars])
返回刪除指定的前導和尾部字節(jié)的序列副本。 chars參數(shù)是指定要刪除的字節(jié)值集的二進制序列 - 該名稱是指通常使用ASCII字符的方法。 如果省略或無,則chars參數(shù)默認為刪除ASCII空格。 chars參數(shù)不是前綴或后綴; 相反,其值的所有組合都被剝離:
> b' spacious '.strip() b'spacious' > b'www.example.com'.strip(b'cmowz.') b'example'
string.punctuation
在C語言環(huán)境中被視為標點符號的ASCII字符串
以上這篇對python數(shù)據(jù)清洗容易遇到的函數(shù)-re.sub bytes string詳解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
- 用Python實現(xiàn)網(wǎng)易云音樂的數(shù)據(jù)進行數(shù)據(jù)清洗和可視化分析
- Python數(shù)據(jù)清洗工具之Numpy的基本操作
- python 利用已有Ner模型進行數(shù)據(jù)清洗合并代碼
- python實現(xiàn)數(shù)據(jù)清洗(缺失值與異常值處理)
- python3常用的數(shù)據(jù)清洗方法(小結(jié))
- 8段用于數(shù)據(jù)清洗Python代碼(小結(jié))
- python數(shù)據(jù)清洗系列之字符串處理詳解
- python 數(shù)據(jù)清洗之數(shù)據(jù)合并、轉(zhuǎn)換、過濾、排序
- Python?八個數(shù)據(jù)清洗實例代碼詳解
相關(guān)文章
使用python創(chuàng)建股票的時間序列可視化分析
這篇文章主要為大家詳細介紹了python創(chuàng)建股票的時間序列可視化分析,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助2022-03-03Python def函數(shù)的定義、使用及參數(shù)傳遞實現(xiàn)代碼
Python編程中對于某些需要重復調(diào)用的程序,可以使用函數(shù)進行定義,在Python中使用def用來定義函數(shù),這里簡單分享下, 方便學習python的朋友2014-08-08Python?numpy中np.random.seed()的詳細用法實例
在學習人工智能時,大量的使用了np.random.seed(),利用隨機數(shù)種子,使得每次生成的隨機數(shù)相同,下面這篇文章主要給大家介紹了關(guān)于Python?numpy中np.random.seed()的詳細用法,需要的朋友可以參考下2022-08-08python中的json數(shù)據(jù)和pyecharts模塊入門示例教程
JSON是一種輕量級的數(shù)據(jù)交互格式??梢园凑?JSON指定的格式去組織和封裝數(shù)據(jù),這篇文章主要介紹了python中的json數(shù)據(jù)和pyecharts模塊入門,需要的朋友可以參考下2022-12-12解決安裝python3.7.4報錯Can''''t connect to HTTPS URL because the S
這篇文章主要介紹了解決安裝python3.7.4報錯Can't connect to HTTPS URL because the SSL module is not available,本文給大家簡單分析了錯誤原因,給出了解決方法,需要的朋友可以參考下2019-07-07