詳解Python正則表達(dá)式re模塊
正則是處理字符串最常用的方法,我們編碼中到處可見(jiàn)正則的身影。
正則大同小異,python 中的正則跟其他語(yǔ)言相比略有差異:
1、替換字符串時(shí),替換的字符串可以是一個(gè)函數(shù)
2、split 函數(shù)可以指定分割次數(shù),這會(huì)導(dǎo)致有個(gè)坑
3、前項(xiàng)界定的表達(dá)式必須定長(zhǎng)
下面詳細(xì)描述下 re 模塊的使用方法,其實(shí),注意上面提到的三點(diǎn)差異就好
1、match
說(shuō)明:
re.match 嘗試從字符串的起始位置匹配一個(gè)模式,如果不是起始位置匹配成功的話,match()就返回 None。
語(yǔ)法:
re.match(pattern, string, flags=0)
flags為可選標(biāo)識(shí),多個(gè)標(biāo)識(shí)可以通過(guò)按位或 (|) 來(lái)指定。如 re.I | re.M 被設(shè)置成 I 和 M 標(biāo)識(shí):
修飾符 |
描述 |
re.I |
使匹配對(duì)大小寫不敏感 |
re.L |
做本地化識(shí)別(locale-aware)匹配 |
re.M |
多行匹配,影響 ^ 和 $ |
re.S |
使 . 匹配包括換行在內(nèi)的所有字符 |
re.U |
根據(jù)Unicode字符集解析字符。這個(gè)標(biāo)志影響 \w, \W, \b, \B. |
re.X |
該標(biāo)志通過(guò)給予你更靈活的格式以便你將正則表達(dá)式寫得更易于理解。 |
匹配成功re.match方法返回一個(gè)匹配的對(duì)象,可以使用group(num) 或 groups() 匹配對(duì)象函數(shù)來(lái)獲取匹配表達(dá)式。group() 或 group(0),返回整個(gè)正則表達(dá)式的匹配結(jié)果。
舉例:
s= 'abc123abc' print(re.match('[a-z]+', s)) # <_sre.SRE_Match object; span=(0, 3), match='abc'> print(re.match('[a-z]+', s).group(0)) # abc print(re.match('[\d]+', s)) # None print(re.match('[A-Z]+', s, re.I).group(0)) # abc print(re.match('[a-z]+', s).span()) # (0, 3)
2、search
說(shuō)明:
re.search 掃描整個(gè)字符串并返回第一個(gè)成功的匹配。
語(yǔ)法:
re.search(pattern, string, flags=0)
匹配成功re.search方法返回一個(gè)匹配的對(duì)象,否則返回None??梢允褂胓roup(num) 或 groups() 匹配對(duì)象函數(shù)來(lái)獲取匹配表達(dá)式。
s = 'abc123abc' print(re.search('[a-z]+', s).group()) # abc print(re.search('[a-z]+', s).span()) # (0, 3) print(re.search('[\d]+', s).group()) # 123 print(re.search('[\d]+', s).span()) # (3, 6) print(re.search('xyz', s)) # None
groupdict
groupdict 返回匹配到的所有命名子組的字典。
print(re.search('[a-z]+', s).groupdict()) # {} print(re.search('(?P<letter>[a-z]+)(?P<num>\d+)', s).groupdict()) # {'num': '123', 'letter': 'abc'}
3、sub 和 subn
說(shuō)明:
re.sub用于替換字符串中的匹配項(xiàng)。
re.subn返回一個(gè)元組,包含替換后的字符串及替換次數(shù)。
語(yǔ)法:
sub(pattern, repl, string, count=0, flags=0)
repl: 替換的字符串,也可為一個(gè)函數(shù)。
count: 模式匹配后替換的最大次數(shù),默認(rèn) 0 表示替換所有的匹配。
舉例:
s = 'abc123abc' print(re.sub('[\d]+', '數(shù)字', s)) # abc數(shù)字abc print(re.sub('[a-z]+', '字母', s, 1)) # 字母123abc # 將匹配的數(shù)字乘以 2 def double(matched): value = int(matched.group('value')) return str(value * 2) # repl是一個(gè)函數(shù) print(re.sub('(?P<value>\d+)', double, s)) # abc246abc print(re.subn('[\d]+', '數(shù)字', s)) # ('abc數(shù)字abc', 1) print(re.subn('[a-z]+', '字母', s,)) # ('字母123字母', 2) print(re.subn('[a-z]+', '字母', s, 1)) # ('字母123字母', 1)
4、compile
說(shuō)明:
re.compile 用于編譯正則表達(dá)式,生成一個(gè)正則表達(dá)式(Pattern)對(duì)象,供 match() 和 search() 這兩個(gè)函數(shù)使用。
語(yǔ)法:
compile(pattern, flags=0)
舉例:
s = 'abc123abc' p = re.compile('[\d]+') print(p.match(s, 4, 5).group(0)) # 2 從位置4開(kāi)始匹配到位置5 print(p.search(s).group(0)) # 123
5、findall
說(shuō)明:
re.findall 在字符串中查找正則表達(dá)式所匹配的所有子串,并返回一個(gè)列表,如果沒(méi)有找到匹配的,則返回空列表。
語(yǔ)法:
findall(pattern, string, flags=0)
舉例:
s = 'abc123abc' print(re.findall('[a-z]+', s)) # ['abc', 'abc'] print(re.findall('[h-n]+', s)) # []
6、finditer
說(shuō)明:
finditer和 findall 類似,在字符串中查找正則表達(dá)式所匹配的所有子串,并把它們作為一個(gè)迭代器返回。
語(yǔ)法:
finditer(pattern, string, flags=0)
舉例:
s = 'abc123def' it = re.finditer('[a-z]+', s) for match in it: print(match.group())
7、split
說(shuō)明:
re.split 方法按照能夠匹配的子串將字符串分割后返回列表。
語(yǔ)法:
split(pattern, string, maxsplit=0, flags=0)
maxsplit:分隔次數(shù),maxsplit=1 分隔一次,默認(rèn)為 0,不限制次數(shù)。
舉例:
print(re.split('a', '1A1a2A3', re.I)) # ['1A1', '2A3'] # 輸出結(jié)果并未能區(qū)分大小寫,這是因?yàn)閞e.split(pattern,string,maxsplit, flags)默認(rèn)是四個(gè)參數(shù),當(dāng)我們傳入的三個(gè)參數(shù)的時(shí)候,系統(tǒng)會(huì)默認(rèn)re.I是第三個(gè)參數(shù),所以就沒(méi)起作用。 # 如果想讓這里的re.I起作用,寫成flags=re.I即可。 print(re.split('a', '1A1a2A3', flags=re.I)) # ['1', '1', '2', '3']
8、escape
說(shuō)明:
re.escape對(duì)字符串里面的特殊字符串進(jìn)行轉(zhuǎn)義。
語(yǔ)法:
escape(pattern)
舉例:
print(re.escape('www.dxy.cn')) # www\.dxy\.cn
9、正則
“(?P<name>…)”:分組,并將其命名為<name>。
“(?P=name)”:引用別名為<name>的分組匹配到的串。
10、前項(xiàng)(否定)界定中的特殊
正則中常用的前項(xiàng)界定(?<=exp)和前項(xiàng)否定界定(?<!exp)在 python 中會(huì)報(bào)錯(cuò):look-behind requires fixed-width pattern,原因是 python 中前項(xiàng)界定的表達(dá)式必須是定長(zhǎng)的,例如
(?<=aaa) # 正確 (?<=aaa|bbb) # 正確 (?<=aaa|bb) # 錯(cuò)誤 (?<=\d+) # 錯(cuò)誤 (?<=\d{3}) # 正確
以上所述是小編給大家介紹的Python正則表達(dá)式re模塊詳解整合,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
相關(guān)文章
深入了解python中的常見(jiàn)錯(cuò)誤類型與解決
在Python編程過(guò)程中,經(jīng)常會(huì)遇到各種錯(cuò)誤,了解這些錯(cuò)誤的類型以及如何處理它們是成為一位優(yōu)秀的Python開(kāi)發(fā)者所必備的技能之一,下面就跟隨小編一起學(xué)習(xí)一下python中的常見(jiàn)錯(cuò)誤類型吧2023-11-11Pandas?Matplotlib保存圖形時(shí)坐標(biāo)軸標(biāo)簽太長(zhǎng)導(dǎo)致顯示不全問(wèn)題的解決
在使用matplotlib作圖的時(shí)候,有的時(shí)候會(huì)遇到畫圖時(shí)顯示不全和圖片保存時(shí)不完整的問(wèn)題,這篇文章主要給大家介紹了關(guān)于Pandas?Matplotlib保存圖形時(shí)坐標(biāo)軸標(biāo)簽太長(zhǎng)導(dǎo)致顯示不全問(wèn)題的解決方法,需要的朋友可以參考下2022-06-06Python網(wǎng)絡(luò)編程中urllib2模塊的用法總結(jié)
使用urllib2模塊進(jìn)行基于url的HTTP請(qǐng)求等操作大家也許都比較熟悉,這里我們?cè)偕钊雭?lái)了解一下urllib2針對(duì)HTTP的異常處理相關(guān)功能,一起來(lái)看一下Python網(wǎng)絡(luò)編程中urllib2模塊的用法總結(jié):2016-07-07python編程的核心知識(shí)點(diǎn)總結(jié)
在本篇文章里小編給大家整理的是一篇關(guān)于python編程的核心知識(shí)點(diǎn)總結(jié)內(nèi)容,對(duì)此有興趣的朋友們可以學(xué)習(xí)參考下。2021-02-02詳解如何基于Pyecharts繪制常見(jiàn)的直角坐標(biāo)系圖表
pyecharts是基于前端可視化框架echarts的Python可視化庫(kù),下面這篇文章主要給大家介紹了關(guān)于如何基于Pyecharts繪制常見(jiàn)的直角坐標(biāo)系圖表的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-04-04python?數(shù)據(jù)挖掘算法的過(guò)程詳解
這篇文章主要介紹了python?數(shù)據(jù)挖掘算法,首先給大家介紹了數(shù)據(jù)挖掘的過(guò)程,基于sklearn主要的算法模型講解,給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-02-02Python numpy和matlab的幾點(diǎn)差異介紹
這篇文章主要介紹了Python numpy和matlab的幾點(diǎn)差異,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07Pythonr基于selenium如何實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)
這篇文章主要給大家介紹了關(guān)于Pythonr基于selenium如何實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2022-03-03