亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python 正則表達(dá)式入門(中級(jí)篇)

 更新時(shí)間:2016年12月07日 15:42:20   作者:唯心不易  
本文主要介紹子表達(dá)式,向前向后查找,回溯引用,有需要的朋友可以看下,希望對(duì)大家有所幫助

初級(jí)篇鏈接:http://chabaoo.cn/article/99372.htm

上一篇我們說在這一篇里,我們會(huì)介紹子表達(dá)式,向前向后查找,回溯引用。到這一篇開始前除了回溯引用在一些場(chǎng)合不可替代以外,大部分情況下的正則表達(dá)式你應(yīng)該都會(huì)寫了。

1.子表達(dá)式

子表達(dá)式的概念特別好理解。其實(shí)它就是將幾個(gè)字符的組合形式看做一個(gè)大的“字符”。不好理解?舉個(gè)栗子:我們要匹配類似IP地址這種形式的字符(暫且不考慮數(shù)值范圍的合理性,這個(gè)留作學(xué)完之后的思考題吧)。形如192.168.1.1這樣的地址我們?cè)趺磳懕磉_(dá)式呢?

答案一 \d+.?\d+.?\d+.?\d+

不好,一個(gè)是太繁瑣,另一個(gè)是連位數(shù)都控制不了

答案二 \d+{1,3}.?\d+{1,3}.?\d+{1,3}.?\d+{1,3}

一般般,復(fù)雜但是起碼能把位數(shù)控制在合理范圍

答案三 (\d+{1,3}\.){3}\d+{1,3}\.

利用子表達(dá)式,將123.這種數(shù)字加小數(shù)點(diǎn)看做一個(gè)整體字符,對(duì)其規(guī)定重復(fù)匹配的次數(shù),既簡(jiǎn)潔,效果又好。所以只要你將幾個(gè)字符組合用圓括號(hào)括起來(lái),那么你就可以把一個(gè)圓括號(hào)內(nèi)的內(nèi)容當(dāng)做一個(gè)字符,外面可以加我們之前講過的所有元字符來(lái)控制匹配。

2.向前向后查找

現(xiàn)在,我們終于來(lái)到了向前向后查找這一塊。為什么說終于來(lái)到這了呢?還記得我們?cè)诔跫?jí)篇最開始的例子嗎?

假如你在寫一個(gè)爬蟲,你得到了一個(gè)網(wǎng)頁(yè)的HTML源碼。其中有一段html

<html><body><h1>hello world</h1></body></html>

你想要把這個(gè)hello world提取出來(lái)

import re
key = r"<html><body><h1>hello world</h1></body></html>"#這段是你要匹配的文本
p1 = r"(?<=<h1>).+?(?=</h1>)"#這是我們寫的正則表達(dá)式規(guī)則,你現(xiàn)在可以不理解啥意思
pattern1 = re.compile(p1)#我們?cè)诰幾g這段正則表達(dá)式
matcher1 = re.search(pattern1,key)#在源文本中搜索符合正則表達(dá)式的部分
print matcher1.group(0)#打印出來(lái)

這個(gè)正則表達(dá)式

p1 = r"(?<=<h1>).+?(?=<h1>)"

看到(?<=<h1>) (?=<h1>)了嗎?第一個(gè)?<=表示在被匹配字符前必須得有<h1>,后面的?=表示被匹配字符后必須有<h1>

簡(jiǎn)單來(lái)說,就是你要匹配的字符是XX,但必須滿足形式是AXXB這樣的字符串,那么你就可以這樣寫正則表達(dá)式

p = r"(?<=A)XX(?=B)"

匹配到的字符串就是XX。并且,向前查找向后查找不需要必須同時(shí)出現(xiàn)。如果你愿意,可以只寫滿足一個(gè)條件。

所以你也不需要記住哪個(gè)是向前查找,哪個(gè)是向后查找。只要記住?<=后面跟著的是前綴要求,?=后面跟的是后綴要求。

本質(zhì)上來(lái)說,向前查找和向后查找其實(shí)是匹配整個(gè)字符串,即AXXB,但返回時(shí)僅僅返回一個(gè)XX。也就是說,如果你愿意,完全可以避開向前向后查找的方式,直接匹配帶有前后綴的字符串,然后做字符串切片處理。

3.回溯引用

不同于前面的向前向后查找,這一條有時(shí)候你未必繞的過去。在有些情況下,你還必須得用到回溯引用,所以你如果想擁有在實(shí)際應(yīng)用中使用正則表達(dá)式,回溯引用是你應(yīng)該了解和掌握的。

我們還是從最開始的例子來(lái)說。

你原本要匹配<h1></h1>之間的內(nèi)容,現(xiàn)在你知道HTML有多級(jí)標(biāo)題,你想把每一級(jí)的標(biāo)題內(nèi)容都提取出來(lái)。你也許會(huì)這樣寫:

p = r"<h[1-6]>.*?</h[1-6]>"

這樣一來(lái),你就可以將HTML頁(yè)面內(nèi)所有的標(biāo)題內(nèi)容全部匹配出來(lái)。即<h1></h1>到<h6></h6>的內(nèi)容都可以被提取出來(lái)。但是我們之前說過,寫正則表達(dá)式困難的不是匹配到想要的內(nèi)容,而是盡可能的不匹配到不想要的內(nèi)容。在這個(gè)例子中,很有可能你就會(huì)被下面這樣的用例玩壞。

比方說

<h1>hello world</h3>

發(fā)現(xiàn)后面的</h3>了嗎?我們不管是怎么寫出來(lái)這樣的標(biāo)題的,但實(shí)實(shí)在在的是我們的正則表達(dá)式同樣會(huì)把這里面的hello world匹配出來(lái)。這時(shí)候就是回溯引用的重要作用。下面就是一個(gè)示例:

import re
key = r"<h1>hello world</h3>"
p1 = r"<h([1-6])>.*?</h\1>"
pattern1 = re.compile(p1)
m1 = re.search(pattern1,key)
print m1.group(0)#這里是會(huì)報(bào)錯(cuò)的,因?yàn)槠ヅ洳坏剑闳绻麑⒃醋址某?lt;/h1>

結(jié)尾就能看出效果

看到\1了嗎?原本那個(gè)位置應(yīng)該是[1-6],但是我們寫的是\1,我們之前說過,轉(zhuǎn)義符\干的活就是把特殊的字符轉(zhuǎn)成一般的字符,把一般的字符轉(zhuǎn)成特殊字符。普普通通的數(shù)字1被轉(zhuǎn)移成什么了呢?在這里1表示第一個(gè)子表達(dá)式,也就是說,它是動(dòng)態(tài)的,是隨著前面第一個(gè)子表達(dá)式的匹配到的東西而變化的。比方說前面的子表達(dá)式內(nèi)是[1-6],在實(shí)際字符串中找到了1,那么后面的\1就是1,如果前面的子表達(dá)式在實(shí)際字符串中找到了2,那么后面的\1就是2。

類似的,\2,\3,....就代表第二個(gè)第三個(gè)子表達(dá)式。

所以回溯引用是正則表達(dá)式內(nèi)的一個(gè)“動(dòng)態(tài)”的正則表達(dá)式,讓你根據(jù)實(shí)際的情況變化進(jìn)行匹配。

中級(jí)篇就到這里,其實(shí)正則表達(dá)式還有很多細(xì)節(jié)還沒有寫出來(lái),也有很多元字符我沒有交代,但掌握了綱要,懂得原理之后剩下的就類似于查表構(gòu)造這種活了。

建議看到這的朋友看看《正則表達(dá)式必知必會(huì)》,初級(jí)篇和這篇中有幾個(gè)例子也是取材于此。

以上就是本文的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,如果有疑問大家可以留言交流,同時(shí)也希望多多支持腳本之家!

相關(guān)文章

  • python操作微信自動(dòng)發(fā)消息的實(shí)現(xiàn)(微信聊天機(jī)器人)

    python操作微信自動(dòng)發(fā)消息的實(shí)現(xiàn)(微信聊天機(jī)器人)

    這篇文章主要介紹了python操作微信自動(dòng)發(fā)消息(微信聊天機(jī)器人),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-07-07
  • python操作redis方法總結(jié)

    python操作redis方法總結(jié)

    本篇文章給大家總結(jié)了python操作redis的實(shí)際方法和實(shí)例代碼,有興趣的朋友參考學(xué)習(xí)下。
    2018-06-06
  • python函數(shù)的5種參數(shù)詳解

    python函數(shù)的5種參數(shù)詳解

    昨天看《Python核心編程》的時(shí)候,剛好看到了函數(shù)部分,于是順勢(shì)將目前接觸到的集中參數(shù)類型都總結(jié)一下吧^^
    2017-02-02
  • 詳談python3中用for循環(huán)刪除列表中元素的坑

    詳談python3中用for循環(huán)刪除列表中元素的坑

    下面小編就為大家分享一篇詳談python3中用for循環(huán)刪除列表中元素的坑,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧
    2018-04-04
  • Python自動(dòng)生產(chǎn)表情包

    Python自動(dòng)生產(chǎn)表情包

    本文主要介紹了使用Python進(jìn)行簡(jiǎn)單圖像處理的方法以及Python自動(dòng)生產(chǎn)表情包的實(shí)例,具有很好的參考價(jià)值,下面跟著小編一起來(lái)看下吧
    2017-03-03
  • Python常用工具類之a(chǎn)dbtool示例代碼

    Python常用工具類之a(chǎn)dbtool示例代碼

    本文主要介紹了Python中常用工具類之a(chǎn)db命令的使用,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-08-08
  • Django之模板層的實(shí)現(xiàn)代碼

    Django之模板層的實(shí)現(xiàn)代碼

    這篇文章主要介紹了Django之模板層的實(shí)現(xiàn)代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-09-09
  • python+tifffile之tiff文件讀寫方式

    python+tifffile之tiff文件讀寫方式

    今天小編就為大家分享一篇python+tifffile之tiff文件讀寫方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧
    2020-01-01
  • python 通過xml獲取測(cè)試節(jié)點(diǎn)和屬性的實(shí)例

    python 通過xml獲取測(cè)試節(jié)點(diǎn)和屬性的實(shí)例

    下面小編就為大家分享一篇python 通過xml獲取測(cè)試節(jié)點(diǎn)和屬性的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧
    2018-03-03
  • python使用在線API查詢IP對(duì)應(yīng)的地理位置信息實(shí)例

    python使用在線API查詢IP對(duì)應(yīng)的地理位置信息實(shí)例

    這篇文章主要介紹了python使用在線API查詢IP對(duì)應(yīng)的地理位置信息實(shí)例,需要的朋友可以參考下
    2014-06-06

最新評(píng)論