匹配中文的正則(GB2312/utf-8)
更新時(shí)間:2009年08月26日 00:06:08 作者:
下面列出了當(dāng)前在 PCRE 中可能使用的修正符。括號(hào)中是這些修正符的內(nèi)部 PCRE 名。修正符中的空格和換行被忽略,其它字符會(huì)導(dǎo)致錯(cuò)誤。
i (PCRE_CASELESS)
如果設(shè)定此修正符,模式中的字符將同時(shí)匹配大小寫(xiě)字母。
m(PCRE_MULTILINE)
默認(rèn)情況下,PCRE 將目標(biāo)字符串作為單一的一“行”字符所組成的(甚至其中包含有換行符也是如此)?!靶衅鹗肌痹址╚)僅僅匹配字符串的起始,“行結(jié)束”元字符($)僅僅匹配字符串的結(jié)束,或者最后一個(gè)字符是換行符時(shí)其前面(除非設(shè)定了 D 修正符)。這和 Perl 是一樣的。
當(dāng)設(shè)定了此修正符,“行起始”和“行結(jié)束”除了匹配整個(gè)字符串開(kāi)頭和結(jié)束外,還分別匹配其中的換行符的之后和之前。這和 Perl 的 /m 修正符是等效的。如果目標(biāo)字符串中沒(méi)有“\n”字符或者模式中沒(méi)有 ^ 或 $,則設(shè)定此修正符沒(méi)有任何效果。
s(PCRE_DOTALL)
如果設(shè)定了此修正符,模式中的圓點(diǎn)元字符(.)匹配所有的字符,包括換行符。沒(méi)有此設(shè)定的話(huà),則不包括換行符。這和 Perl 的 /s 修正符是等效的。排除字符類(lèi)例如 [^a] 總是匹配換行符的,無(wú)論是否設(shè)定了此修正符。
x(PCRE_EXTENDED)
如果設(shè)定了此修正符,模式中的空白字符除了被轉(zhuǎn)義的或在字符類(lèi)中的以外完全被忽略,在未轉(zhuǎn)義的字符類(lèi)之外的 # 以及下一個(gè)換行符之間的所有字符,包括兩頭,也都被忽略。這和 Perl 的 /x 修正符是等效的,使得可以在復(fù)雜的模式中加入注釋。然而注意,這僅適用于數(shù)據(jù)字符。空白字符可能永遠(yuǎn)不會(huì)出現(xiàn)于模式中的特殊字符序列,例如引入條件子模式的序列 (?( 中間。
e
如果設(shè)定了此修正符,preg_replace() 在替換字符串中對(duì)逆向引用作正常的替換,將其作為 PHP 代碼求值,并用其結(jié)果來(lái)替換所搜索的字符串。
只有 preg_replace() 使用此修正符,其它 PCRE 函數(shù)將忽略之。
注意: 本修正符在 PHP3 中不可用。
A(PCRE_ANCHORED)
如果設(shè)定了此修正符,模式被強(qiáng)制為“anchored”,即強(qiáng)制僅從目標(biāo)字符串的開(kāi)頭開(kāi)始匹配。此效果也可以通過(guò)適當(dāng)?shù)哪J奖旧韥?lái)實(shí)現(xiàn)(在 Perl 中實(shí)現(xiàn)的唯一方法)。
D(PCRE_DOLLAR_ENDONLY)
如果設(shè)定了此修正符,模式中的美元元字符僅匹配目標(biāo)字符串的結(jié)尾。沒(méi)有此選項(xiàng)時(shí),如果最后一個(gè)字符是換行符的話(huà),美元符號(hào)也會(huì)匹配此字符之前(但不會(huì)匹配任何其它換行符之前)。如果設(shè)定了 m 修正符則忽略此選項(xiàng)。Perl 中沒(méi)有與其等價(jià)的修正符。
S
當(dāng)一個(gè)模式將被使用若干次時(shí),為加速匹配起見(jiàn)值得先對(duì)其進(jìn)行分析。如果設(shè)定了此修正符則會(huì)進(jìn)行額外的分析。目前,分析一個(gè)模式僅對(duì)沒(méi)有單一固定起始字符的 non-anchored 模式有用。
U(PCRE_UNGREEDY)
本修正符反轉(zhuǎn)了匹配數(shù)量的值使其不是默認(rèn)的重復(fù),而變成在后面跟上“?”才變得重復(fù)。這和 Perl 不兼容。也可以通過(guò)在模式之中設(shè)定 (?U) 修正符或者在數(shù)量符之后跟一個(gè)問(wèn)號(hào)(如 .*?)來(lái)啟用此選項(xiàng)。
X(PCRE_EXTRA)
此修正符啟用了一個(gè) PCRE 中與 Perl 不兼容的額外功能。模式中的任何反斜線(xiàn)后面跟上一個(gè)沒(méi)有特殊意義的字母導(dǎo)致一個(gè)錯(cuò)誤,從而保留此組合以備將來(lái)擴(kuò)充。默認(rèn)情況下,和 Perl 一樣,一個(gè)反斜線(xiàn)后面跟一個(gè)沒(méi)有特殊意義的字母被當(dāng)成該字母本身。當(dāng)前沒(méi)有其它特性受此修正符控制。
u(PCRE_UTF8)
此修正符啟用了一個(gè) PCRE 中與 Perl 不兼容的額外功能。模式字符串被當(dāng)成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用,在 win32 下自 PHP 4.2.3 起可用。自 PHP 4.3.5 起開(kāi)始檢查模式的 UTF-8 合法性。
如果設(shè)定此修正符,模式中的字符將同時(shí)匹配大小寫(xiě)字母。
m(PCRE_MULTILINE)
默認(rèn)情況下,PCRE 將目標(biāo)字符串作為單一的一“行”字符所組成的(甚至其中包含有換行符也是如此)?!靶衅鹗肌痹址╚)僅僅匹配字符串的起始,“行結(jié)束”元字符($)僅僅匹配字符串的結(jié)束,或者最后一個(gè)字符是換行符時(shí)其前面(除非設(shè)定了 D 修正符)。這和 Perl 是一樣的。
當(dāng)設(shè)定了此修正符,“行起始”和“行結(jié)束”除了匹配整個(gè)字符串開(kāi)頭和結(jié)束外,還分別匹配其中的換行符的之后和之前。這和 Perl 的 /m 修正符是等效的。如果目標(biāo)字符串中沒(méi)有“\n”字符或者模式中沒(méi)有 ^ 或 $,則設(shè)定此修正符沒(méi)有任何效果。
s(PCRE_DOTALL)
如果設(shè)定了此修正符,模式中的圓點(diǎn)元字符(.)匹配所有的字符,包括換行符。沒(méi)有此設(shè)定的話(huà),則不包括換行符。這和 Perl 的 /s 修正符是等效的。排除字符類(lèi)例如 [^a] 總是匹配換行符的,無(wú)論是否設(shè)定了此修正符。
x(PCRE_EXTENDED)
如果設(shè)定了此修正符,模式中的空白字符除了被轉(zhuǎn)義的或在字符類(lèi)中的以外完全被忽略,在未轉(zhuǎn)義的字符類(lèi)之外的 # 以及下一個(gè)換行符之間的所有字符,包括兩頭,也都被忽略。這和 Perl 的 /x 修正符是等效的,使得可以在復(fù)雜的模式中加入注釋。然而注意,這僅適用于數(shù)據(jù)字符。空白字符可能永遠(yuǎn)不會(huì)出現(xiàn)于模式中的特殊字符序列,例如引入條件子模式的序列 (?( 中間。
e
如果設(shè)定了此修正符,preg_replace() 在替換字符串中對(duì)逆向引用作正常的替換,將其作為 PHP 代碼求值,并用其結(jié)果來(lái)替換所搜索的字符串。
只有 preg_replace() 使用此修正符,其它 PCRE 函數(shù)將忽略之。
注意: 本修正符在 PHP3 中不可用。
A(PCRE_ANCHORED)
如果設(shè)定了此修正符,模式被強(qiáng)制為“anchored”,即強(qiáng)制僅從目標(biāo)字符串的開(kāi)頭開(kāi)始匹配。此效果也可以通過(guò)適當(dāng)?shù)哪J奖旧韥?lái)實(shí)現(xiàn)(在 Perl 中實(shí)現(xiàn)的唯一方法)。
D(PCRE_DOLLAR_ENDONLY)
如果設(shè)定了此修正符,模式中的美元元字符僅匹配目標(biāo)字符串的結(jié)尾。沒(méi)有此選項(xiàng)時(shí),如果最后一個(gè)字符是換行符的話(huà),美元符號(hào)也會(huì)匹配此字符之前(但不會(huì)匹配任何其它換行符之前)。如果設(shè)定了 m 修正符則忽略此選項(xiàng)。Perl 中沒(méi)有與其等價(jià)的修正符。
S
當(dāng)一個(gè)模式將被使用若干次時(shí),為加速匹配起見(jiàn)值得先對(duì)其進(jìn)行分析。如果設(shè)定了此修正符則會(huì)進(jìn)行額外的分析。目前,分析一個(gè)模式僅對(duì)沒(méi)有單一固定起始字符的 non-anchored 模式有用。
U(PCRE_UNGREEDY)
本修正符反轉(zhuǎn)了匹配數(shù)量的值使其不是默認(rèn)的重復(fù),而變成在后面跟上“?”才變得重復(fù)。這和 Perl 不兼容。也可以通過(guò)在模式之中設(shè)定 (?U) 修正符或者在數(shù)量符之后跟一個(gè)問(wèn)號(hào)(如 .*?)來(lái)啟用此選項(xiàng)。
X(PCRE_EXTRA)
此修正符啟用了一個(gè) PCRE 中與 Perl 不兼容的額外功能。模式中的任何反斜線(xiàn)后面跟上一個(gè)沒(méi)有特殊意義的字母導(dǎo)致一個(gè)錯(cuò)誤,從而保留此組合以備將來(lái)擴(kuò)充。默認(rèn)情況下,和 Perl 一樣,一個(gè)反斜線(xiàn)后面跟一個(gè)沒(méi)有特殊意義的字母被當(dāng)成該字母本身。當(dāng)前沒(méi)有其它特性受此修正符控制。
u(PCRE_UTF8)
此修正符啟用了一個(gè) PCRE 中與 Perl 不兼容的額外功能。模式字符串被當(dāng)成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用,在 win32 下自 PHP 4.2.3 起可用。自 PHP 4.3.5 起開(kāi)始檢查模式的 UTF-8 合法性。
相關(guān)文章
Java中使用正則表達(dá)式處理文本數(shù)據(jù)
正則表達(dá)式就是一個(gè)字符串,但和普通的字符串不同的是,正則表達(dá)式是對(duì)一組相似字符串的抽象。本文將給大家介紹java中使用正則表達(dá)式處理文本數(shù)據(jù)的相關(guān)的資料,感興趣的朋友一起看看吧2015-10-10學(xué)習(xí)正則!超基礎(chǔ)簡(jiǎn)單例子
我一直都覺(jué)得正則表達(dá)式只要在要用的時(shí)候翻一下百度就Ok了,然后今天寫(xiě)php的時(shí)候發(fā)現(xiàn),原來(lái)我正則完全一點(diǎn)都不懂2012-09-09最嚴(yán)謹(jǐn)?shù)男r?yàn)email地址的正則表達(dá)式及各種語(yǔ)言對(duì)應(yīng)版
這篇文章主要介紹了最嚴(yán)謹(jǐn)?shù)男r?yàn)email地址的正則表達(dá)式及各種語(yǔ)言對(duì)應(yīng)版,本文給出通用、Python、Javascript、PHP、Perl / Ruby、Perl等版本的最嚴(yán)謹(jǐn)?shù)谋磉_(dá)式寫(xiě)法,需要的朋友可以參考下2015-07-07js正則表達(dá)式學(xué)習(xí)和總結(jié)(必看篇)
下面小編就為大家?guī)?lái)一篇js正則表達(dá)式學(xué)習(xí)和總結(jié)(必看篇)。小編覺(jué)得挺不錯(cuò)的,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧,祝大家游戲愉快哦2016-11-11正則表達(dá)式regular expression詳述(一)
正則表達(dá)式regular expression詳述(一)...2006-06-06正則刪除字符串左、右或兩端的空格經(jīng)驗(yàn)總結(jié)
我們經(jīng)常需要獲取文本框中用戶(hù)輸入的信息,然后通過(guò)ajax或form提交到后臺(tái),數(shù)據(jù)中難免要包含一些空格,因此我們有必要在將數(shù)據(jù)傳輸?shù)胶笈_(tái)之前,消除數(shù)據(jù)兩端的空格,看一看希望可以幫助到你2013-03-03