腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

十分鐘上手正則表達(dá)式下篇

更新時間：2021年10月13日 15:11:20 作者：滌生手記

正則表達(dá)式(regular expression)描述了一種字符串匹配的模式（pattern），可以用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等

一、正則表達(dá)式常用符號

本章示例著重于在gawk程序腳本中的較常見的ERE模式符號。

1.1 問號【？】

問號類似于星號，不過有點細(xì)微的不同。問號表明前面的字符可以出現(xiàn) 0 次或 1 次，但只限于此。它不會匹配多次出現(xiàn)的字符。示例展示：

腳本解說:

如果字符 e 并未在文本中出現(xiàn)，或者它只在文本中出現(xiàn)了 1 次，那么模式會匹配。

和星號一樣，可以將問號和字符組一起使用。

腳本解說：

如果字符組中的字符出現(xiàn)了 0 次或 1 次，模式匹配就成立。但如果兩個字符都出現(xiàn)了，或者其中一個字符出現(xiàn)了2 次，模式匹配就不成立。

1.2 加號【+】

加號是類似于星號的另一個模式符號，但跟問號也有不同。加號表明前面的字符可以出現(xiàn) 1次或多次，但必須至少出現(xiàn)1 次。如果該字符沒有出現(xiàn)，那么模式就不會匹配。

示例解說：

如果字符 e 沒有出現(xiàn)，模式匹配就不成立。加號同樣適用于字符組，與星號和問號的使用方式相同。

腳本解讀：

如果字符組中定義的任一字符出現(xiàn)了，文本就會匹配指定的模式。

1.3 花括號{}

ERE 中的花括號允許為可重復(fù)的正則表達(dá)式指定一個上限。這通常稱為間隔（ interval ）。可以用兩種格式來指定區(qū)間。

m：正則表達(dá)式準(zhǔn)確出現(xiàn)m次。
m, n：正則表達(dá)式至少出現(xiàn)m次，至多n次。

這個特性可以精確調(diào)整字符或字符集在模式中具體出現(xiàn)的次數(shù)。

重點說明：

默認(rèn)情況下， gawk 程序不會識別正則表達(dá)式間隔。必須指定 gawk 程序的 --re- interval 命令行選項才能識別正則表達(dá)式間隔。

示例：

示例解讀：

通過指定間隔為 1 ，限定了該字符在匹配模式的字符串中出現(xiàn)的次數(shù)。如果該字符出現(xiàn)多次，模式匹配就不成立。

同樣也可以指定上限和下限

示例解讀：

字符 e 可以出現(xiàn) 1 次或 2 次，這樣模式就能匹配；否則，模式無法匹配。

下面是字符組的示例：

示例解讀：

如果字母 a 或 e 在文本模式中只出現(xiàn)了 1~2 次，則正則表達(dá)式模式匹配；否則，模式匹配失敗。

1.4 管道符號【|】

管道符號允許在檢查數(shù)據(jù)流時，用邏輯 OR 方式指定正則表達(dá)式引擎要用的兩個或多個模式。如果任何一個模式匹配了數(shù)據(jù)流文本，文本就通過測試。如果沒有模式匹配，則數(shù)據(jù)流文本匹配失敗。

使用格式：

expr1 |expr2|...

示例：

示例解讀：

這個例子會在數(shù)據(jù)流中查找正則表達(dá)式 cat 或 dog 。正則表達(dá)式和管道符號之間不能有空格，否則它們也會被認(rèn)為是正則表達(dá)式模式的一部分。

管道符號兩側(cè)的正則表達(dá)式可以采用任何正則表達(dá)式模式（包括字符組）來定義文本?？聪旅媸纠?/p>

示例解讀：

這個例子會匹配數(shù)據(jù)流文本中的 cat 、 hat 或 dog 。

1.5 小括號（）

正則表達(dá)式模式也可以用圓括號進(jìn)行分組。當(dāng)將正則表達(dá)式模式分組時，該組會被視為一個標(biāo)準(zhǔn)字符?？梢韵駥ζ胀ㄗ址粯咏o該組使用特殊字符。

示例：

示例解讀：

結(jié)尾的 urday 分組以及問號，使得模式能夠匹配完整的 Saturday 或縮寫 Sat 。

將分組和管道符號一起使用來創(chuàng)建可能的模式匹配組是很常見的做法。如下示例：

示例解讀：

模式 (c|b)a(b|t) 會匹配第一組中字母的任意組合以及第二組中字母的任意組合。

二、正則表達(dá)式實戰(zhàn)示例

示例1：

下面會有一個腳本，功能是對PATH環(huán)境變量中定義的目錄里的可執(zhí)行文件進(jìn)行計數(shù)。

腳本內(nèi)容如下：

#!/bin/bash 
# count number of files in your PATH 
 
mypath=$(echo $PATH | sed 's/:/ /g') #用空格來替換冒號,分割路徑
count=0 
for directory in $mypath 
do 
 check=$(ls $directory) 
 for item in $check 
 do 
 count=$[ $count + 1 ] 
 done 
 echo "$directory - $count" 
 count=0 
done

執(zhí)行結(jié)果：

示例2：

正則表達(dá)式解析郵件地址

郵件地址的基本格式為：username@hostname
username值可用字母數(shù)字字符以及以下特殊字符：（點號、單破折線、加號、下劃線）
在有效的郵件用戶名中，這些字符可能以任意組合形式出現(xiàn)。郵件地址的hostname部分由一個或多個域名和一個服務(wù)器名組成。服務(wù)器名和域名也必須遵照嚴(yán)格的命名規(guī)則，只允許字母數(shù)字字符以及以下特殊字符：（點號、下劃線）
服務(wù)器名和域名都用點分隔，先指定服務(wù)器名，緊接著指定子域名，最后是后面不帶點號的
頂級域名。
頂級域名的數(shù)量在過去十分有限，正則表達(dá)式模式編寫者會嘗試將它們都加到驗證模式中。
然而遺憾的是，隨著互聯(lián)網(wǎng)的發(fā)展，可用的頂級域名也增多了。這種方法已經(jīng)不再可行。
從左側(cè)開始構(gòu)建這個正則表達(dá)式模式。

過濾用戶名中表達(dá)式模式。

^([a-zA-Z0-9_\-\.\+]+)@

這個分組指定了用戶名中允許的字符，加號表明必須有至少一個字符。下一個字符很明顯是@。

hostname模式使用同樣的方法來匹配服務(wù)器名和子域名：

([a-zA-Z0-9_\-\.]+)

頂級域名用的正則表達(dá)式模式：

\.([a-zA-Z]{2,5})$

整體組合模式：

^([a-zA-Z0-9_\-\.\+]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5})$

封裝到腳本中：

cat isemail.sh

#!/bin/bash 
# script to filter out bad phone numbers 
awk --re-interval '/^([a-zA-Z0-9_\-\.\+]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5})/{print $0}'

注意：在awk程序中使用正則表達(dá)式間隔時，必須使用--re-interval命令行選項。

示例測試腳本：

示例解讀：

符合規(guī)則的郵件名會打印在屏幕，不符合的會被過濾掉，不會有內(nèi)容輸出。

到此這篇關(guān)于十分鐘上手正則表達(dá)式下篇的文章就介紹到這了,更多相關(guān)正則表達(dá)式入門內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

十分鐘上手正則表達(dá)式下篇

目錄