用正則表達式匹配字符串中漢字及中文標(biāo)點符號
問題:
在寫項目時遇到需要匹配字符串中所有的漢字并且包括簡單的中文標(biāo)點符號
比如:
匹配下面這個完成的字符串
let str = '上傳文件,你好呀,我很好';
網(wǎng)上能夠查到很多匹配漢字的正則
let reg = /[\u4e00-\u9fa5]+/g; console.log(str.match(reg)); // 結(jié)果如下 ['上傳文件', '你好呀', '我很好']
從結(jié)果可以看出上面寫的正則沒有匹配到標(biāo)點符號,,所以將完整的字符串(str)分隔開了
又從網(wǎng)上查找匹配中文標(biāo)點的正則
// 匹配中文標(biāo)點的正則 \u3002|\uff1f|\uff01|\uff0c|\u3001|\uff1b|\uff1a|\u201c|\u201d|\u2018|\u2019|\uff08|\uff09|\u300a|\u300b|\u3010|\u3011|\u007e // 可以匹配以下中文標(biāo)點符號(順序是一一對應(yīng)的) // `。 ? ! , 、 ; : “ ” ‘ ' ( ) 《 》 【 】 ~`
Ps:
如果上面沒有想要的標(biāo)點符號,可以上網(wǎng)查找將中文符號轉(zhuǎn)換成Unicode編碼添加在表達式中即可
將剛才編寫的正則表達式進行下簡單的修改
let reg = /[(\u4e00-\u9fa5)(\u3002|\uff1f|\uff01|\uff0c|\u3001|\uff1b|\uff1a|\u201c|\u201d|\u2018|\u2019|\uff08|\uff09|\u300a|\u300b|\u3010|\u3011|\u007e)]+/g console.log(str.match(reg)); // 打印結(jié)果 ['上傳文件,你好呀,我很好']
可以看到這次結(jié)果是我們想要的形式,整個字符串都匹配到了~
補充:
Unicode 編碼并不只是為某個字符簡單定義了一個編碼,而且還將其進行了歸類。
\pP 其中的小寫 p 是 property 的意思,表示 Unicode 屬性,用于 Unicode 正表達式的前綴。
大寫 P 表示 Unicode 字符集七個字符屬性之一:標(biāo)點字符。
其他六個是
- L:字母;
- M:標(biāo)記符號(一般不會單獨出現(xiàn));
- Z:分隔符(比如空格、換行等);
- S:符號(比如數(shù)學(xué)符號、貨幣符號等);
- N:數(shù)字(比如阿拉伯?dāng)?shù)字、羅馬數(shù)字等);
- C:其他字符
總結(jié)
到此這篇關(guān)于用正則表達式匹配字符串中漢字及中文標(biāo)點符號的文章就介紹到這了,更多相關(guān)正則匹配漢字及中文標(biāo)點符號內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
[js]一個只刪除所有font標(biāo)簽的正則函數(shù)
[js]一個只刪除所有font標(biāo)簽的正則函數(shù)...2007-09-09PHP正則表達式基本函數(shù) 修飾符 元字符和需轉(zhuǎn)義字符說明
寫在前面:PHP正則的執(zhí)行效率并不高,而且比較耗資源,能不能則不用。2010-07-07