PHP?trim函數(shù)對多字節(jié)字符的使用限制實例探究
引言
先來判斷下這段代碼的輸出是否一致?
$string = '沈唁 '; var_dump(trim($string)); var_dump(preg_replace('/^[\s\0]+|[\s\0]+$/u', '', $string));
如果你覺得是一致的,那么就是大錯特錯了。
在日常工作中,經(jīng)常需要處理字符串。其中一種常用的情況是,需要刪除字符串兩端的空白字符,這就是 trim()
函數(shù)原本的作用。
但是標準的 trim()
函數(shù)不能處理多字節(jié)字符。
什么是trim()函數(shù)?
在PHP中, trim()
函數(shù)用于刪除字符串的開頭和結(jié)尾的空白字符。默認情況下,這些字符包括:
"\0"
- NULL"\t"
- 制表符"\n"
- 換行"\v"
- 垂直制表符"\r"
- 回車" "
- 空格
mbstring 擴展
在很多語言中,每個必要字符都能一對一映射到 8 bit
的值,但也有一些語言需要非常多的字符來書面通訊,以至于它們的編碼范圍不能僅僅包含在一個字節(jié)里。
開發(fā)多字節(jié)字符編碼方案是為了在基于字節(jié)的常規(guī)編碼系統(tǒng)中表達超過 256 個字符。
在使用trim
、split
、splice
等等操作多字節(jié)編碼的字符串的時候,特別需要注意,由于在這種編碼方案下,兩個或多個連續(xù)字節(jié)可能只表達了一個字符,所以需要使用專門的函數(shù)。 否則,你可能會得到一個以亂碼的字符串結(jié)尾。
而 mbstring
提供了針對多字節(jié)字符串的函數(shù),能夠幫開發(fā)者處理 PHP 中的多字節(jié)編碼。
mbstring
擴展的使用和普通字符串操作函數(shù)一致,而且僅僅需要加上mb_
前綴即可。
類似于:
split
=>mb_split
strlen
=>mb_strlen
substr
=>mb_substr
以此類推,trim
是不是可以直接改為調(diào)用mb_trim
?
答案是也不是。因為你可能會得到一個錯誤:
PHP Fatal error: Uncaught Error: Call to undefined function mb_trim()
mb_trim
、mb_ltrim
和 mb_rtrim
從 2022 年 8 月份就有人在 php-src 的 issue 進行了反饋,這三個函數(shù)也是前不久剛剛通過 RFC,合并到 PHP 內(nèi)核中新增的。
https://github.com/php/php-src/commit/a80b6d7b99ae885cb450a563a788f57917cef74e
function mb_trim(string $string, string $characters = " \f\n\r\t\v\x00\u{00A0}\u{1680}\u{2000}\u{2001}\u{2002}\u{2003}\u{2004}\u{2005}\u{2006}\u{2007}\u{2008}\u{2009}\u{200A}\u{2028}\u{2029}\u{202F}\u{205F}\u{3000}\u{0085}\u{180E}"): string function mb_ltrim(string $string, string $characters = " \f\n\r\t\v\x00\u{00A0}\u{1680}\u{2000}\u{2001}\u{2002}\u{2003}\u{2004}\u{2005}\u{2006}\u{2007}\u{2008}\u{2009}\u{200A}\u{2028}\u{2029}\u{202F}\u{205F}\u{3000}\u{0085}\u{180E}", ?string $encoding = null): string function mb_rtrim(string $string, string $characters = " \f\n\r\t\v\x00\u{00A0}\u{1680}\u{2000}\u{2001}\u{2002}\u{2003}\u{2004}\u{2005}\u{2006}\u{2007}\u{2008}\u{2009}\u{200A}\u{2028}\u{2029}\u{202F}\u{205F}\u{3000}\u{0085}\u{180E}", ?string $encoding = null): string
所以雖然 8.3 剛發(fā)布,但是 8.3 中確實沒有這三個函數(shù),可能需要在 8.3.1 中才能使用了。
不過 PHP 足夠靈活,使我們能夠根據(jù)需要創(chuàng)建自定義的函數(shù),如多字節(jié) mb_trim()
函數(shù)。
if (!function_exists('mb_trim')) { function mb_trim($string) { return preg_replace('/^[\s\0]+|[\s\0]+$/u', '', $string); } }
以上就是PHP trim函數(shù)對多字節(jié)字符的使用限制實例探究的詳細內(nèi)容,更多關(guān)于PHP trim限制多字節(jié)字符的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
PHP基于GD庫實現(xiàn)的生成圖片縮略圖函數(shù)示例
這篇文章主要介紹了PHP基于GD庫實現(xiàn)的生成圖片縮略圖函數(shù),涉及php針對圖片屬性相關(guān)操作技巧,需要的朋友可以參考下2017-07-07php判斷某個方法是否存在函數(shù)function_exists (),method_exists()與is_callabl
這篇文章主要介紹了php判斷某個方法是否存在函數(shù)function_exists (),method_exists()與is_callable()區(qū)別與用法,結(jié)合實例形式分析了php function_exists (),method_exists()與is_callable()基本功能、用法、區(qū)別與操作注意事項,需要的朋友可以參考下2020-04-04php魔術(shù)方法與魔術(shù)變量、內(nèi)置方法與內(nèi)置變量的深入分析
本篇文章是對php魔術(shù)方法與魔術(shù)變量、內(nèi)置方法與內(nèi)置變量進行了詳細的分析介紹,需要的朋友參考下2013-06-06PHP如何實現(xiàn)Unicode和Utf-8編碼相互轉(zhuǎn)換
本文介紹了通過PHP實現(xiàn)一個函數(shù)可以對字符串進行Unicode的編碼和解碼,需要的朋友可以參考下2015-07-07PHP中unset,array_splice刪除數(shù)組中元素的區(qū)別
php中刪除數(shù)組元素是非常的簡單的,但有時刪除數(shù)組需要對索引進行一些排序要求我們會使用到相關(guān)的函數(shù),這里我們來介紹使用unset,array_splice刪除數(shù)組中的元素區(qū)別吧2014-07-07