亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

C++如何過(guò)濾出字符串的中文(GBK、UTF-8)

 更新時(shí)間:2019年07月28日 14:51:17   作者:夢(mèng)涵的帥爸爸  
這篇文章主要給大家介紹了關(guān)于C++如何過(guò)濾出字符串的中文的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用C++具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

前言

最近在處理游戲敏感詞之類的東西,為了加強(qiáng)屏蔽處理,所以需要過(guò)濾掉字符串中的除漢字之外的是其他東西如數(shù)字,符號(hào),英文字母等。

首先我查閱資料并寫了個(gè)函數(shù):

示例:返回輸入字符串中漢字的個(gè)數(shù):

std::string StrWithOutSymbol(const std::string &source)
{ 
 string sourceWithOutSymbol;

 int i = 0;
 while (source[i] != 0)
 {
  if (source[i] & 0x80 )
  {
   sourceWithOutSymbol += source[i];
   sourceWithOutSymbol += source[i + 1];
   i += 2;
  else
  {
   i ++;
  }
 }
 return
   sourceWithOutSymbol; 
}

這個(gè)函數(shù)的原理是ord($str)&0x80來(lái)判斷漢字

80對(duì)應(yīng)的二進(jìn)制代碼為1000   0000,最高位為一,代表漢字漢字編碼格式通稱為10格式一個(gè)漢字占2字節(jié),但只代表一個(gè)字符

"Windows中,中文簡(jiǎn)體字符集的編碼是同時(shí)用1個(gè)字節(jié)和2個(gè)字節(jié)來(lái)表示的。當(dāng)高位是0x00~0x7f時(shí),為一個(gè)字節(jié),高位為0x80以上時(shí)用2個(gè)字節(jié)表示"

當(dāng)你發(fā)現(xiàn)一個(gè)字節(jié)的內(nèi)容大于0x7f,那它肯定是個(gè)(跟另外一個(gè)字節(jié)拼湊成一個(gè))漢字,如何判斷肯定大于0x7f呢?
0x7f(1111111)后面一個(gè)數(shù)就是0x80(10000000),所以想要大于0x7f,這個(gè)字節(jié)的最高位都肯定是1,我們只需要判斷這個(gè)最高位是否為1就行了。

判斷方法:

位與(相同的位都是1的才為1,否則為0):

如:要判斷一個(gè)數(shù)的第三位是否是1,只要跟4(100)位與,判斷一個(gè)數(shù)的第2位是否為1就跟2(10)位與.

同理判斷第八位是否為1只要跟(10000000)也就是0x80位與了.

這里為什么不用>0x7f?php可能還行,但在其他強(qiáng)類型語(yǔ)言里面,1個(gè)字節(jié)的最高位用來(lái)標(biāo)示負(fù)數(shù),一個(gè)負(fù)數(shù)肯定不可能大于0x7f(最大的整數(shù))

再舉個(gè)例子:

a的assic碼是97(1100001)
A的assic碼是65(1000001)

b的assic碼是98(1100010)
B的assic碼是66(1000010)

發(fā)現(xiàn)一個(gè)規(guī)律:一個(gè)a-z的字母,只要是小寫字母,第六位肯定是1,我們可以用這個(gè)來(lái)判斷大小寫:

這時(shí)候只要跟用以個(gè)字母跟0x20(100000)來(lái)位與判斷:

if(ord($a)&0x20){
  //大寫
}

如何把所有字母改成大寫?第六位的1改成0就行了:

$a='a';
$a  = chr(ord($a)&(~0x20));
echo $a;

然后我信心滿滿的吧這個(gè)函數(shù)加入到項(xiàng)目中去,點(diǎn)擊運(yùn)行,輸入中文進(jìn)行檢查,當(dāng)!項(xiàng)目報(bào)錯(cuò)了????數(shù)組越界????

這是為什么,我又定位到報(bào)錯(cuò)的地方,發(fā)現(xiàn)我使用的cocos-lua,在向c++傳遞字符串的時(shí)候傳進(jìn)來(lái)的字符串是以UTF-8來(lái)進(jìn)行編碼的,我又去找UIF-8的編碼規(guī)則發(fā)現(xiàn)

UTF-8編碼規(guī)則:如果只有一個(gè)字節(jié)則其最高二進(jìn)制位為0;如果是多字節(jié),其第一個(gè)字節(jié)從最高位開始,連續(xù)的二進(jìn)制位值為1的個(gè)數(shù)決定了其編碼的字節(jié)數(shù),其余各字節(jié)均以10開頭。UTF-8轉(zhuǎn)換表表示如下:


而我之前的是按照GBK編碼進(jìn)行操作的,GBK每個(gè)中文字符只占兩個(gè)字節(jié),而utf-8的話中文可能占3個(gè)字節(jié),四個(gè)字節(jié),甚至是五個(gè)六個(gè),所以用剛才那樣的函數(shù)就會(huì)有越界的情況發(fā)生,所以對(duì)用UTF-8進(jìn)行編碼的字符串,就需要進(jìn)行另外的處理,所以我寫了一個(gè)新函數(shù):

對(duì)UTF-8編碼的字符串進(jìn)行中文篩選的函數(shù):

std::string censorStrWithOutSymbol(const std::string &source)
{  
  string sourceWithOutSymbol;

  int i = 0;
  while (source[i] != 0)
  {
    if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20)
    {
      int byteCount = 0;
      if (source[i] & 0x10)
      {
        byteCount = 4;
      }
      else
      {
        byteCount = 3;
      }
      for (int a = 0; a < byteCount; a++)
      {
        sourceWithOutSymbol += source[i];
        i++;
      }
    }
    else if (source[i] & 0x80 && source[i] & 0x40)
    {
      i += 2;
    }
    else
    {
      i += 1;
    }
  }
  return sourceWithOutSymbol;
}

點(diǎn)擊運(yùn)行,成功了!舒服。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對(duì)腳本之家的支持。

相關(guān)文章

  • 詳解PID控制器原理

    詳解PID控制器原理

    什么是 PID?它是一種在編程中使用的基本方法,如果正確調(diào)整,可以令人難以置信的有效和準(zhǔn)確,PID代表比例積分微分,3個(gè)單獨(dú)的部分連接在一起,雖然有時(shí)你不需要三個(gè)都使用。例如,您可以改為有P控制,PI控制或PD控制
    2021-06-06
  • C++之內(nèi)存泄漏排查詳解

    C++之內(nèi)存泄漏排查詳解

    這篇文章主要介紹了c++ 如何排查內(nèi)存泄漏,幫助大家更好的理解和學(xué)習(xí)使用c++,感興趣的朋友可以了解下,希望能夠給你帶來(lái)幫助
    2021-10-10
  • 利用c++和easyx圖形庫(kù)做一個(gè)低配版掃雷游戲

    利用c++和easyx圖形庫(kù)做一個(gè)低配版掃雷游戲

    這篇文章主要介紹了用c++和easyx圖形庫(kù)做一個(gè)低配版掃雷游戲,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-01-01
  • C++?opencv圖像處理實(shí)現(xiàn)圖片邊緣檢測(cè)示例

    C++?opencv圖像處理實(shí)現(xiàn)圖片邊緣檢測(cè)示例

    這篇文章主要為大家介紹了C++?opencv實(shí)現(xiàn)圖片邊緣檢測(cè)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-05-05
  • 編寫C++程序使DirectShow進(jìn)行視頻捕捉

    編寫C++程序使DirectShow進(jìn)行視頻捕捉

    這篇文章主要介紹了如何編寫C++程序來(lái)使DirectShow進(jìn)行視頻捕捉的方法,DirectShow是微軟公司在ActiveMovie和Video for Windows的基礎(chǔ)上推出的新一代基于COM(Component Object Model)的流媒體處理的開發(fā)包,要的朋友可以參考下
    2016-03-03
  • C++讀取INI配置文件類實(shí)例詳解

    C++讀取INI配置文件類實(shí)例詳解

    這篇文章主要介紹了C++讀取INI配置文件類的實(shí)現(xiàn)方法,需要的朋友可以參考下
    2014-07-07
  • C和指針小結(jié)(推薦)

    C和指針小結(jié)(推薦)

    下面小編就為大家?guī)?lái)一篇C和指針小結(jié)(推薦)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考,一起跟隨小編過(guò)來(lái)看看吧
    2016-06-06
  • c++素?cái)?shù)篩選法

    c++素?cái)?shù)篩選法

    本文講的是篩選法的C++實(shí)現(xiàn), 篩選法又稱篩法,是求不超過(guò)自然數(shù)N(N&gt;1)的所有質(zhì)數(shù)的一種方法。據(jù)說(shuō)是古希臘的埃拉托斯特尼(Eratosthenes,約公元前274~194年)發(fā)明的,又稱埃拉托斯特尼篩子。
    2017-05-05
  • C語(yǔ)言快速冪取模算法小結(jié)

    C語(yǔ)言快速冪取模算法小結(jié)

    這篇文章主要介紹了C語(yǔ)言快速冪取模算法,包括了算法的分析與改進(jìn),是很多程序設(shè)計(jì)競(jìng)賽中常見的算法,需要的朋友可以參考下
    2014-09-09
  • c++ 如何實(shí)現(xiàn)線程注入

    c++ 如何實(shí)現(xiàn)線程注入

    本文主要介紹了各種API遠(yuǎn)程線程注入的方法,分別是 遠(yuǎn)程線程注入,普通消息鉤子注入,全局消息鉤子注入,APC應(yīng)用層異步注入,ZwCreateThreadEx強(qiáng)力注入,純匯編實(shí)現(xiàn)的線程注入等
    2021-06-06

最新評(píng)論