快捷導(dǎo)航

Java中的字符編碼問(wèn)題處理心得總結(jié)

更新時(shí)間：2016年06月26日 15:18:02 作者：阿諾

Java中的String類(lèi)默認(rèn)是Unicode編碼,大家平常所說(shuō)的UTF-8就是使用最廣的一種unicode的實(shí)現(xiàn)方式,以下我們還是來(lái)看一下Java中的字符編碼問(wèn)題處理心得總結(jié):

當(dāng)面對(duì)一串字節(jié)流的時(shí)候，如果不指定它的編碼，其實(shí)際意義是無(wú)法知道的。
這句話應(yīng)該也是我們面對(duì)“字符轉(zhuǎn)字節(jié)，字節(jié)轉(zhuǎn)字符”問(wèn)題時(shí)候時(shí)刻記在腦子里的。否則亂碼問(wèn)題可能就接踵而至。
其實(shí)亂碼問(wèn)題的本質(zhì)就是Encoding和Decoding用的不是一個(gè)編碼，明白了這個(gè)道理就很好解決亂碼問(wèn)題了。
Java中常見(jiàn)的時(shí)候有如下:
1. String類(lèi)使用byte[]的構(gòu)造函數(shù) String(byte[] bytes)，String類(lèi)同時(shí)提供了兩個(gè)重載
（1）String(byte[] bytes, Charset charset)
（2）String(byte[] bytes, String charsetName) 就是用來(lái)指定編碼的。

2. String類(lèi)的getBytes函數(shù) byte[] getBytes() 同樣有如下兩個(gè)重載:
（1）byte[] getBytes(Charset charset)
（2） byte[] getBytes(String charsetName)
所有不需指定編碼的都是使用the platform's default charset, 可使用System.getProperty("file.encoding")，Charset.defaultCharset()獲的。
3. PrintStream的 print(String s)同樣設(shè)計(jì)到這個(gè)問(wèn)題，為此PrintStream的構(gòu)造函數(shù)中除了PrintStream(File file) 還有PrintStream(File file, String csn)
否則the string's characters are converted into bytes according to the platform's default character encoding,
DataOutputStream構(gòu)造時(shí)沒(méi)有方法指定編碼，但其提供了一個(gè)writeUTF(String str)

舉開(kāi)頭的例子說(shuō)明指定編碼的必要:
如果一個(gè)網(wǎng)頁(yè)指定編碼為utf-8, <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />, 頁(yè)面上有一個(gè)form，提交到一個(gè)servlet
那么用戶輸入的字符傳過(guò)來(lái)的字節(jié)流就是按指定編碼encoding的，例如你輸入了"Hello你好",如果是utf-8，那么傳過(guò)來(lái)的就是如下：

[104, 101, 108, 108, 111, -28, -67, -96, -27, -91, -67]

, 我們看到后面漢字每個(gè)用了3個(gè)字節(jié)，這個(gè)可以參考Utf-8的相關(guān)知識(shí)。
但如果你頁(yè)面指定的是GBK，那傳過(guò)來(lái)的就不一樣了:

 [104, 101, 108, 108, 111, -60, -29, -70, -61]

所以servlet端，當(dāng)使用request.getParameter的時(shí)候內(nèi)部應(yīng)該是調(diào)用
String s = new String(bytes, response.getEncoding())的，如果你response沒(méi)有設(shè)置編碼，那么就采用默認(rèn)的編碼null會(huì)轉(zhuǎn)為java 平臺(tái)的GBK，那中文就變成亂碼了。
所以為了避免亂碼，jsp站點(diǎn)一般設(shè)一個(gè)過(guò)濾器,所有的頁(yè)面、servet都設(shè)置統(tǒng)一的編碼。response.setEncoding, request.setEncoding.

Java的String內(nèi)部是一個(gè)char[], char是一個(gè)用16位存儲(chǔ)的utf-16編碼的單元。為此，當(dāng)要把字符、字符串轉(zhuǎn)為字節(jié)輸出到文件、網(wǎng)絡(luò)，或者從文件、網(wǎng)絡(luò)讀到的字節(jié)流還原為有實(shí)際意義的字符，都要明白其編碼是什么。

2016626151159929.jpg (690×492)

幾點(diǎn)心得
1.String類(lèi)始終是以Unicode編碼形式存儲(chǔ).
2.注意String.getBytes()的使用：
如果不帶字符集參數(shù)，就會(huì)依賴于JVM的字符集編碼，LINUX上一般為UNICODE,WINDOWS下一般為GBK.(要想改變JVM缺省字符集編碼，啟動(dòng)JVM時(shí)用選項(xiàng)-Dfile.encodeing=UTF-8.
為了安全起見(jiàn)，建議始終帶參數(shù)調(diào)用,例如：String s ; s.getBytes("UTF-8")。
3.Charset類(lèi)非常好用，
（1）Charset.encode 是編碼，即把String按你指定的字符集編碼格式進(jìn)行編碼后輸出字節(jié)數(shù)組。
（2）Charset.decode 是解碼，即把一個(gè)字節(jié)數(shù)組按你指定的字符集編碼格式進(jìn)行解碼后輸出成字符串。

舉例如下：

 String s = Charset.defaultCharset().displayName();
  String s1 = "我喜歡你,My Love";
  
  ByteBuffer bb1 = ByteBuffer.wrap(s1.getBytes("UTF-8"));

  for(byte bt:bb1.array()){
    System.out.printf("%x",bt);
  }
  //char[]用法
  char[] chArray={'I','L','o','v','e','你'};

  //CharBuffer用法
  CharBuffer cb = CharBuffer.wrap(chArray);
  //重新定位指針
  cb.flip();

  String s2= new String(chArray);

  //ByteBuffer用法
  ByteBuffer bb2 = Charset.forName("utf-8").encode(cb);

  // 利用Charset編碼為指定字符集

  ByteBuffer bb3 = Charset.forName("utf-8").encode(s1);

  byte [] b  = bb3.array() ;

  // 利用Charset按指定字符集解碼為字符串
  ByteBuffer bb4= ByteBuffer.wrap(b);

  String s2 = Charset.forName("utf-8").decode(bb4).toString();

您可能感興趣的文章: