亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

關(guān)于GBK與UTF-8互轉(zhuǎn)亂碼問題解讀

 更新時間:2025年02月24日 09:35:01   作者:為BUG而來  
GBK與UTF-8互轉(zhuǎn)亂碼問題,是因為編碼和解碼方式不一致導(dǎo)致的,UTF-8編碼的字符在GBK中解碼可能會出現(xiàn)亂碼,而GBK編碼的字符在UTF-8中解碼則通常可以還原,ISO-8859-1編碼是單字節(jié)編碼,可以保證亂碼字符串的還原

GBK與UTF-8互轉(zhuǎn)亂碼問題

我們知道在計算機(jī)內(nèi)存中,存儲的是二進(jìn)制數(shù)據(jù),在網(wǎng)絡(luò)傳輸中,也是二進(jìn)制數(shù)據(jù),但最終呈現(xiàn)給用戶的是字符串,二進(jìn)制與字符串的轉(zhuǎn)化就需要編碼、解碼的參與,如果世界上只有一種字符編碼方式,就不會有亂碼這一說了,但事實是,編碼的方式太多了,utf-8、utf-32、utf-16、gbk、gb2312、iso-8859-1、big5、unicode等等。由于每個編碼的規(guī)則不一樣,一般都不能用一種進(jìn)行編碼,用另一種進(jìn)行解碼。

utf-8中,一個字母用一個字節(jié)表示,一個漢字用三個字節(jié)表示,特殊的漢字用四個字節(jié)表示,而gbk中,一個字母用一個字節(jié)表示,一個漢字用兩個字節(jié)表示。

有一個說法,內(nèi)存中存儲的二進(jìn)制是unicode碼,如果內(nèi)存中的數(shù)據(jù)需要存儲或傳輸時,才會進(jìn)行一次轉(zhuǎn)化,將unicode碼轉(zhuǎn)化成其它的編碼二進(jìn)制(有待考證)。個人覺得這種方式很合理,畢竟unicode碼中每個字符都有獨(dú)一無二的二進(jìn)制與之對應(yīng)。

排查亂碼問題,難度在于是在哪個環(huán)節(jié)出了問題,但亂碼的本質(zhì)都是一樣的,讀取二進(jìn)制的編碼和最初將字符串轉(zhuǎn)化成二進(jìn)制的編碼方式不一致。

此處說明一個概念,編碼指將字符串轉(zhuǎn)化成二進(jìn)制,解碼指將二進(jìn)制轉(zhuǎn)化成字符串

UTF-8編碼,GBK解碼

在這我們討論一下,gbk和utf-8互轉(zhuǎn)的亂碼問題,直接上代碼:

package com.hskw.test;

import java.io.UnsupportedEncodingException;
 
public class CodingTest {
	public static void main(String[] args) throws UnsupportedEncodingException {
		String str = "你好,世界";
		System.out.println("字符串長度:"+str.length());
		
		byte[] utfBytes = str.getBytes("utf-8");
		System.out.println("utf-8需要"+utfBytes.length+"字節(jié)存儲");
		
		byte[] gbkBytes = str.getBytes("gbk");
		System.out.println("gbk需要"+gbkBytes.length+"字節(jié)存儲");
	}
}

以上代碼運(yùn)行打印出以下內(nèi)容:

字符串長度:5

utf-8需要15字節(jié)存儲

gbk需要10字節(jié)存儲

可以看出,utf-8存儲一個漢字,需要3個字節(jié),gbk存儲一個漢字,需要2個字節(jié)。

現(xiàn)用單個字符測試。

package com.hskw.test;

import java.io.UnsupportedEncodingException;
 
public class CodingTest {
	public static void main(String[] args) throws UnsupportedEncodingException {
		String str = "你";
		
		byte[] utfBytes = str.getBytes("utf-8");
		for(byte utfByte:utfBytes){
			//字節(jié)對應(yīng)的十進(jìn)制是負(fù)數(shù),因java中的二進(jìn)制使用補(bǔ)碼表示的,此處使用0xff 還原成int表示的數(shù)據(jù),再轉(zhuǎn)化成16進(jìn)制
			System.out.print(Integer.toHexString((utfByte & 0xFF)) +",");
		}
		System.out.println();
		String utf2gbkStr = new String(str.getBytes("utf-8"),"gbk");
		System.out.println("utf-8轉(zhuǎn)化成gbk:"+utf2gbkStr);
		
		byte[] gbkBytes = utf2gbkStr.getBytes("gbk");
		for(byte gbkByte:gbkBytes){
			System.out.print(Integer.toHexString((gbkByte & 0xFF))+",");
		}
		
		System.out.println();
		String gbk2utfStr = new String(utf2gbkStr.getBytes("gbk"),"utf-8");
		System.out.println("gbk轉(zhuǎn)化成utf-8:"+gbk2utfStr);
	}
}

運(yùn)行上面代碼,得出的結(jié)果:

e4,bd,a0,

utf-8轉(zhuǎn)化成gbk:浣?

e4,bd,3f,

gbk轉(zhuǎn)化成utf-8:??

用兩個字符測試,將上述代碼String str = “你”改成String str = “你好”。運(yùn)行代碼,得出的結(jié)果:

e4,bd,a0,e5,a5,bd,

utf-8轉(zhuǎn)化成gbk:浣犲ソ

e4,bd,a0,e5,a5,bd,

gbk轉(zhuǎn)化成utf-8:你好

上述實驗中,utf-8轉(zhuǎn)化成gbk出現(xiàn)亂碼,這個很好理解,但是再還原回去,gbk轉(zhuǎn)化成utf-8,單個中文字符依然是亂碼,兩個字符卻能正常顯示,這個到底是怎么回事呢?

經(jīng)過一番研究,想把這個事說明白,還需要從它們的編碼規(guī)則著手。

ISO-8859-1

單字節(jié)編碼,向下兼容ASCII,其編碼范圍是0x00-0xFF,0x00-0x7F之間完全和ASCII一致,0x80-0x9F之間是控制字符,0xA0-0xFF之間是文字符號。

GBK

采用單雙字節(jié)變長編碼,英文使用單字節(jié)編碼,完全兼容ASCII字符編碼,中文部分采用雙字節(jié)編碼。雙字節(jié)其編碼范圍從8140至FEFE(剔除xx7F)。

  • 單字節(jié):00000000 - 01111111
  • 雙字節(jié):10000001 01000000 - 11111110 11111110 (剔除******** 01111111)

單字節(jié)、雙字節(jié)的區(qū)分通過高字節(jié)高位區(qū)分,單字節(jié)高位為0,雙字節(jié)的高字節(jié)高位為1。

UTF-8

可變長字符編碼,是unicode碼的具體實現(xiàn),UTF-8用1到6個字節(jié)編碼Unicode字符。

UTF-8編碼規(guī)則:如果只有一個字節(jié)則其最高二進(jìn)制位為0;如果是多字節(jié),其第一個字節(jié)從最高位開始,連續(xù)的二進(jìn)制位值為1的個數(shù)決定了其編碼的字節(jié)數(shù),其余各字節(jié)均以10開頭。

  • 1字節(jié) 0xxxxxxx
  • 2字節(jié) 110xxxxx 10xxxxxx
  • 3字節(jié) 1110xxxx 10xxxxxx 10xxxxxx
  • 4字節(jié) 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
  • 5字節(jié) 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
  • 6字節(jié) 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

明白上述GBK和UTF-8的編碼規(guī)則,我們再分析一下,單個中文字符是亂碼,兩個字符卻能正常顯示的問題。

“你”

UTF-8編碼對應(yīng)的二進(jìn)制:11100100 10111101 10100000

將上述二進(jìn)制通過GBK進(jìn)行解碼,根據(jù)GBK規(guī)則,第一個字節(jié)高位為1,使用雙字節(jié)編碼,

“11100100 10111101”解碼成“浣”,“10100000”對于GBK來說是非法的,就解碼成了一種特殊字符“?”。

看看能不能將“浣?”還原回“你”呢?

GBK編碼對應(yīng)的二進(jìn)制:11100100 10111101 00111111

看到上述的二進(jìn)制,根本不符合UTF-8編碼規(guī)則,故用UTF-8進(jìn)行解碼,是解碼成了一些特殊字符“??”。

對于上述情況可以看出,一個二進(jìn)制,如果不符合當(dāng)前的編碼規(guī)則,會被解碼成特殊字符,但此特殊字符再進(jìn)行編碼,是回不到最初的二進(jìn)制的。

用同樣的方式,分析“你好”為什么最終可以正常顯示。

UTF-8編碼對應(yīng)的二進(jìn)制:11100100 10111101 10100000 11100101 10100101 10111101

將上述二進(jìn)制通過GBK進(jìn)行編碼,根據(jù)GBK規(guī)則,使用雙字節(jié)編碼,“1100100 10111101”解碼成“浣”,“10100000 11100101”解碼成“犲”,“10100101 10111101”解碼成“ソ”。

看看能不能將“浣犲ソ”還原成“你好”呢?

GBK 編碼對應(yīng)的二進(jìn)制:11100100 10111101 10100000 11100101 10100101 10111101

可以看出二進(jìn)制是可以被還原的,將此二進(jìn)制通過UTF-8解碼,肯定能變成“你好”。

一個字符串,通過UTF-8進(jìn)行編碼,再通過GBK進(jìn)行解碼,再將得到的字符串進(jìn)行GBK編碼,最后將得到的二進(jìn)制通過UTF-8解碼,能否還原到最初的字符串,在于UTF-8編碼后得到的二進(jìn)制,是否符合GBK的編碼規(guī)則,如果符合,最終就可以還原,如果不符合,就不可還原。

GBK編碼,UTF-8解碼

package com.hskw.test;

import java.io.UnsupportedEncodingException;
 
public class CodingTest {
	public static void main(String[] args) throws UnsupportedEncodingException {
		String str = "你好";
		
		byte[] gbkBytes = str.getBytes("gbk");
		for(byte gbkByte:gbkBytes){
			//字節(jié)對應(yīng)的十進(jìn)制是負(fù)數(shù),因java中的二進(jìn)制使用補(bǔ)碼表示的,此處使用0xff 還原成int表示的數(shù)據(jù),再轉(zhuǎn)化成16進(jìn)制
			System.out.print(Integer.toHexString((gbkByte & 0xFF)) +",");
		}
		System.out.println();
		String gbk2utfStr = new String(str.getBytes("gbk"),"utf-8");
		System.out.println("gbk轉(zhuǎn)化成utf-8:"+gbk2utfStr);
		
		byte[] utfBytes = gbk2utfStr.getBytes("utf-8");
		for(byte utfByte:utfBytes){
			System.out.print(Integer.toHexString((utfByte & 0xFF))+",");
		}
		
		System.out.println();
		String utf2gbkStr = new String(gbk2utfStr.getBytes("utf-8"),"gbk");
		System.out.println("utf-8轉(zhuǎn)化成gbk:"+utf2gbkStr);
	}
}

運(yùn)行上述代碼,結(jié)果為:

c4,e3,ba,c3,

gbk轉(zhuǎn)化成utf-8:???

ef,bf,bd,ef,bf,bd,ef,bf,bd,

utf-8轉(zhuǎn)化成gbk:錕斤拷錕?

上述結(jié)果應(yīng)該都在意料之中,我們通過上述的方法分析一下。

“你好”GBK編碼的二進(jìn)制:11000100 11100011 10111010 11000011

GBK編碼的二進(jìn)制數(shù)據(jù),完全匹配不了UTF-8的編碼規(guī)則,最終UTF-8只能按如下方式匹配,查看第一個字節(jié),開頭“110”,理論上匹配兩個字節(jié),但看下一個字節(jié),開頭卻不是“10”,最終“11000100”解碼成“?”,看第二個字節(jié)開頭是“1110”,理論匹配三個字節(jié),看下個字節(jié)符合,以“10”開頭,但下下個字節(jié)開頭是“110”,不符合匹配,最終“11100011 10111010”解碼成“?”,同理“11000011”也解碼成“?”,這個符號都是為找不到對應(yīng)規(guī)則隨意匹配的一個特殊字符。

“???”UTF-8編碼的二進(jìn)制為:11101111 10111111 10111101 11101111 10111111 10111101 11101111 10111111 10111101

這個二進(jìn)制和原先的二進(jìn)制不相同,根本轉(zhuǎn)化不到最初的字符串,按照GBK的編碼規(guī)則,“11101111 10111111”編碼成“錕”,“10111101 11101111” 編碼成“斤”,“10111111 10111101”編碼成“拷”,“11101111 10111111”編碼成“錕”,“10111101”不符合GBK規(guī)則,編碼成特殊字符“?”。

理論上說,用GBK編碼,UTF-8解碼的字符串是不能還原到最初的字符串的,因UTF-8編碼規(guī)則的特殊性,GBK編出的二進(jìn)制,是很難匹配上的。

總結(jié)

理論上說,系統(tǒng)出現(xiàn)亂碼,將亂碼還原到最初的樣子,上述UTF-8編碼,GBK解碼,這個有時是可以還原的,有時是還原不了的,要看UTF-8編碼的二進(jìn)制是否都能符合GBK的編碼規(guī)則,但GBK編碼,UTF-8解碼,這個基本是條不歸路。

但實際中,有一種情況,是100%可以將亂碼還原成最初的字符串。就是任意編碼格式編碼,ISO-8859-1解碼,這個主要因為ISO-8859-1是單字節(jié)編碼,而且匹配所有單字節(jié)情況,亂碼字符串總是可以還原到最初的二進(jìn)制。

拓展一個小知識點(diǎn):

關(guān)于進(jìn)制的表示有兩種方式,一種是前綴表示法,一種是后綴表示法。

前綴表示法

  • 十六進(jìn)制:0x
  • 十進(jìn)制:無前綴
  • 八進(jìn)制:0
  • 二進(jìn)制:沒有表示符號

后綴表示法

  • B :二進(jìn)制數(shù)
  • Q :八進(jìn)制數(shù)
  • D :十進(jìn)制數(shù)
  • H :十六進(jìn)制數(shù)

對于十進(jìn)制數(shù)通常不加后綴,也即十進(jìn)制數(shù)后的字母 D 可省略。

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • ApacheBeam中的延遲數(shù)據(jù)處理方法

    ApacheBeam中的延遲數(shù)據(jù)處理方法

    Apache?Beam是一個用于批處理和流處理的統(tǒng)一編程模型,可以處理實時數(shù)據(jù)流和批量數(shù)據(jù),本文給大家介紹ApacheBeam中的延遲數(shù)據(jù)處理方法,感興趣的朋友跟隨小編一起看看吧
    2024-03-03
  • CSDN 博客的代碼高亮問題自己修復(fù)

    CSDN 博客的代碼高亮問題自己修復(fù)

    這幾天 CSDN 博客的代碼高亮功能突然不行了,而且論壇上有人提出 BUG,沒有得到回應(yīng)。
    2009-05-05
  • 域名是什么,有什么用,DNS怎么工作的?

    域名是什么,有什么用,DNS怎么工作的?

    域名(Domain Name)是由字母、數(shù)字和連字符組成的字符串,用于標(biāo)識互聯(lián)網(wǎng)上的計算機(jī)、服務(wù)或資源,通過映射到IP地址(如192.0.2.1),讓人類能夠更方便地訪問網(wǎng)絡(luò)資源,在互聯(lián)網(wǎng)世界中,域名如同現(xiàn)實世界的門牌號碼,是連接用戶與數(shù)字資源的橋梁
    2025-04-04
  • git版本庫創(chuàng)建拓展添加文件到版本庫教程

    git版本庫創(chuàng)建拓展添加文件到版本庫教程

    這篇文章主要為大家介紹了git版本庫創(chuàng)建拓展添加文件到版本庫教程,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-04-04
  • git合并部分提交的實現(xiàn)

    git合并部分提交的實現(xiàn)

    在進(jìn)行Git合并某一次提交時,有時會出現(xiàn)沖突,本文主要介紹了git合并部分提交的實現(xiàn),具有一定的參考價值,感興趣的可以了解一下
    2023-08-08
  • 偽靜態(tài)技術(shù)介紹與優(yōu)缺點(diǎn)分析(較完整篇)

    偽靜態(tài)技術(shù)介紹與優(yōu)缺點(diǎn)分析(較完整篇)

    偽靜態(tài)太適合用在普通的企業(yè)網(wǎng)站上了——既不要求高并發(fā),但同時又很在乎seo(搜索引擎優(yōu)化),而且也要求后臺可動態(tài)更新。
    2009-11-11
  • 教你免費(fèi)做一個屬于自己穩(wěn)定有效的圖床-PicGo

    教你免費(fèi)做一個屬于自己穩(wěn)定有效的圖床-PicGo

    由于現(xiàn)在很多寫作平臺都支持了Markdown語法,導(dǎo)致圖床用的人越來越多。這篇文章主要介紹了如何免費(fèi)做一個屬于自己穩(wěn)定有效的圖床-PicGo,需要的朋友可以參考下
    2020-01-01
  • ROS機(jī)器人底盤坐標(biāo)像素變換操作方法

    ROS機(jī)器人底盤坐標(biāo)像素變換操作方法

    ROS最常用到的三個坐標(biāo)系是:map、odom、base_link,這篇文章主要介紹了ROS機(jī)器人底盤坐標(biāo)像素變換,本文結(jié)合實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2023-01-01
  • WebStorm安裝配置方法圖文教程

    WebStorm安裝配置方法圖文教程

    這篇文章主要為大家詳細(xì)介紹了WebStorm安裝配置方法圖文教程,文中安裝步驟介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-09-09
  • Window下安裝JDK1.8+Tomcat9.0.27+Mysql5.7.28的教程圖解

    Window下安裝JDK1.8+Tomcat9.0.27+Mysql5.7.28的教程圖解

    這篇文章主要介紹了Window下安裝JDK1.8+Tomcat9.0.27+Mysql5.7.28的教程,本文通過圖文并茂的形式給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-11-11

最新評論