HTML漢字編碼標準介紹

HTML中需要指定網(wǎng)頁所使用的編碼,一般指定的方式為:
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
而在新版本HTML5中,也可以使用更簡單的方式:
<meta charset="UTF-8">
因為世界上所用的語言文字很多,為了滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的要求,國際組織研制了Unicode編碼,于1994年正式公布,并不斷升級,提供了1,114,112個碼點,定義了包括古文字符號在內(nèi)的人類所有可讀字符的字符集。但Unicode編碼為了表示那么多字符,通常使用32位(即4個字節(jié))來表示一個字符,需要占用比較大的存儲空間,對常用的字符(如ASCII)也需要較長的編碼,內(nèi)存使用效率比較低。
為此,定義了一種使用8位編碼單元的變寬的編碼格式UTF-8。UTF-8編碼中,一些常用的字符可以使用較少的字節(jié)來表示,而較少使用的字符則使用較多的字節(jié),提高了編碼占用空間的效率。如ASCII碼仍使用一個字節(jié)來表示,這是通過識別編碼中一些高位的來實現(xiàn)的,它搭建了ASCII編碼和Unicode的橋梁。具體編碼方式為:
·0000~007F:0xxxxxxx,存儲為一個字節(jié),有7位可表示不同的字符,一般對應(yīng)ASCII字符
·0080~07FF:110xxxxx,10xxxxxx,存儲為兩個字節(jié),有11位可表示不同的字符
·0800~FFFF:1110xxxx,10xxxxxx,10xxxxxx,存儲為3個字節(jié),有16位用來表示不同的字符
·10000~1FFFFF:11110xxx,10xxxxxx,10xxxxxx,10xxxxxx,存儲為4個字節(jié),有21位表示不同的字符
可以看到規(guī)律:如果最高位不是0,那么數(shù)字中在0前面的數(shù)字表示一個序列包括的碼元數(shù)。一個序列中,第一個碼元之后的所有碼元都有10前綴。Unicode編碼還有UTF-16、UTF-32等其他的編碼格式,但UTF-8更采用,同樣也可以表示所有的編碼集。
過去在計算機中表示漢字最常用的是GB2312編碼,1980年發(fā)布,全稱為《信息交換用漢字編碼字符集--基本集》,它使用兩個字節(jié)來表示一個漢字,共收入6763個漢字和682個非漢字圖形字符,兼容于ASCII字符集。但這種編碼中包含的漢字比較少,不能表示港臺使用的繁體字,一些非常用字及古書中的字也無法表示,實用中會感到很多不便。后來,在GB2312基礎(chǔ)上進行了擴展,也就是GBK編碼標準,可以表示繁體字及一些異體字,使用范圍得到擴展。
為了適合更廣范圍的應(yīng)用,又發(fā)布了GB18030編碼標準,GB18030-2000收錄了27533個漢字,GB18030-2005則收錄了70244個漢字,并包含了藏、蒙古、傣、彝、朝鮮、維吾爾文等多種少數(shù)民族文字。GB18030的總編碼空間超過150萬個碼位,編碼采用單字節(jié)、雙字節(jié)和四字節(jié)對字符編碼,單字節(jié)部分采用GB/T11383的編碼結(jié)構(gòu)與規(guī)則,使用0x00至0x7F碼位,對應(yīng)于ASCII碼的相應(yīng)碼位;雙字節(jié)部分,首字節(jié)碼位從0x81至0xFE,尾字節(jié)碼位分別是0x40至0x7E和0x80至0xFE;四字節(jié)部分采用GB/T11383未采用的0x30到0x39作為對雙字節(jié)編碼擴充的后綴,這樣擴充的四字節(jié)編碼,其范圍為0x81308130到0xFE39FE39。GB18030編碼還在不斷擴充中。
為了更多地表示漢字及一些特殊符號,也為了未來更好地兼容性,新制作的網(wǎng)頁最好使用GB18030標準,也就是使用下面兩種方式之一指定編碼:
<meta http-equiv="Content-Type" content="text/html;charset=gb18030">
<meta charset="gb18030">
當(dāng)然,為了顯示外國文字方便,也可以使用國際通用的UTF-8編碼。
相關(guān)文章
- HTML表格用于在網(wǎng)頁上展示數(shù)據(jù),通過標簽及其相關(guān)標簽來創(chuàng)建,表格由行和列組成,每一行包含一個或多個單元格,單元格可以包含文本、圖像、鏈接等元素,本文將詳細介紹HTML表格2025-03-12
- 本文介紹了三種禁止HTML頁面滾動的方法:通過CSS的overflow屬性、使用JavaScript的滾動事件監(jiān)聽器以及使用CSS的position:fixed屬性,每種方法都有其適用場景和優(yōu)缺點,感興2025-02-24
- 在 Web 開發(fā)中,文本的視覺效果是提升用戶體驗的重要因素之一,通過 CSS 技巧,我們可以創(chuàng)造出許多獨特的效果,例如文字鏤空效果,本文將帶你一步一步實現(xiàn)一個簡單的文字鏤空2024-11-17
- 在Html中,a標簽?zāi)J的超鏈接樣式是藍色字體配下劃線,這可能不滿足所有設(shè)計需求,如需去除這些默認樣式,可以通過CSS來實現(xiàn),本文給大家介紹Html去除a標簽的默認樣式的操作代碼2024-09-25
- 在HTML中,可以通過設(shè)置CSS的resize屬性為none,來禁止用戶手動拖動文本域(textarea)的大小,這種方法簡單有效,適用于大多數(shù)現(xiàn)代瀏覽器,但需要在老舊瀏覽器中進行測試以確保2024-09-25
- 本文詳細介紹了如何利用HTML和CSS實現(xiàn)多種風(fēng)格的進度條,包括基礎(chǔ)的水平進度條、環(huán)形進度條以及球形進度條等,還探討了如何通過動畫增強視覺效果,內(nèi)容涵蓋了使用HTML原生標簽2024-09-19
- Canvas 提供了一套強大的 2D 繪圖 API,適用于各種圖形繪制、圖像處理和動畫制作,可以幫助你創(chuàng)建復(fù)雜且高效的網(wǎng)頁圖形應(yīng)用,這篇文章主要介紹了HTML中Canvas關(guān)鍵知識點總結(jié)2024-06-03
html table+css實現(xiàn)可編輯表格的示例代碼
本文主要介紹了html table+css實現(xiàn)可編輯表格的示例代碼,主要使用HTML5的contenteditable屬性,文中通過示例代碼介紹的非常詳細,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)2024-03-06- 本文主要介紹了HTML中使用Flex布局實現(xiàn)雙行夾批效果,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)2024-02-22
- 在網(wǎng)站開發(fā)中,登錄頁面是必不可少的一部分,本文就來介紹一下HTML+CSS實現(xiàn)登錄切換,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需2024-02-02