腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

淺談Unicode與JavaScript的發(fā)展史

更新時(shí)間：2015年01月19日 09:36:41 投稿：hebedich

這篇文章主要簡(jiǎn)單介紹了Unicode與JavaScript的發(fā)展史的相關(guān)資料,需要的朋友可以參考下

一、Unicode是什么？

Unicode源于一個(gè)很簡(jiǎn)單的想法：將全世界所有的字符包含在一個(gè)集合里，計(jì)算機(jī)只要支持這一個(gè)字符集，就能顯示所有的字符，再也不會(huì)有亂碼了。

它從0開(kāi)始，為每個(gè)符號(hào)指定一個(gè)編號(hào)，這叫做"碼點(diǎn)"（codepoint）。比如，碼點(diǎn)0的符號(hào)就是null（表示所有二進(jìn)制位都是0）。

復(fù)制代碼代碼如下:

U+0000 = null

上式中，U+表示緊跟在后面的十六進(jìn)制數(shù)是Unicode的碼點(diǎn)。

目前，Unicode的最新版本是7.0版，一共收入了109449個(gè)符號(hào)，其中的中日韓文字為74500個(gè)。可以近似認(rèn)為，全世界現(xiàn)有的符號(hào)當(dāng)中，三分之二以上來(lái)自東亞文字。比如，中文"好"的碼點(diǎn)是十六進(jìn)制的597D。

復(fù)制代碼代碼如下:

U+597D = 好

這么多符號(hào)，Unicode不是一次性定義的，而是分區(qū)定義。每個(gè)區(qū)可以存放65536個(gè)（216）字符，稱(chēng)為一個(gè)平面（plane）。目前，一共有17個(gè)（25）平面，也就是說(shuō)，整個(gè)Unicode字符集的大小現(xiàn)在是221。

最前面的65536個(gè)字符位，稱(chēng)為基本平面（縮寫(xiě)B(tài)MP），它的碼點(diǎn)范圍是從0一直到216-1，寫(xiě)成16進(jìn)制就是從U+0000到U+FFFF。所有最常見(jiàn)的字符都放在這個(gè)平面，這是Unicode最先定義和公布的一個(gè)平面。

剩下的字符都放在輔助平面（縮寫(xiě)SMP），碼點(diǎn)范圍從U+010000一直到U+10FFFF。

二、UTF-32與UTF-8

Unicode只規(guī)定了每個(gè)字符的碼點(diǎn)，到底用什么樣的字節(jié)序表示這個(gè)碼點(diǎn)，就涉及到編碼方法。

最直觀的編碼方法是，每個(gè)碼點(diǎn)使用四個(gè)字節(jié)表示，字節(jié)內(nèi)容一一對(duì)應(yīng)碼點(diǎn)。這種編碼方法就叫做UTF-32。比如，碼點(diǎn)0就用四個(gè)字節(jié)的0表示，碼點(diǎn)597D就在前面加兩個(gè)字節(jié)的0。

復(fù)制代碼代碼如下:

U+0000 = 0x0000 0000U+597D = 0x0000 597D

UTF-32的優(yōu)點(diǎn)在于，轉(zhuǎn)換規(guī)則簡(jiǎn)單直觀，查找效率高。缺點(diǎn)在于浪費(fèi)空間，同樣內(nèi)容的英語(yǔ)文本，它會(huì)比ASCII編碼大四倍。這個(gè)缺點(diǎn)很致命，導(dǎo)致實(shí)際上沒(méi)有人使用這種編碼方法，HTML5標(biāo)準(zhǔn)就明文規(guī)定，網(wǎng)頁(yè)不得編碼成UTF-32。

人們真正需要的是一種節(jié)省空間的編碼方法，這導(dǎo)致了UTF-8的誕生。UTF-8是一種變長(zhǎng)的編碼方法，字符長(zhǎng)度從1個(gè)字節(jié)到4個(gè)字節(jié)不等。越是常用的字符，字節(jié)越短，最前面的128個(gè)字符，只使用1個(gè)字節(jié)表示，與ASCII碼完全相同。

編號(hào)范圍字節(jié)0x0000 - 0x007F10x0080 - 0x07FF20x0800 - 0xFFFF30x010000 - 0x10FFFF4

由于UTF-8這種節(jié)省空間的特性，導(dǎo)致它成為互聯(lián)網(wǎng)上最常見(jiàn)的網(wǎng)頁(yè)編碼。不過(guò)，它跟今天的主題關(guān)系不大，我就不深入了，具體的轉(zhuǎn)碼方法，可以參考我多年前寫(xiě)的《字符編碼筆記》。

三、UTF-16簡(jiǎn)介

UTF-16編碼介于UTF-32與UTF-8之間，同時(shí)結(jié)合了定長(zhǎng)和變長(zhǎng)兩種編碼方法的特點(diǎn)。

它的編碼規(guī)則很簡(jiǎn)單：基本平面的字符占用2個(gè)字節(jié)，輔助平面的字符占用4個(gè)字節(jié)。也就是說(shuō)，UTF-16的編碼長(zhǎng)度要么是2個(gè)字節(jié)（U+0000到U+FFFF），要么是4個(gè)字節(jié)（U+010000到U+10FFFF）。

于是就有一個(gè)問(wèn)題，當(dāng)我們遇到兩個(gè)字節(jié)，怎么看出它本身是一個(gè)字符，還是需要跟其他兩個(gè)字節(jié)放在一起解讀？

說(shuō)來(lái)很巧妙，我也不知道是不是故意的設(shè)計(jì)，在基本平面內(nèi)，從U+D800到U+DFFF是一個(gè)空段，即這些碼點(diǎn)不對(duì)應(yīng)任何字符。因此，這個(gè)空段可以用來(lái)映射輔助平面的字符。

具體來(lái)說(shuō)，輔助平面的字符位共有220個(gè)，也就是說(shuō)，對(duì)應(yīng)這些字符至少需要20個(gè)二進(jìn)制位。UTF-16將這20位拆成兩半，前10位映射在U+D800到U+DBFF（空間大小210），稱(chēng)為高位（H），后10位映射在U+DC00到U+DFFF（空間大小210），稱(chēng)為低位（L）。這意味著，一個(gè)輔助平面的字符，被拆成兩個(gè)基本平面的字符表示。

所以，當(dāng)我們遇到兩個(gè)字節(jié)，發(fā)現(xiàn)它的碼點(diǎn)在U+D800到U+DBFF之間，就可以斷定，緊跟在后面的兩個(gè)字節(jié)的碼點(diǎn)，應(yīng)該在U+DC00到U+DFFF之間，這四個(gè)字節(jié)必須放在一起解讀。

四、UTF-16的轉(zhuǎn)碼公式

Unicode碼點(diǎn)轉(zhuǎn)成UTF-16的時(shí)候，首先區(qū)分這是基本平面字符，還是輔助平面字符。如果是前者，直接將碼點(diǎn)轉(zhuǎn)為對(duì)應(yīng)的十六進(jìn)制形式，長(zhǎng)度為兩字節(jié)。

復(fù)制代碼代碼如下:

U+597D = 0x597D

如果是輔助平面字符，Unicode 3.0版給出了轉(zhuǎn)碼公式。

復(fù)制代碼代碼如下:

H = Math.floor((c-0x10000) / 0x400)+0xD800L = (c - 0x10000) % 0x400 + 0xDC00

以字符為例，它是一個(gè)輔助平面字符，碼點(diǎn)為U+1D306，將其轉(zhuǎn)為UTF-16的計(jì)算過(guò)程如下。

復(fù)制代碼代碼如下:

H = Math.floor((0x1D306-0x10000)/0x400)+0xD800 = 0xD834L = (0x1D306-0x10000) % 0x400+0xDC00 = 0xDF06

所以，字符的UTF-16編碼就是0xD834 DF06，長(zhǎng)度為四個(gè)字節(jié)。

五、JavaScript使用哪一種編碼？

JavaScript語(yǔ)言采用Unicode字符集，但是只支持一種編碼方法。

這種編碼既不是UTF-16，也不是UTF-8，更不是UTF-32。上面那些編碼方法，JavaScript都不用。

JavaScript用的是UCS-2！

六、UCS-2編碼

怎么突然殺出一個(gè)UCS-2？這就需要講一點(diǎn)歷史。

互聯(lián)網(wǎng)還沒(méi)出現(xiàn)的年代，曾經(jīng)有兩個(gè)團(tuán)隊(duì)，不約而同想搞統(tǒng)一字符集。一個(gè)是1988年成立的Unicode團(tuán)隊(duì)，另一個(gè)是1989年成立的UCS團(tuán)隊(duì)。等到他們發(fā)現(xiàn)了對(duì)方的存在，很快就達(dá)成一致：世界上不需要兩套統(tǒng)一字符集。

1991年10月，兩個(gè)團(tuán)隊(duì)決定合并字符集。也就是說(shuō)，從今以后只發(fā)布一套字符集，就是Unicode，并且修訂此前發(fā)布的字符集，UCS的碼點(diǎn)將與Unicode完全一致。

UCS的開(kāi)發(fā)進(jìn)度快于Unicode，1990年就公布了第一套編碼方法UCS-2，使用2個(gè)字節(jié)表示已經(jīng)有碼點(diǎn)的字符。（那個(gè)時(shí)候只有一個(gè)平面，就是基本平面，所以2個(gè)字節(jié)就夠用了。）UTF-16編碼遲至1996年7月才公布，明確宣布是UCS-2的超集，即基本平面字符沿用UCS-2編碼，輔助平面字符定義了4個(gè)字節(jié)的表示方法。

兩者的關(guān)系簡(jiǎn)單說(shuō)，就是UTF-16取代了UCS-2，或者說(shuō)UCS-2整合進(jìn)了UTF-16。所以，現(xiàn)在只有UTF-16，沒(méi)有UCS-2。

七、JavaScript的誕生背景

那么，為什么JavaScript不選擇更高級(jí)的UTF-16，而用了已經(jīng)被淘汰的UCS-2呢？

答案很簡(jiǎn)單：非不想也，是不能也。因?yàn)樵贘avaScript語(yǔ)言出現(xiàn)的時(shí)候，還沒(méi)有UTF-16編碼。

1995年5月，BrendanEich用了10天設(shè)計(jì)了JavaScript語(yǔ)言；10月，第一個(gè)解釋引擎問(wèn)世；次年11月，Netscape正式向ECMA提交語(yǔ)言標(biāo)準(zhǔn)（整個(gè)過(guò)程詳見(jiàn)《JavaScript誕生記》）。對(duì)比UTF-16的發(fā)布時(shí)間（1996年7月），就會(huì)明白Netscape公司那時(shí)沒(méi)有其他選擇，只有UCS-2一種編碼方法可用！

八、JavaScript字符函數(shù)的局限

由于JavaScript只能處理UCS-2編碼，造成所有字符在這門(mén)語(yǔ)言中都是2個(gè)字節(jié)，如果是4個(gè)字節(jié)的字符，會(huì)當(dāng)作兩個(gè)雙字節(jié)的字符處理。JavaScript的字符函數(shù)都受到這一點(diǎn)的影響，無(wú)法返回正確結(jié)果。

還是以字符為例，它的UTF-16編碼是4個(gè)字節(jié)的0xD834DF06。問(wèn)題就來(lái)了，4個(gè)字節(jié)的編碼不屬于UCS-2，JavaScript不認(rèn)識(shí)，只會(huì)把它看作單獨(dú)的兩個(gè)字符U+D834和U+DF06。前面說(shuō)過(guò)，這兩個(gè)碼點(diǎn)是空的，所以JavaScript會(huì)認(rèn)為是兩個(gè)空字符組成的字符串！

上面代碼表示，JavaScript認(rèn)為字符的長(zhǎng)度是2，取到的第一個(gè)字符是空字符，取到的第一個(gè)字符的碼點(diǎn)是0xDB34。這些結(jié)果都不正確！

解決這個(gè)問(wèn)題，必須對(duì)碼點(diǎn)做一個(gè)判斷，然后手動(dòng)調(diào)整。下面是正確的遍歷字符串的寫(xiě)法。

復(fù)制代碼代碼如下:

while (++index < length) { // ... if (charCode >= 0xD800 && charCode <= 0xDBFF) { output.push(character + string.charAt(++index)); } else { output.push(character); }}

上面代碼表示，遍歷字符串的時(shí)候，必須對(duì)碼點(diǎn)做一個(gè)判斷，只要落在0xD800到0xDBFF的區(qū)間，就要連同后面2個(gè)字節(jié)一起讀取

類(lèi)似的問(wèn)題存在于所有的JavaScript字符操作函數(shù)。

String.prototype.replace()

String.prototype.substring()

String.prototype.slice()

...

上面的函數(shù)都只對(duì)2字節(jié)的碼點(diǎn)有效。要正確處理4字節(jié)的碼點(diǎn)，就必須逐一部署自己的版本，判斷一下當(dāng)前字符的碼點(diǎn)范圍。

九、ECMAScript 6

JavaScript的下一個(gè)版本ECMAScript 6（簡(jiǎn)稱(chēng)ES6），大幅增強(qiáng)了Unicode支持，基本上解決了這個(gè)問(wèn)題。

（1）正確識(shí)別字符

ES6可以自動(dòng)識(shí)別4字節(jié)的碼點(diǎn)。因此，遍歷字符串就簡(jiǎn)單多了。

復(fù)制代碼代碼如下:

for (let s of string ) { // ...}

但是，為了保持兼容，length屬性還是原來(lái)的行為方式。為了得到字符串的正確長(zhǎng)度，可以用下面的方式。

復(fù)制代碼代碼如下:

Array.from(string).length

（2）碼點(diǎn)表示法

JavaScript允許直接用碼點(diǎn)表示Unicode字符，寫(xiě)法是"反斜杠+u+碼點(diǎn)"。

復(fù)制代碼代碼如下:

'好' === '\u597D' // true

但是，這種表示法對(duì)4字節(jié)的碼點(diǎn)無(wú)效。ES6修正了這個(gè)問(wèn)題，只要將碼點(diǎn)放在大括號(hào)內(nèi)，就能正確識(shí)別。

（3）字符串處理函數(shù)

ES6新增了幾個(gè)專(zhuān)門(mén)處理4字節(jié)碼點(diǎn)的函數(shù)。

String.fromCodePoint()：從Unicode碼點(diǎn)返回對(duì)應(yīng)字符

String.prototype.codePointAt()：從字符返回對(duì)應(yīng)的碼點(diǎn)

String.prototype.at()：返回字符串給定位置的字符

（4）正則表達(dá)式

ES6提供了u修飾符，對(duì)正則表達(dá)式添加4字節(jié)碼點(diǎn)的支持。

（5）Unicode正規(guī)化

有些字符除了字母以外，還有附加符號(hào)。比如，漢語(yǔ)拼音的Ǒ，字母上面的聲調(diào)就是附加符號(hào)。對(duì)于許多歐洲語(yǔ)言來(lái)說(shuō)，聲調(diào)符號(hào)是非常重要的。

Unicode提供了兩種表示方法。一種是帶附加符號(hào)的單個(gè)字符，即一個(gè)碼點(diǎn)表示一個(gè)字符，比如Ǒ的碼點(diǎn)是U+01D1；另一種是將附加符號(hào)單獨(dú)作為一個(gè)碼點(diǎn)，與主體字符復(fù)合顯示，即兩個(gè)碼點(diǎn)表示一個(gè)字符，比如Ǒ可以寫(xiě)成O（U+004F）+ ˇ（U+030C）。

復(fù)制代碼代碼如下:

// 方法一'\u01D1'// 'Ǒ'// 方法二'\u004F\u030C'// 'Ǒ'

這兩種表示方法，視覺(jué)和語(yǔ)義都完全一樣，理應(yīng)作為等同情況處理。但是，JavaScript無(wú)法辨別。

復(fù)制代碼代碼如下:

'\u01D1'==='\u004F\u030C' //false

ES6提供了normalize方法，允許"Unicode正規(guī)化"，即將兩種方法轉(zhuǎn)為同樣的序列。

復(fù)制代碼代碼如下:

'\u01D1'.normalize() === '\u004F\u030C'.normalize() // true

關(guān)于ES6的更多介紹，請(qǐng)看《ECMAScript 6入門(mén)》。

您可能感興趣的文章: