腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

JavaScript語言對Unicode字符集的支持詳解

更新時間：2014年12月30日 09:27:41 投稿：hebedich

這篇文章主要介紹了JavaScript語言對Unicode字符集的支持詳解,需要的朋友可以參考下

上個月，我做了一次分享，詳細介紹了Unicode字符集，以及JavaScript語言對它的支持。下面就是這次分享的講稿。

　一、Unicode是什么？

　　Unicode源于一個很簡單的想法：將全世界所有的字符包含在一個集合里，計算機只要支持這一個字符集，就能顯示所有的字符，再也不會有亂碼了。

　　它從0開始，為每個符號指定一個編號，這叫做"碼點"（code point）。比如，碼點0的符號就是null（表示所有二進制位都是0）。

復(fù)制代碼代碼如下:

U+0000 = null

　　上式中，U+表示緊跟在后面的十六進制數(shù)是Unicode的碼點。

　　目前，Unicode的最新版本是7.0版，一共收入了109449個符號，其中的中日韓文字為74500個?？梢越普J為，全世界現(xiàn)有的符號當中，三分之二以上來自東亞文字。比如，中文"好"的碼點是十六進制的597D。

復(fù)制代碼代碼如下:

U+597D = 好

　　這么多符號，Unicode不是一次性定義的，而是分區(qū)定義。每個區(qū)可以存放65536個（216）字符，稱為一個平面（plane）。目前，一共有17個（25）平面，也就是說，整個Unicode字符集的大小現(xiàn)在是221。

　　最前面的65536個字符位，稱為基本平面（縮寫B(tài)MP），它的碼點范圍是從0一直到216-1，寫成16進制就是從U+0000到U+FFFF。所有最常見的字符都放在這個平面，這是Unicode最先定義和公布的一個平面。

　　剩下的字符都放在輔助平面（縮寫SMP），碼點范圍從U+010000一直到U+10FFFF。

　二、UTF-32與UTF-8

　　Unicode只規(guī)定了每個字符的碼點，到底用什么樣的字節(jié)序表示這個碼點，就涉及到編碼方法。

　　最直觀的編碼方法是，每個碼點使用四個字節(jié)表示，字節(jié)內(nèi)容一一對應(yīng)碼點。這種編碼方法就叫做UTF-32。比如，碼點0就用四個字節(jié)的0表示，碼點597D就在前面加兩個字節(jié)的0。

復(fù)制代碼代碼如下:

U+0000 = 0x0000 0000U+597D = 0x0000 597D

　　UTF-32的優(yōu)點在于，轉(zhuǎn)換規(guī)則簡單直觀，查找效率高。缺點在于浪費空間，同樣內(nèi)容的英語文本，它會比ASCII編碼大四倍。這個缺點很致命，導(dǎo)致實際上沒有人使用這種編碼方法，HTML 5標準就明文規(guī)定，網(wǎng)頁不得編碼成UTF-32。

　　人們真正需要的是一種節(jié)省空間的編碼方法，這導(dǎo)致了UTF-8的誕生。UTF-8是一種變長的編碼方法，字符長度從1個字節(jié)到4個字節(jié)不等。越是常用的字符，字節(jié)越短，最前面的128個字符，只使用1個字節(jié)表示，與ASCII碼完全相同。

編號范圍字節(jié)0x0000 - 0x007F10x0080 - 0x07FF20x0800 - 0xFFFF30x010000 - 0x10FFFF4

　　由于UTF-8這種節(jié)省空間的特性，導(dǎo)致它成為互聯(lián)網(wǎng)上最常見的網(wǎng)頁編碼。不過，它跟今天的主題關(guān)系不大，我就不深入了，具體的轉(zhuǎn)碼方法，可以參考《字符編碼筆記》。

　三、UTF-16簡介

　　UTF-16編碼介于UTF-32與UTF-8之間，同時結(jié)合了定長和變長兩種編碼方法的特點。

　　它的編碼規(guī)則很簡單：基本平面的字符占用2個字節(jié)，輔助平面的字符占用4個字節(jié)。也就是說，UTF-16的編碼長度要么是2個字節(jié)（U+0000到U+FFFF），要么是4個字節(jié)（U+010000到U+10FFFF）。

　　于是就有一個問題，當我們遇到兩個字節(jié)，怎么看出它本身是一個字符，還是需要跟其他兩個字節(jié)放在一起解讀？

　　說來很巧妙，我也不知道是不是故意的設(shè)計，在基本平面內(nèi)，從U+D800到U+DFFF是一個空段，即這些碼點不對應(yīng)任何字符。因此，這個空段可以用來映射輔助平面的字符。

　　具體來說，輔助平面的字符位共有220個，也就是說，對應(yīng)這些字符至少需要20個二進制位。UTF-16將這20位拆成兩半，前10位映射在U+D800到U+DBFF（空間大小210），稱為高位（H），后10位映射在U+DC00到U+DFFF（空間大小210），稱為低位（L）。這意味著，一個輔助平面的字符，被拆成兩個基本平面的字符表示。

　　所以，當我們遇到兩個字節(jié)，發(fā)現(xiàn)它的碼點在U+D800到U+DBFF之間，就可以斷定，緊跟在后面的兩個字節(jié)的碼點，應(yīng)該在U+DC00到U+DFFF之間，這四個字節(jié)必須放在一起解讀。

　四、UTF-16的轉(zhuǎn)碼公式

　　Unicode碼點轉(zhuǎn)成UTF-16的時候，首先區(qū)分這是基本平面字符，還是輔助平面字符。如果是前者，直接將碼點轉(zhuǎn)為對應(yīng)的十六進制形式，長度為兩字節(jié)。

復(fù)制代碼代碼如下:

U+597D = 0x597D

　　如果是輔助平面字符，Unicode 3.0版給出了轉(zhuǎn)碼公式。

復(fù)制代碼代碼如下:

H = Math.floor((c-0x10000) / 0x400)+0xD800L = (c - 0x10000) % 0x400 + 0xDC00

　　以字符為例，它是一個輔助平面字符，碼點為U+1D306，將其轉(zhuǎn)為UTF-16的計算過程如下。

復(fù)制代碼代碼如下:

H = Math.floor((0x1D306-0x10000)/0x400)+0xD800 = 0xD834L = (0x1D306-0x10000) % 0x400+0xDC00 = 0xDF06

　　所以，字符的UTF-16編碼就是0xD834 DF06，長度為四個字節(jié)。

　五、JavaScript使用哪一種編碼？

　　JavaScript語言采用Unicode字符集，但是只支持一種編碼方法。

　　這種編碼既不是UTF-16，也不是UTF-8，更不是UTF-32。上面那些編碼方法，JavaScript都不用。

　　JavaScript用的是UCS-2！

　六、UCS-2編碼

　　怎么突然殺出一個UCS-2？這就需要講一點歷史。

　　互聯(lián)網(wǎng)還沒出現(xiàn)的年代，曾經(jīng)有兩個團隊，不約而同想搞統(tǒng)一字符集。一個是1989年成立的Unicode團隊，另一個是更早的、1988年成立的UCS團隊。等到他們發(fā)現(xiàn)了對方的存在，很快就達成一致：世界上不需要兩套統(tǒng)一字符集。

　　1991年10月，兩個團隊決定合并字符集。也就是說，從今以后只發(fā)布一套字符集，就是Unicode，并且修訂此前發(fā)布的字符集，UCS的碼點將與Unicode完全一致。

　　當時的實際情況是，UCS的開發(fā)進度快于Unicode，早在1990年，就公布了第一套編碼方法UCS-2，使用2個字節(jié)表示已經(jīng)有碼點的字符。（那個時候只有一個平面，就是基本平面，所以2個字節(jié)就夠用了。）UTF-16編碼遲至1996年7月才公布，明確宣布是UCS-2的超集，即基本平面字符沿用UCS-2編碼，輔助平面字符定義了4個字節(jié)的表示方法。

　　兩者的關(guān)系簡單說，就是UTF-16取代了UCS-2，或者說UCS-2整合進了UTF-16。所以，現(xiàn)在只有UTF-16，沒有UCS-2。

　七、JavaScript的誕生背景

　　那么，為什么JavaScript不選擇更高級的UTF-16，而用了已經(jīng)被淘汰的UCS-2呢？

　　答案很簡單：非不想也，是不能也。因為在JavaScript語言出現(xiàn)的時候，還沒有UTF-16編碼。

　　1995年5月，Brendan Eich用了10天設(shè)計了JavaScript語言；10月，第一個解釋引擎問世；次年11月，Netscape正式向ECMA提交語言標準（整個過程詳見《JavaScript誕生記》）。對比UTF-16的發(fā)布時間（1996年7月），就會明白Netscape公司那時沒有其他選擇，只有UCS-2一種編碼方法可用！

　八、JavaScript字符函數(shù)的局限

　　由于JavaScript只能處理UCS-2編碼，造成所有字符在這門語言中都是2個字節(jié)，如果是4個字節(jié)的字符，會當作兩個雙字節(jié)的字符處理。JavaScript的字符函數(shù)都受到這一點的影響，無法返回正確結(jié)果。

　　還是以字符為例，它的UTF-16編碼是4個字節(jié)的0xD834 DF06。問題就來了，4個字節(jié)的編碼不屬于UCS-2，JavaScript不認識，只會把它看作單獨的兩個字符U+D834和U+DF06。前面說過，這兩個碼點是空的，所以JavaScript會認為是兩個空字符組成的字符串！

　　上面代碼表示，JavaScript認為字符的長度是2，取到的第一個字符是空字符，取到的第一個字符的碼點是0xDB34。這些結(jié)果都不正確！

　　解決這個問題，必須對碼點做一個判斷，然后手動調(diào)整。下面是正確的遍歷字符串的寫法。

復(fù)制代碼代碼如下:

while (++index < length) { // ... if (charCode >= 0xD800 && charCode <= 0xDBFF) { output.push(character + string.charAt(++index)); } else { output.push(character); }}

　　上面代碼表示，遍歷字符串的時候，必須對碼點做一個判斷，只要落在0xD800到0xDBFF的區(qū)間，就要連同后面2個字節(jié)一起讀取。

　　類似的問題存在于所有的JavaScript字符操作函數(shù)。

String.prototype.replace()String.prototype.substring()String.prototype.slice()...

　　上面的函數(shù)都只對2字節(jié)的碼點有效。要正確處理4字節(jié)的碼點，就必須逐一部署自己的版本，判斷一下當前字符的碼點范圍。

　九、ECMAScript 6