快捷導(dǎo)航

javascript 判斷中文字符長度的函數(shù)代碼

更新時(shí)間：2012年08月27日 14:35:46 作者：

在很多時(shí)候,我們在進(jìn)行數(shù)據(jù)提交數(shù)據(jù)庫時(shí).先會用javascript對其進(jìn)行有效性驗(yàn)證.如一個(gè)中文javascript為的length是1.但是數(shù)據(jù)庫中會占二個(gè)字節(jié).容易出錯(cuò)

JS的字符串都是string對象，可以用string對象的length屬性可以獲取其長度，但是無論是中文、全角符號以及英文最小長度單位都是1，這與php的strlen()并不相同。

復(fù)制代碼代碼如下:

 
function strlen(str) { 
var s = 0; 
for(var i = 0; i < str.length; i++) { 
if(str.charAt(i).match(/[u0391-uFFE5]/)) { 
s += 2; 
} else { 
s++; 
} 
} 
return s; 
} 

抓取出每個(gè)字符，匹配全角字符和漢字的，則計(jì)2個(gè)字符，其他的則計(jì)1個(gè)字符。

復(fù)制代碼代碼如下:

 
<script> 
alert (fucCheckLength("中國a")); 
function fucCheckLength(strTemp) 
{ 
var i,sum; 
sum=0; 
for(i=0;i<strTemp.length;i++) 
{ 
if ((strTemp.charCodeAt(i)>=0) && (strTemp.charCodeAt(i)<=255)) 
sum=sum+1; 
else 
sum=sum+2; 
} 
return sum; 
} 
</script> 

會得到結(jié)果是：5 要得到的字節(jié)長度吧？請注意字節(jié)和字符的差異。而字節(jié)長度是和編碼有關(guān)系的，比如"中國a"，gbk/gb2312編碼是5個(gè)字節(jié)，可是如果是utf-8，則是7個(gè)字節(jié)（utf-8下通常一個(gè)漢字3個(gè)字節(jié)）。
我們可以把所有字符轉(zhuǎn)換在gbk再操作，實(shí)例

復(fù)制代碼代碼如下:

 
function Utf8ToUnicode(strUtf8) 
{ 
var bstr = ""; 
var nTotalChars = strUtf8.length; // total chars to be processed. 
var nOffset = 0; // processing point on strUtf8 
var nRemainingBytes = nTotalChars; // how many bytes left to be converted 
var nOutputPosition = 0; 
var iCode, iCode1, iCode2; // the value of the unicode. 
while (nOffset < nTotalChars) 
{ 
iCode = strUtf8.charCodeAt(nOffset); 
if ((iCode & 0x80) == 0) // 1 byte. 
{ 
if ( nRemainingBytes < 1 ) // not enough data 
break; 
bstr += String.fromCharCode(iCode & 0x7F); 
nOffset ++; 
nRemainingBytes -= 1; 
} 
else if ((iCode & 0xE0) == 0xC0) // 2 bytes 
{ 
iCode1 = strUtf8.charCodeAt(nOffset + 1); 
if ( nRemainingBytes < 2 || // not enough data 
(iCode1 & 0xC0) != 0x80 ) // invalid pattern 
{ 
break; 
} 
bstr += String.fromCharCode(((iCode & 0x3F) << 6) | ( iCode1 & 0x3F)); 
nOffset += 2; 
nRemainingBytes -= 2; 
} 
else if ((iCode & 0xF0) == 0xE0) // 3 bytes 
{ 
iCode1 = strUtf8.charCodeAt(nOffset + 1); 
iCode2 = strUtf8.charCodeAt(nOffset + 2); 
if ( nRemainingBytes < 3 || // not enough data 
(iCode1 & 0xC0) != 0x80 || // invalid pattern 
(iCode2 & 0xC0) != 0x80 ) 
{ 
break; 
} 
bstr += String.fromCharCode(((iCode & 0x0F) << 12) | 
((iCode1 & 0x3F) << 6) | 
(iCode2 & 0x3F)); 
nOffset += 3; 
nRemainingBytes -= 3; 
} 
else // 4 or more bytes -- unsupported 
break; 
} 
if (nRemainingBytes != 0) 
{ 
// bad UTF8 string. 
return ""; 
} 
return bstr; 
} 

如何解決這個(gè)問題.本文介紹使用js來獲取中文字長度方法

首先,我們定義一個(gè)新的函數(shù)getBytes()取得字符串的字節(jié)數(shù)，在javascript里，這個(gè)函數(shù)是標(biāo)準(zhǔn)函數(shù)。

復(fù)制代碼代碼如下:

 
　　String.prototype.getBytes = function() { 
　　var cArr = this.match(/[^x00-xff]/ig); 
　　return this.length + (cArr == null ? 0 : cArr.length); 
　　} 
　　function paramCheck(cur){ 
　　if(cur.value.getBytes() > 64){ 
　　alert("字符超過64個(gè)字符"); 
　　return false; 
　　} 
　　return true; 
　　} 

　　getBytes用正則表達(dá)式來判斷字符串中包含漢字的個(gè)數(shù)，包含的漢字都放到數(shù)組cArr中，這樣cArr的長度就是漢字的總數(shù)。getBytes方法返回length加上漢字?jǐn)?shù)，就是總的字節(jié)數(shù)。
　　只是使用了[^x00-xff]，這個(gè)有點(diǎn)惡心，有些特殊字符也是能匹配到的，比如}等。
　　但是如果使用[^u4E00-u9FA5]的話，卻不能匹配到中文……

以下是另外幾種方法，大家可以測試下：
一種：

復(fù)制代碼代碼如下:

 
function _length(str){ 
var len=0; 
for(var i=0;i<str.length;i++){ 
if(str.charAt(i)>'~'){len+=2;}else{len++;} 
} 
return len; 
} 

二種：

復(fù)制代碼代碼如下:

 
String.prototype.gblen = function() { 
var len = 0; 
for (var i=0; i<this.length; i++) { 
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) { 
len += 2; 
} else { 
len ++; 
} 
} 
return len; 
} 
String.prototype.gbtrim = function(len, s) { 
var str = ''; 
var sp = s || ''; 
var len2 = 0; 
for (var i=0; i<this.length; i++) { 
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) { 
len2 += 2; 
} else { 
len2 ++; 
} 
} 
if (len2 <= len) { 
return this; 
} 
len2 = 0; 
len = (len > sp.length) ? len-sp.length: len; 
for (var i=0; i<this.length; i++) { 
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) { 
len2 += 2; 
} else { 
len2 ++; 
} 
if (len2 > len) { 
str += sp; 
break; 
} 
str += this.charAt(i); 
} 
return str; 
} 
var str1 = '世上最牛的@#%&們 世上最牛的@#%&們'; 
document.write('str1 = '+ str1 +' 
'); 
document.write('length = '+ str1.gblen() +' 
'); 
document.write('gbtrim(10) = '+ str1.gbtrim(10) +' 
'); 
document.write('gbtrim(10, \'…\') = '+ str1.gbtrim(10, '…') +' 
'); 
document.write('gbtrim(12, \'-\' ) = '+ str1.gbtrim(12, '-') +' 
'); 

// gbtrim(len 截取長度，按英文字節(jié)長度計(jì)算， s截取后的省略字符，如"…" ) 
// 備注： 這里中文字符都是當(dāng)作兩個(gè)長度來計(jì)算的，所以gbtrim中的len為10時(shí)，是顯示最多5個(gè)漢字的。 
// 當(dāng)漢字?jǐn)?shù)大于5時(shí)，由于截取后加上“…”，所以只顯示4個(gè)漢字。