javascript 判斷中文字符長(zhǎng)度的函數(shù)代碼
更新時(shí)間:2012年08月27日 14:35:46 作者:
在很多時(shí)候,我們?cè)谶M(jìn)行數(shù)據(jù)提交數(shù)據(jù)庫(kù)時(shí).先會(huì)用javascript對(duì)其進(jìn)行有效性驗(yàn)證.如一個(gè)中文javascript為的length是1.但是數(shù)據(jù)庫(kù)中會(huì)占二個(gè)字節(jié).容易出錯(cuò)
JS的字符串都是string對(duì)象,可以用string對(duì)象的length屬性可以獲取其長(zhǎng)度,但是無(wú)論是中文、全角符號(hào)以及英文最小長(zhǎng)度單位都是1,這與php的strlen()并不相同。
function strlen(str) {
var s = 0;
for(var i = 0; i < str.length; i++) {
if(str.charAt(i).match(/[u0391-uFFE5]/)) {
s += 2;
} else {
s++;
}
}
return s;
}
抓取出每個(gè)字符,匹配全角字符和漢字的,則計(jì)2個(gè)字符,其他的則計(jì)1個(gè)字符。
<script>
alert (fucCheckLength("中國(guó)a"));
function fucCheckLength(strTemp)
{
var i,sum;
sum=0;
for(i=0;i<strTemp.length;i++)
{
if ((strTemp.charCodeAt(i)>=0) && (strTemp.charCodeAt(i)<=255))
sum=sum+1;
else
sum=sum+2;
}
return sum;
}
</script>
會(huì)得到結(jié)果是:5 要得到的字節(jié)長(zhǎng)度吧?請(qǐng)注意字節(jié)和字符的差異。而字節(jié)長(zhǎng)度是和編碼有關(guān)系的,比如"中國(guó)a",gbk/gb2312編碼是5個(gè)字節(jié),可是如果是utf-8,則是7個(gè)字節(jié)(utf-8下通常一個(gè)漢字3個(gè)字節(jié))。
我們可以把所有字符轉(zhuǎn)換在gbk再操作,實(shí)例
function Utf8ToUnicode(strUtf8)
{
var bstr = "";
var nTotalChars = strUtf8.length; // total chars to be processed.
var nOffset = 0; // processing point on strUtf8
var nRemainingBytes = nTotalChars; // how many bytes left to be converted
var nOutputPosition = 0;
var iCode, iCode1, iCode2; // the value of the unicode.
while (nOffset < nTotalChars)
{
iCode = strUtf8.charCodeAt(nOffset);
if ((iCode & 0x80) == 0) // 1 byte.
{
if ( nRemainingBytes < 1 ) // not enough data
break;
bstr += String.fromCharCode(iCode & 0x7F);
nOffset ++;
nRemainingBytes -= 1;
}
else if ((iCode & 0xE0) == 0xC0) // 2 bytes
{
iCode1 = strUtf8.charCodeAt(nOffset + 1);
if ( nRemainingBytes < 2 || // not enough data
(iCode1 & 0xC0) != 0x80 ) // invalid pattern
{
break;
}
bstr += String.fromCharCode(((iCode & 0x3F) << 6) | ( iCode1 & 0x3F));
nOffset += 2;
nRemainingBytes -= 2;
}
else if ((iCode & 0xF0) == 0xE0) // 3 bytes
{
iCode1 = strUtf8.charCodeAt(nOffset + 1);
iCode2 = strUtf8.charCodeAt(nOffset + 2);
if ( nRemainingBytes < 3 || // not enough data
(iCode1 & 0xC0) != 0x80 || // invalid pattern
(iCode2 & 0xC0) != 0x80 )
{
break;
}
bstr += String.fromCharCode(((iCode & 0x0F) << 12) |
((iCode1 & 0x3F) << 6) |
(iCode2 & 0x3F));
nOffset += 3;
nRemainingBytes -= 3;
}
else // 4 or more bytes -- unsupported
break;
}
if (nRemainingBytes != 0)
{
// bad UTF8 string.
return "";
}
return bstr;
}
如何解決這個(gè)問(wèn)題.本文介紹使用js來(lái)獲取中文字長(zhǎng)度方法
首先,我們定義一個(gè)新的函數(shù)getBytes()取得字符串的字節(jié)數(shù),在javascript里,這個(gè)函數(shù)是標(biāo)準(zhǔn)函數(shù)。
String.prototype.getBytes = function() {
var cArr = this.match(/[^x00-xff]/ig);
return this.length + (cArr == null ? 0 : cArr.length);
}
function paramCheck(cur){
if(cur.value.getBytes() > 64){
alert("字符超過(guò)64個(gè)字符");
return false;
}
return true;
}
getBytes用正則表達(dá)式來(lái)判斷字符串中包含漢字的個(gè)數(shù),包含的漢字都放到數(shù)組cArr中,這樣cArr的長(zhǎng)度就是漢字的總數(shù)。getBytes方法返回length加上漢字?jǐn)?shù),就是總的字節(jié)數(shù)。
只是使用了[^x00-xff],這個(gè)有點(diǎn)惡心,有些特殊字符也是能匹配到的,比如}等。
但是如果使用[^u4E00-u9FA5]的話,卻不能匹配到中文……
以下是另外幾種方法,大家可以測(cè)試下:
一種:
function _length(str){
var len=0;
for(var i=0;i<str.length;i++){
if(str.charAt(i)>'~'){len+=2;}else{len++;}
}
return len;
}
二種:
String.prototype.gblen = function() {
var len = 0;
for (var i=0; i<this.length; i++) {
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) {
len += 2;
} else {
len ++;
}
}
return len;
}
String.prototype.gbtrim = function(len, s) {
var str = '';
var sp = s || '';
var len2 = 0;
for (var i=0; i<this.length; i++) {
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) {
len2 += 2;
} else {
len2 ++;
}
}
if (len2 <= len) {
return this;
}
len2 = 0;
len = (len > sp.length) ? len-sp.length: len;
for (var i=0; i<this.length; i++) {
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) {
len2 += 2;
} else {
len2 ++;
}
if (len2 > len) {
str += sp;
break;
}
str += this.charAt(i);
}
return str;
}
var str1 = '世上最牛的@#%&們 世上最牛的@#%&們';
document.write('str1 = '+ str1 +'
');
document.write('length = '+ str1.gblen() +'
');
document.write('gbtrim(10) = '+ str1.gbtrim(10) +'
');
document.write('gbtrim(10, \'…\') = '+ str1.gbtrim(10, '…') +'
');
document.write('gbtrim(12, \'-\' ) = '+ str1.gbtrim(12, '-') +'
');
// gbtrim(len 截取長(zhǎng)度,按英文字節(jié)長(zhǎng)度計(jì)算, s截取后的省略字符,如"…" )
// 備注: 這里中文字符都是當(dāng)作兩個(gè)長(zhǎng)度來(lái)計(jì)算的,所以gbtrim中的len為10時(shí),是顯示最多5個(gè)漢字的。
// 當(dāng)漢字?jǐn)?shù)大于5時(shí),由于截取后加上“…”,所以只顯示4個(gè)漢字。
復(fù)制代碼 代碼如下:
function strlen(str) {
var s = 0;
for(var i = 0; i < str.length; i++) {
if(str.charAt(i).match(/[u0391-uFFE5]/)) {
s += 2;
} else {
s++;
}
}
return s;
}
抓取出每個(gè)字符,匹配全角字符和漢字的,則計(jì)2個(gè)字符,其他的則計(jì)1個(gè)字符。
復(fù)制代碼 代碼如下:
<script>
alert (fucCheckLength("中國(guó)a"));
function fucCheckLength(strTemp)
{
var i,sum;
sum=0;
for(i=0;i<strTemp.length;i++)
{
if ((strTemp.charCodeAt(i)>=0) && (strTemp.charCodeAt(i)<=255))
sum=sum+1;
else
sum=sum+2;
}
return sum;
}
</script>
會(huì)得到結(jié)果是:5 要得到的字節(jié)長(zhǎng)度吧?請(qǐng)注意字節(jié)和字符的差異。而字節(jié)長(zhǎng)度是和編碼有關(guān)系的,比如"中國(guó)a",gbk/gb2312編碼是5個(gè)字節(jié),可是如果是utf-8,則是7個(gè)字節(jié)(utf-8下通常一個(gè)漢字3個(gè)字節(jié))。
我們可以把所有字符轉(zhuǎn)換在gbk再操作,實(shí)例
復(fù)制代碼 代碼如下:
function Utf8ToUnicode(strUtf8)
{
var bstr = "";
var nTotalChars = strUtf8.length; // total chars to be processed.
var nOffset = 0; // processing point on strUtf8
var nRemainingBytes = nTotalChars; // how many bytes left to be converted
var nOutputPosition = 0;
var iCode, iCode1, iCode2; // the value of the unicode.
while (nOffset < nTotalChars)
{
iCode = strUtf8.charCodeAt(nOffset);
if ((iCode & 0x80) == 0) // 1 byte.
{
if ( nRemainingBytes < 1 ) // not enough data
break;
bstr += String.fromCharCode(iCode & 0x7F);
nOffset ++;
nRemainingBytes -= 1;
}
else if ((iCode & 0xE0) == 0xC0) // 2 bytes
{
iCode1 = strUtf8.charCodeAt(nOffset + 1);
if ( nRemainingBytes < 2 || // not enough data
(iCode1 & 0xC0) != 0x80 ) // invalid pattern
{
break;
}
bstr += String.fromCharCode(((iCode & 0x3F) << 6) | ( iCode1 & 0x3F));
nOffset += 2;
nRemainingBytes -= 2;
}
else if ((iCode & 0xF0) == 0xE0) // 3 bytes
{
iCode1 = strUtf8.charCodeAt(nOffset + 1);
iCode2 = strUtf8.charCodeAt(nOffset + 2);
if ( nRemainingBytes < 3 || // not enough data
(iCode1 & 0xC0) != 0x80 || // invalid pattern
(iCode2 & 0xC0) != 0x80 )
{
break;
}
bstr += String.fromCharCode(((iCode & 0x0F) << 12) |
((iCode1 & 0x3F) << 6) |
(iCode2 & 0x3F));
nOffset += 3;
nRemainingBytes -= 3;
}
else // 4 or more bytes -- unsupported
break;
}
if (nRemainingBytes != 0)
{
// bad UTF8 string.
return "";
}
return bstr;
}
如何解決這個(gè)問(wèn)題.本文介紹使用js來(lái)獲取中文字長(zhǎng)度方法
首先,我們定義一個(gè)新的函數(shù)getBytes()取得字符串的字節(jié)數(shù),在javascript里,這個(gè)函數(shù)是標(biāo)準(zhǔn)函數(shù)。
復(fù)制代碼 代碼如下:
String.prototype.getBytes = function() {
var cArr = this.match(/[^x00-xff]/ig);
return this.length + (cArr == null ? 0 : cArr.length);
}
function paramCheck(cur){
if(cur.value.getBytes() > 64){
alert("字符超過(guò)64個(gè)字符");
return false;
}
return true;
}
getBytes用正則表達(dá)式來(lái)判斷字符串中包含漢字的個(gè)數(shù),包含的漢字都放到數(shù)組cArr中,這樣cArr的長(zhǎng)度就是漢字的總數(shù)。getBytes方法返回length加上漢字?jǐn)?shù),就是總的字節(jié)數(shù)。
只是使用了[^x00-xff],這個(gè)有點(diǎn)惡心,有些特殊字符也是能匹配到的,比如}等。
但是如果使用[^u4E00-u9FA5]的話,卻不能匹配到中文……
以下是另外幾種方法,大家可以測(cè)試下:
一種:
復(fù)制代碼 代碼如下:
function _length(str){
var len=0;
for(var i=0;i<str.length;i++){
if(str.charAt(i)>'~'){len+=2;}else{len++;}
}
return len;
}
二種:
復(fù)制代碼 代碼如下:
String.prototype.gblen = function() {
var len = 0;
for (var i=0; i<this.length; i++) {
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) {
len += 2;
} else {
len ++;
}
}
return len;
}
String.prototype.gbtrim = function(len, s) {
var str = '';
var sp = s || '';
var len2 = 0;
for (var i=0; i<this.length; i++) {
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) {
len2 += 2;
} else {
len2 ++;
}
}
if (len2 <= len) {
return this;
}
len2 = 0;
len = (len > sp.length) ? len-sp.length: len;
for (var i=0; i<this.length; i++) {
if (this.charCodeAt(i)>127 || this.charCodeAt(i)==94) {
len2 += 2;
} else {
len2 ++;
}
if (len2 > len) {
str += sp;
break;
}
str += this.charAt(i);
}
return str;
}
var str1 = '世上最牛的@#%&們 世上最牛的@#%&們';
document.write('str1 = '+ str1 +'
');
document.write('length = '+ str1.gblen() +'
');
document.write('gbtrim(10) = '+ str1.gbtrim(10) +'
');
document.write('gbtrim(10, \'…\') = '+ str1.gbtrim(10, '…') +'
');
document.write('gbtrim(12, \'-\' ) = '+ str1.gbtrim(12, '-') +'
');
// gbtrim(len 截取長(zhǎng)度,按英文字節(jié)長(zhǎng)度計(jì)算, s截取后的省略字符,如"…" )
// 備注: 這里中文字符都是當(dāng)作兩個(gè)長(zhǎng)度來(lái)計(jì)算的,所以gbtrim中的len為10時(shí),是顯示最多5個(gè)漢字的。
// 當(dāng)漢字?jǐn)?shù)大于5時(shí),由于截取后加上“…”,所以只顯示4個(gè)漢字。
您可能感興趣的文章:
- js判斷字符長(zhǎng)度及中英文數(shù)字等
- js判斷字符長(zhǎng)度以及中英文數(shù)字等
- JavaScript判斷字符長(zhǎng)度、數(shù)字、Email、電話等常用判斷函數(shù)分享
- js關(guān)于字符長(zhǎng)度限制的問(wèn)題示例探討
- JS按字節(jié)截取字符長(zhǎng)度實(shí)例
- 限制textbox或textarea輸入字符長(zhǎng)度的JS代碼
- CSS(js)限制頁(yè)面顯示的文本字符長(zhǎng)度
- js實(shí)現(xiàn)正則匹配中文標(biāo)點(diǎn)符號(hào)的方法
- js中判斷數(shù)字\字母\中文的正則表達(dá)式 (實(shí)例)
- 中文用戶名的js檢驗(yàn)正則
- javascript判斷中文的正則
- JavaScript中英文字符長(zhǎng)度統(tǒng)計(jì)方法示例【按照中文占2個(gè)字符】
相關(guān)文章
原生Javascript實(shí)現(xiàn)五角星評(píng)分
這篇文章主要為大家詳細(xì)介紹了原生Javascript實(shí)現(xiàn)五角星評(píng)分,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-09-09javascript之學(xué)會(huì)吝嗇 精簡(jiǎn)代碼
前端開(kāi)發(fā),要學(xué)會(huì)吝嗇:2010-04-04利用JavaScript實(shí)現(xiàn)防抖節(jié)流函數(shù)的示例代碼
在開(kāi)發(fā)中我們經(jīng)常會(huì)遇到一些高頻操作,比如:鼠標(biāo)移動(dòng),滑動(dòng)窗口,鍵盤(pán)輸入等等,節(jié)流和防抖就是對(duì)此類(lèi)事件進(jìn)行優(yōu)化,降低觸發(fā)的頻率,以達(dá)到提高性能的目的。本文就教大家如何實(shí)現(xiàn)一個(gè)讓面試官拍大腿的防抖節(jié)流函數(shù),需要的可以參考一下2022-08-08用javascript實(shí)現(xiàn)讀取txt文檔的腳本
用javascript實(shí)現(xiàn)讀取txt文檔的腳本...2007-07-07JavaScript獲得頁(yè)面base標(biāo)簽中url的方法
這篇文章主要介紹了JavaScript獲得頁(yè)面base標(biāo)簽中url的方法,涉及javascript中元素的獲取及href屬性的使用技巧,需要的朋友可以參考下2015-04-04javascript 解析后的xml對(duì)象的讀取方法細(xì)解
2009-07-07