快捷導航

C++中漢字字符串的截取

更新時間：2013年05月03日 11:59:21 作者：

C++中漢字字符串的截取，需要的朋友可以參考一下

1、

const char *str = "test測試test";
while(*str)
{
//這里只需要判斷第一個字節(jié)大于0x80就行了，前提是輸入的是合法的GBK字符串
//原因在于，如果第一個字節(jié)大于0x80，那么它必然和后面一個字節(jié)一起組成一個漢字
//所以就沒有必要再去判斷后面一個字節(jié)了
//再強調(diào)一下，前提條件是輸入合法的GBK字符串
if(*str > 0x80)
{
// 漢字，計數(shù)器++
str += 2;//是漢字自然就該直接+2了
}
else
{
str++；
}
}

2、

參看下面的字符串轉(zhuǎn)換函數(shù)。

復(fù)制代碼代碼如下:

/**
* 用getBytes(encoding)：返回字符串的一個byte數(shù)組
* 當b[0]為 63時，應(yīng)該是轉(zhuǎn)碼錯誤
* A、不亂碼的漢字字符串：
* 1、encoding用GB2312時，每byte是負數(shù)；
* 2、encoding用ISO8859_1時，b[i]全是63。

* B、亂碼的漢字字符串：
* 1、encoding用ISO8859_1時，每byte也是負數(shù)；
* 2、encoding用GB2312時，b[i]大部分是63。
* C、英文字符串
* 1、encoding用ISO8859_1和GB2312時，每byte都大于0；
* 總結(jié)：給定一個字符串，用getBytes("iso8859_1")
* 1、如果b[i]有63，不用轉(zhuǎn)碼； A-2
* 2、如果b[i]全大于0，那么為英文字符串，不用轉(zhuǎn)碼； B-1
* 3、如果b[i]有小于0的，那么已經(jīng)亂碼，要轉(zhuǎn)碼。 C-1
*/
private static String toGb2312(String str) {
if (str == null) return null;
String retStr = str;
byte b[];
try {
b = str.getBytes("ISO8859_1");

for (int i = 0; i < b.length; i++) {
byte b1 = b[i];
if (b1 == 63)
break; //1
else if (b1 > 0)
continue;//2
else if (b1 < 0) { //不可能為0，0為字符串結(jié)束符
retStr = new String(b, "GB2312");
break;
}
}
} catch (UnsupportedEncodingException e) {
// e.printStackTrace();
}
return retStr;
}

3、

復(fù)制代碼代碼如下:

unsigned char *str = "test測試test";
int length;
int i;

length = strlen(str);
for (i = 0; i < length - 1; i++)
{
if ( *str >= 0x81 && *str <= 0xFE
&& *(str + 1) >= 0x40 && *(str + 1) <= 0xFE)
{
// 漢字
}
}

unsignedchar*str="test測試test";//把字符串換成“漢A”試試，結(jié)果為2

有人說：“一個GBK漢字要占兩個char空間(二字節(jié)），而且第一個字節(jié)里的值是小于0的?？梢該?jù)此判斷是否為漢字?！?BR>1、為什么第一個字節(jié)的值小于0呢？
2、如果僅通過判斷第一個字節(jié)如果小于0，則該字節(jié)和下一個字節(jié)就組成一個漢字，這種邏輯是否保險？
3、因為還看到有人說，GBK編碼的漢字有高位和低位兩位，第一個是低位吧？需要第一個字節(jié)在160-254之間，第二個字節(jié)在64-254之間，這樣是不是比2中提到的方法要保險？
4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK，這個是GBK字符集？GBK兼容GB2312

似乎有些字符集中有些漢字占三個字節(jié)

“通過判斷第一個字節(jié)如果小于0，則該字節(jié)和下一個字節(jié)就組成一個漢字”

//GBK漢字內(nèi)碼范圍
//81-A0 ,40-7E 80-FE
//AA-AF ,40-7E 80-A0
//B0-D6 ,40-7E 80-FE
//D7 ,40-7E 80-F9
//D8-F7 ,40-7E 80-FE
//F8-FE ,40-7E 80-A0
例如：//81-A0 ,40-7E 80-FE
表示字符的ascii碼要在129-160，64-126，128-254這三個區(qū)間段內(nèi)

4、
在工作中，遇到要截取字符串在屏幕上顯示出來，因為字符串帶有漢字，如果截取不好，會引起亂碼，寫了下面的函數(shù)

在uclinux下與VC6.0中測試可以通過。

view plaincopy to clipboardprint?

復(fù)制代碼代碼如下:

/*截取字符串

name :要截取的字符串

store:要存儲的字符串

len:要截取的長度

*/

void split_name( char * name , char * store , int len )
{

int i= 0 ;

char strTemp[L(NAMEL)]={0};