快捷導(dǎo)航

php字符編碼轉(zhuǎn)換之gb2312轉(zhuǎn)為utf8

更新時間：2013年10月28日 16:44:20 作者：

PHP輸出頁面時經(jīng)常有亂碼，怎么辦呢？今天我就提供一個方法，可以自動判斷php字符編碼,把gbk或gb2312編碼的字符串轉(zhuǎn)為utf8 。

在php中字符編碼轉(zhuǎn)換我們一般會用到iconv與mb_convert_encoding進行操作，但是mb_convert_encoding在轉(zhuǎn)換性能上比iconv要差很多哦。
string iconv ( string in_charset, string out_charset, string str ) 注意：第二個參數(shù)，除了可以指定要轉(zhuǎn)化到的編碼以外，還可以增加兩個后綴：//TRANSLIT 和 //IGNORE，其中 //TRANSLIT 會自動將不能直接轉(zhuǎn)化的字符變成一個或多個近似的字符，//IGNORE 會忽略掉不能轉(zhuǎn)化的字符，而默認(rèn)效果是從第一個非法字符截斷。
Returns the converted string or FALSE on failure.
string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 擴展庫，在 php.ini里將; extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding 可以指定多種輸入編碼，它會根據(jù)內(nèi)容自動識別,但是執(zhí)行效率比iconv差太多；

使用：
發(fā)現(xiàn)iconv在轉(zhuǎn)換字符”—”到gb2312時會出錯，如果沒有ignore參數(shù)，所有該字符后面的字符串都無法被保存。不管怎么樣，這個”—”都無法轉(zhuǎn)換成功，無法輸出。另外mb_convert_encoding沒有這個bug.
一般情況下用 iconv，只有當(dāng)遇到無法確定原編碼是何種編碼，或者iconv轉(zhuǎn)化后無法正常顯示時才用mb_convert_encoding 函數(shù).

復(fù)制代碼代碼如下:

/** 
*自動判斷把gbk或gb2312編碼的字符串轉(zhuǎn)為utf8 
*能自動判斷輸入字符串的編碼類，如果本身是utf-8就不用轉(zhuǎn)換，否則就轉(zhuǎn)換為utf-8的字符串 
*支持的字符編碼類型是：utf-8,gbk,gb2312 
*@$str:string 字符串 
*/ 
function yang_gbk2utf8($str){ 
    $charset = mb_detect_encoding()($str,array('UTF-8','GBK','GB2312')); 
    $charset = strtolower($charset); 
    if('cp936' == $charset){ 
        $charset='GBK'; 
    } 
    if("utf-8" != $charset){ 
        $str = iconv($charset,"UTF-8//IGNORE",$str); 
    } 
    return $str; 
}

下面我接著看在轉(zhuǎn)換字符編碼的一些問題
用mb_detect_encoding($str);函數(shù)，使用該函數(shù)必須打開php的extension=php_mbstring.dll擴展

復(fù)制代碼代碼如下:

<?php
$str="測試ing";
$cha=mb_detect_encoding($str);
$s = iconv($cha,"UTF-8",$str);
var_dump($s);
?> 

結(jié)果返回：
string(0) “”
真是奇怪，為什么會這樣。

復(fù)制代碼代碼如下:

<?php
$str="測試ing";
$cha=mb_detect_encoding($str);
$s = iconv("GB2312","UTF-8",$str);
var_dump($s);
?>

返回結(jié)果正確。發(fā)現(xiàn)該函數(shù)mb_detect_encoding($str);判斷還是不準(zhǔn)確。不知是什么原因。
函數(shù)string mb_convert_encoding ( string $str , string $to_encoding [, mixed $from_encoding ] )
可以轉(zhuǎn)換為指定編碼的字符串，我寫了例子

復(fù)制代碼代碼如下:

<pre lang="php" line="1">
<?php
$a="我很好";
echo mb_convert_encoding ($a,'UTF-8');
?> 

可結(jié)果是：
??潞?潞?
現(xiàn)在的問題就是我如果把不同的字符串編碼形式統(tǒng)一轉(zhuǎn)換為utf-8,如果事先知道改變嗎可以用iconv,但如果不知道該編碼該怎么辦呢？
問題3：iconv問題，如果轉(zhuǎn)換的字符串，第一個字節(jié)的編碼大于一定的數(shù)會返回空.
如：

復(fù)制代碼代碼如下:

<?php
$str=chr(254)."測試ing".chr(254);
$s = iconv("GB2312","UTF-8",$str);
var_dump($s);
?> 

返回
string(0) “”

mb_convert_encoding的用法見官方：

http://cn.php.net/manual/en/function.mb-convert-encoding.php

PHP中的另外一個函數(shù)iconv也是用來轉(zhuǎn)換字符串編碼的，與上函數(shù)功能相似。

下面還有一些詳細的例子：
iconv — Convert string to requested character encoding
(PHP 4 >= 4.0.5, PHP 5)
mb_convert_encoding — Convert character encoding
(PHP 4 >= 4.0.6, PHP 5)
用法：
string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 擴展庫，在 php.ini里將; extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding 可以指定多種輸入編碼，它會根據(jù)內(nèi)容自動識別,但是執(zhí)行效率比iconv差太多；
string iconv ( string in_charset, string out_charset, string str )
注意：第二個參數(shù)，除了可以指定要轉(zhuǎn)化到的編碼以外，還可以增加兩個后綴：//TRANSLIT 和 //IGNORE，其中 //TRANSLIT 會自動將不能直接轉(zhuǎn)化的字符變成一個或多個近似的字符，//IGNORE 會忽略掉不能轉(zhuǎn)化的字符，而默認(rèn)效果是從第一個非法字符截斷。
Returns the converted string or FALSE on failure.
使用：
發(fā)現(xiàn)iconv在轉(zhuǎn)換字符”—”到gb2312時會出錯，如果沒有ignore參數(shù)，所有該字符后面的字符串都無法被保存。不管怎么樣，這個”—”都無法轉(zhuǎn)換成功，無法輸出。另外mb_convert_encoding沒有這個bug.
一般情況下用 iconv，只有當(dāng)遇到無法確定原編碼是何種編碼，或者iconv轉(zhuǎn)化后無法正常顯示時才用mb_convert_encoding 函數(shù).
from_encoding is specified by character code name before conversion. it can be array or string – comma separated enumerated list. If it is not specified, the internal encoding will be used.
/* Auto detect encoding from JIS, eucjp-win, sjis-win, then convert str to UCS-2LE */
$str = mb_convert_encoding($str, “UCS-2LE”, “JIS, eucjp-win, sjis-win”);
/* “auto” is expanded to “ASCII,JIS,UTF-8,EUC-JP,SJIS” */
$str = mb_convert_encoding($str, “EUC-JP”, “auto”);
例子：

復(fù)制代碼代碼如下:

<?php  
 $content = iconv("GBK", "UTF-8", $content);  
 $content = mb_convert_encoding($content, "UTF-8", "GBK");  
?>

這個可以根據(jù)輸入輸出的字符編碼進行轉(zhuǎn)換

復(fù)制代碼代碼如下:

<?php
function phpcharset($data, $to) {
 if(is_array($data)) {
  foreach($data as $key => $val) {
   $data[$key] = phpcharset($val, $to);
  }
 } else {
  $encode_array = array('ASCII', 'UTF-8', 'GBK', 'GB2312', 'BIG5');
  $encoded = mb_detect_encoding($data, $encode_array);
  $to = strtoupper($to);
  if($encoded != $to) {
   $data = mb_convert_encoding($data, $to, $encoded);
  }
 }
 return $data;
}
?>