php utf-8轉(zhuǎn)unicode的函數(shù)第1/2頁
UTF-8就是以8位為單元對(duì)UCS進(jìn)行編碼。從UCS-2到UTF-8的編碼方式如下:
UCS-2編碼(16進(jìn)制)
UTF-8 字節(jié)流(二進(jìn)制)
0000 - 007F
0xxxxxxx
0080 - 07FF
110xxxxx 10xxxxxx
0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
例如“漢”字的Unicode編碼是6C49。6C49在0800-FFFF之間,所以肯定要用3字節(jié)模板了:1110xxxx 10xxxxxx 10xxxxxx。將6C49寫成二進(jìn)制是:0110 110001 001001, 用這個(gè)比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
終于將unicode和utf8互轉(zhuǎn)搞定。
如果utf-8編碼的字符ch是3個(gè)字節(jié)。xx yy zz
將xx和1F AND 操作得到 a
將yy和7F AND 操作得到 b
將zz和7F AND 操作得到 c
(64a+b)*64+c = ch(unicode編碼)
echo.php沒什么。就是幾個(gè)函數(shù)。
");
//寫入unicode文件
$ucs2data = utf8ToUnicode($data,"little");
$endian = chr(0xFE).chr(0xFF);
$endian = chr(0xFF).chr(0xFE);
$rt = file_put_contents ( "ucs2.txt", $endian.$ucs2data);
//19:32,utf8toUnicode函數(shù)ok.
//20:09。發(fā)現(xiàn)little endian 和big endian問題。并解決。
//big endian 方式存入的unicode字符串,ue和editplus均不能
//識(shí)別。只有notepad正常識(shí)別。
$rt = file_put_contents ( "usc2ys_data.txt", $ucs2_ysdata);
//寫入utf8文件
$utf8data = unicodeToUtf8($ucs2data); // 20:52. 將字串轉(zhuǎn)回utf8碼ok.
$rt = file_put_contents ( "utf8.txt", $utf8data);
echo(urlencode($utf8data));echo("");
$esc = utf8Escape($data);
echot($esc);
$esc = phpEscape($data);
echot($esc);
$unesc = phpUnescape($esc);
echot($unesc);
/**
* 此函數(shù)將utf8編碼字串轉(zhuǎn)為unicode編碼字符串
* 參數(shù) str ,utf8編碼的字符串。
* 參數(shù) order,存放數(shù)據(jù)格式,是big endian還是little endian,默認(rèn)的unicode存放次序是little.
* 如:"大"的unicode碼是 5927。little方式存放即為:27 59 。big方式則順序不變:59 27.
* little 存放格式文件的開頭均需有FF FE。big 存放方式的文件開頭為 FE FF。否則。將會(huì)產(chǎn)生嚴(yán)重混亂。
* 本函數(shù)只轉(zhuǎn)換字符,不負(fù)責(zé)增加頭部。
* iconv轉(zhuǎn)換過來的字符串是 big endian存放的。
* 返回 ucs2string , 轉(zhuǎn)換過的字符串。
* 感謝嘮叨(xuzuning)
*/
function utf8ToUnicode($str,$order="little")
{
$ucs2string ="";
$n=strlen($str);
for ($i=0;$i0x80) { //110xxxxx 10xxxxxx
$a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx
$a = (ord($str[$i]) & 0x1F)轉(zhuǎn)為utf8編碼字符串
* 參數(shù) str ,unicode編碼的字符串。
* 參數(shù) order ,unicode字串的存放次序,為big endian還是little endian.
* 返回 utf8string , 轉(zhuǎn)換過的字符串。
*
*/
function unicodeToUtf8($str,$order="little")
{
$utf8string ="";
$n=strlen($str);
for ($i=0;$i轉(zhuǎn)回來。
$i++; //兩個(gè)字節(jié)表示一個(gè)unicode字符。
$c = "";
if($val utf8string .= $c;
}
return $utf8string;
} // end func
/*
* 將utf8編碼的字符串編碼為unicode 碼型,等同escape
* 之所以只接受utf8碼,因?yàn)橹挥衭tf8碼和unicode之間有公式轉(zhuǎn)換,其他的編碼都得查碼表來轉(zhuǎn)換。
* 不知道查找utf8碼的正則是否完全正確。迷茫ing
* 雖然調(diào)用utf2ucs對(duì)每個(gè)字符進(jìn)行碼值計(jì)算。效率過低。然而,代碼清晰,要是把那個(gè)計(jì)算過程嵌入。
* 代碼就不太容易閱讀了。
*/
function utf8Escape($str) {
preg_match_all("/[\xC0-\xE0].|[\xE0-\xF0]..|[\x01-\x7f]+/",$str,$r);
//prt($r);
$ar = $r[0];
foreach($ar as $k=>$v) {
$ord = ord($v[0]);
if( $ordutf8碼
$ar[$k] = "%u".utf2ucs($v);
}
elseif ($ordutf8碼
$ar[$k] = "%u".utf2ucs($v);
}
}//foreach
return join("",$ar);
}
/**
*
* 把utf8編碼字符轉(zhuǎn)為ucs-2編碼
* 參數(shù) utf8編碼的字符。
* 返回 該字符的unicode碼值。知道了碼值,你就能使用chr將字符弄出來了。
*
* 原理:unicode轉(zhuǎn)為utf-8碼的算法是。頭部固定位或。
該過程的逆向算法就是這個(gè)函數(shù)了,頭部固定位反位和。
*/
function utf2ucs($str){
$n=strlen($str);
if ($n=3) {
$highCode = ord($str[0]);
$midCode = ord($str[1]);
$lowCode = ord($str[2]);
$a = 0x1F & $highCode;
$b = 0x7F & $midCode;
$c = 0x7F & $lowCode;
$ucsCode = (64*$a + $b)*64 + $c;
}
elseif ($n==2) {
$highCode = ord($str[0]);
$lowCode = ord($str[1]);
$a = 0x3F & $highCode; //0x3F是0xC0的補(bǔ)數(shù)
$b = 0x7F & $lowCode; //0x7F是0x80的補(bǔ)數(shù)
$ucsCode = 64*$a + $b;
}
elseif($n==1) {
$ucscode = ord($str);
}
return dechex($ucsCode);
}
/*
* 用處 :此函數(shù)用來逆轉(zhuǎn)javascript的escape函數(shù)編碼后的字符。
* 關(guān)鍵的正則查找我不知道有沒有問題.
* 參數(shù):javascript編碼過的字符串。
* 如:unicodeToUtf8("%u5927")= 大
* 2005-12-10
*
*/
function phpUnescape($escstr){
preg_match_all("/%u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-_]+/",$escstr,$matches); //prt($matches);
$ar = &$matches[0];
$c = "";
foreach($ar as $val){
if (substr($val,0,1)!="%") { //如果是字母數(shù)字+-_.的ascii碼
$c .=$val;
}
elseif (substr($val,1,1)!="u") { //如果是非字母數(shù)字+-_.的ascii碼
$x = hexdec(substr($val,1,2));
$c .=chr($x);
}
else { //如果是大于0xFF的碼
$val = intval(substr($val,2),16);
if($val %u".bin2hex( iconv( 'gbk' ,"UCS-2",$chars[$i].$chars[$i+1] ) );
$i++;
}
}//foreach
return $ar;
}
?>
- PHP通過iconv將字符串從GBK轉(zhuǎn)換為UTF8字符集
- PHP如何實(shí)現(xiàn)Unicode和Utf-8編碼相互轉(zhuǎn)換
- 支持生僻字且自動(dòng)識(shí)別utf-8編碼的php漢字轉(zhuǎn)拼音類
- PHP UTF8編碼內(nèi)的繁簡(jiǎn)轉(zhuǎn)換類
- 用PHP實(shí)現(xiàn)將GB編碼轉(zhuǎn)換為UTF8
- 用PHP將Unicode 轉(zhuǎn)化為UTF-8的實(shí)現(xiàn)方法(推薦)
- PHP實(shí)現(xiàn)十進(jìn)制、二進(jìn)制、八進(jìn)制和十六進(jìn)制轉(zhuǎn)換相關(guān)函數(shù)用法分析
- PHP二進(jìn)制與字符串之間的相互轉(zhuǎn)換教程
- PHP函數(shù)篇詳解十進(jìn)制、二進(jìn)制、八進(jìn)制和十六進(jìn)制轉(zhuǎn)換函數(shù)說明
- PHP中實(shí)現(xiàn)中文字符進(jìn)制轉(zhuǎn)換原理分析
- PHP實(shí)現(xiàn)UTF8二進(jìn)制及明文字符串的轉(zhuǎn)化功能示例
相關(guān)文章
PHP實(shí)現(xiàn)根據(jù)數(shù)組某個(gè)鍵值大小進(jìn)行排序的方法
這篇文章主要介紹了PHP實(shí)現(xiàn)根據(jù)數(shù)組某個(gè)鍵值大小進(jìn)行排序的方法,涉及php針對(duì)數(shù)組的遍歷、排序等相關(guān)操作技巧,需要的朋友可以參考下2018-03-03PHP 加密 Password Hashing API基礎(chǔ)知識(shí)點(diǎn)
在本篇文章里小編給大家分享的是一篇關(guān)于PHP 加密 Password Hashing API基礎(chǔ)知識(shí)點(diǎn),有興趣的朋友們可以學(xué)習(xí)下。2020-03-03php中http與https跨域共享session的解決方法
這篇文章主要介紹了http與https跨域共享session的解決方法,需要的朋友可以參考下2014-12-12php中g(shù)etservbyport與getservbyname函數(shù)用法實(shí)例
這篇文章主要介紹了php中g(shù)etservbyport與getservbyname函數(shù)用法,以實(shí)例形式分析了getservbyport與getservbyname函數(shù)獲取server端的端口等信息的方法,需要的朋友可以參考下2014-11-11PHP實(shí)現(xiàn)針對(duì)日期,月數(shù),天數(shù),周數(shù),小時(shí),分,秒等的加減運(yùn)算示例【基于strtotime】
這篇文章主要介紹了PHP實(shí)現(xiàn)針對(duì)日期,月數(shù),天數(shù),周數(shù),小時(shí),分,秒等的加減運(yùn)算,結(jié)合實(shí)例形式分析了基于strtotime的簡(jiǎn)單日期時(shí)間運(yùn)算技巧,非常具有實(shí)用價(jià)值,需要的朋友可以參考下2017-04-04解決nginx不支持thinkphp中pathinfo的問題
這篇文章主要介紹如何解決當(dāng)Nginx不支持pathinfo問題時(shí)該如何解決,需要的朋友可以參考下2015-07-07php實(shí)現(xiàn)的Curl封裝類Curl.class.php用法實(shí)例分析
這篇文章主要介紹了php實(shí)現(xiàn)的Curl封裝類Curl.class.php用法,以完整實(shí)例形式較為詳細(xì)的分析了Curl封裝類的定義及相關(guān)使用技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-09-09