在任意字符集下正常顯示網(wǎng)頁(yè)的方法二(續(xù))
更新時(shí)間:2007年04月01日 00:00:00 作者:
轉(zhuǎn):coolcode.cn
前幾天寫了一篇在任意字符集下正常顯示網(wǎng)頁(yè)的方法,里面介紹的很簡(jiǎn)單,就是把前128個(gè)字符以外的字符集都用 NCR 來(lái)表示,但是具體怎么轉(zhuǎn)化我沒有介紹,因?yàn)楫?dāng)時(shí)我覺得太簡(jiǎn)單了。但是后來(lái)發(fā)現(xiàn)有人問這個(gè)問題,這里就詳細(xì)說(shuō)明一下。
首先第一步是要把源字符集的字符串轉(zhuǎn)化為 UTF-16 字符集,做這一步是因?yàn)?nbsp;UTF-16 字符集中的每個(gè)字符都是兩個(gè)字節(jié),后面處理起來(lái)很容易,而如果在源字符集上直接做處理則很復(fù)雜。源字符集可以從原網(wǎng)頁(yè)中的 meta 標(biāo)簽中獲得,也可以單獨(dú)指定,我的程序是讓用戶在表單中指定源字符集,因?yàn)槲也荒鼙WC用戶提交的文件就一定是 HTML 文件(其他文件也是可以的,比如這個(gè) WordPress 的漢化包源文件是個(gè) po 文件,它里面的內(nèi)容也可以這樣處理),而且即使是 HTML 文件,里面也不一定就有用于指定字符集的 meta 標(biāo)簽,所以通過(guò)表單單獨(dú)指定字符集比較保險(xiǎn)。你可能會(huì)覺得將一種字符集轉(zhuǎn)化為另一種字符集很復(fù)雜,確實(shí)如此,如果自己來(lái)實(shí)現(xiàn)的話,確實(shí)非常麻煩,但是用 PHP 來(lái)做卻很容易,因?yàn)樗锩嬉呀?jīng)包含這樣的函數(shù)了,你可以通過(guò) iconv 函數(shù)很容易的來(lái)實(shí)現(xiàn)各種字符集之間的轉(zhuǎn)化,如果你的機(jī)器上沒有安裝 iconv 擴(kuò)展,你也可以使用 mb_convert_encoding 函數(shù),如果 Multibyte String 擴(kuò)展也沒有安裝,那就沒辦法了,因?yàn)槟阋约簩?shí)現(xiàn)那么多種編碼的轉(zhuǎn)化基本上是不可能的,除非你是頂級(jí)大牛!推薦使用 iconv,因?yàn)檫@個(gè)效率高,支持的字符集也更多。
做完上面那一步之后,接下來(lái)是以每?jī)蓚€(gè)字節(jié)為單位對(duì)字符串進(jìn)行處理。這兩個(gè)字節(jié)直接轉(zhuǎn)化為數(shù)字就是 &#xxxxx; 中的 xxxxx,如果這個(gè)數(shù)字小于 128 就直接使用這個(gè)字符(注意這里就變成單字節(jié)了),否則就使用 &#xxxxx; 的形式。這里有一點(diǎn)要注意,就是當(dāng)這個(gè)數(shù)字是 65279(16 進(jìn)制的 0xFEFF)時(shí),請(qǐng)把它忽略掉,因?yàn)檫@個(gè)是 Unicode 編碼中的傳輸控制字符,而我們現(xiàn)在的字符串已經(jīng)只有 iso-8859-1 編碼中的前 128 個(gè)字符了,所以我們不需要它了。
好了,基本思路就是這樣,下面是實(shí)現(xiàn)的程序:
下載: nochaoscode.php
<?php
function nochaoscode($encode, $str) {
$str = iconv($encode, "UTF-16BE", $str);
for ($i = 0; $i < strlen($str); $i++,$i++) {
$code = ord($str{$i}) * 256 + ord($str{$i + 1});
if ($code < 128) {
$output .= chr($code);
} else if ($code != 65279) {
$output .= "&#".$code.";";
}
}
return $output;
}
?>
函數(shù)的參數(shù)中,$encode 是源字符集,$str 是需要進(jìn)行轉(zhuǎn)化的字符串。返回結(jié)果是轉(zhuǎn)化以后字符串。
補(bǔ)充:今天 Legend 告訴我一種更簡(jiǎn)單的方法,就是直接利用 mb_convert_encoding 函數(shù)。因?yàn)?nbsp;mb_convert_encoding 支持一種叫做 HTML-ENTITIES 的編碼格式,也就是 NCR 編碼。用它就更簡(jiǎn)單了。
前幾天寫了一篇在任意字符集下正常顯示網(wǎng)頁(yè)的方法,里面介紹的很簡(jiǎn)單,就是把前128個(gè)字符以外的字符集都用 NCR 來(lái)表示,但是具體怎么轉(zhuǎn)化我沒有介紹,因?yàn)楫?dāng)時(shí)我覺得太簡(jiǎn)單了。但是后來(lái)發(fā)現(xiàn)有人問這個(gè)問題,這里就詳細(xì)說(shuō)明一下。
首先第一步是要把源字符集的字符串轉(zhuǎn)化為 UTF-16 字符集,做這一步是因?yàn)?nbsp;UTF-16 字符集中的每個(gè)字符都是兩個(gè)字節(jié),后面處理起來(lái)很容易,而如果在源字符集上直接做處理則很復(fù)雜。源字符集可以從原網(wǎng)頁(yè)中的 meta 標(biāo)簽中獲得,也可以單獨(dú)指定,我的程序是讓用戶在表單中指定源字符集,因?yàn)槲也荒鼙WC用戶提交的文件就一定是 HTML 文件(其他文件也是可以的,比如這個(gè) WordPress 的漢化包源文件是個(gè) po 文件,它里面的內(nèi)容也可以這樣處理),而且即使是 HTML 文件,里面也不一定就有用于指定字符集的 meta 標(biāo)簽,所以通過(guò)表單單獨(dú)指定字符集比較保險(xiǎn)。你可能會(huì)覺得將一種字符集轉(zhuǎn)化為另一種字符集很復(fù)雜,確實(shí)如此,如果自己來(lái)實(shí)現(xiàn)的話,確實(shí)非常麻煩,但是用 PHP 來(lái)做卻很容易,因?yàn)樗锩嬉呀?jīng)包含這樣的函數(shù)了,你可以通過(guò) iconv 函數(shù)很容易的來(lái)實(shí)現(xiàn)各種字符集之間的轉(zhuǎn)化,如果你的機(jī)器上沒有安裝 iconv 擴(kuò)展,你也可以使用 mb_convert_encoding 函數(shù),如果 Multibyte String 擴(kuò)展也沒有安裝,那就沒辦法了,因?yàn)槟阋约簩?shí)現(xiàn)那么多種編碼的轉(zhuǎn)化基本上是不可能的,除非你是頂級(jí)大牛!推薦使用 iconv,因?yàn)檫@個(gè)效率高,支持的字符集也更多。
做完上面那一步之后,接下來(lái)是以每?jī)蓚€(gè)字節(jié)為單位對(duì)字符串進(jìn)行處理。這兩個(gè)字節(jié)直接轉(zhuǎn)化為數(shù)字就是 &#xxxxx; 中的 xxxxx,如果這個(gè)數(shù)字小于 128 就直接使用這個(gè)字符(注意這里就變成單字節(jié)了),否則就使用 &#xxxxx; 的形式。這里有一點(diǎn)要注意,就是當(dāng)這個(gè)數(shù)字是 65279(16 進(jìn)制的 0xFEFF)時(shí),請(qǐng)把它忽略掉,因?yàn)檫@個(gè)是 Unicode 編碼中的傳輸控制字符,而我們現(xiàn)在的字符串已經(jīng)只有 iso-8859-1 編碼中的前 128 個(gè)字符了,所以我們不需要它了。
好了,基本思路就是這樣,下面是實(shí)現(xiàn)的程序:
下載: nochaoscode.php
復(fù)制代碼 代碼如下:
<?php
function nochaoscode($encode, $str) {
$str = iconv($encode, "UTF-16BE", $str);
for ($i = 0; $i < strlen($str); $i++,$i++) {
$code = ord($str{$i}) * 256 + ord($str{$i + 1});
if ($code < 128) {
$output .= chr($code);
} else if ($code != 65279) {
$output .= "&#".$code.";";
}
}
return $output;
}
?>
函數(shù)的參數(shù)中,$encode 是源字符集,$str 是需要進(jìn)行轉(zhuǎn)化的字符串。返回結(jié)果是轉(zhuǎn)化以后字符串。
補(bǔ)充:今天 Legend 告訴我一種更簡(jiǎn)單的方法,就是直接利用 mb_convert_encoding 函數(shù)。因?yàn)?nbsp;mb_convert_encoding 支持一種叫做 HTML-ENTITIES 的編碼格式,也就是 NCR 編碼。用它就更簡(jiǎn)單了。
相關(guān)文章
php實(shí)現(xiàn)parent調(diào)用父類的構(gòu)造方法與被覆寫的方法
這篇文章主要介紹了php實(shí)現(xiàn)parent調(diào)用父類的構(gòu)造方法與被覆寫的方法,在上一篇關(guān)于使用類繼承解決代碼重復(fù)問題的基礎(chǔ)上,進(jìn)一步分析了parent調(diào)用父類的構(gòu)造方法與被覆寫的相關(guān)技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-02-02Referer原理與圖片防盜鏈實(shí)現(xiàn)方法詳解
這篇文章主要介紹了Referer原理與圖片防盜鏈實(shí)現(xiàn)方法,結(jié)合實(shí)例形式詳細(xì)分析了Referer頭信息原理與圖片防盜鏈判定、實(shí)現(xiàn)方法,并附帶一個(gè)Http請(qǐng)求封裝類,需要的朋友可以參考下2019-07-07php圖片處理:加水印、縮略圖的實(shí)現(xiàn)(自定義函數(shù):watermark、thumbnail)
圖片處理:加水印、縮略圖的實(shí)現(xiàn)(自定義函數(shù):watermark、thumbnail)代碼有點(diǎn)長(zhǎng),但不復(fù)雜。2010-12-12PHP自定義函數(shù)獲取搜索引擎來(lái)源關(guān)鍵字的方法
這篇文章主要介紹了PHP自定義函數(shù)獲取搜索引擎來(lái)源關(guān)鍵字的方法,涉及php針對(duì)來(lái)路頁(yè)面URL的分析與判斷技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2016-07-07php實(shí)現(xiàn)微信模擬登陸、獲取用戶列表及群發(fā)消息功能示例
這篇文章主要介紹了php實(shí)現(xiàn)微信模擬登陸、獲取用戶列表及群發(fā)消息功能,結(jié)合具體實(shí)例形式分析了php微信接口的相關(guān)調(diào)用與操作技巧,需要的朋友可以參考下2017-06-06php加速器eAccelerator的配置參數(shù)、API詳解
eAccelerator是一個(gè)開源PHP加速器,優(yōu)化程序,編碼器和動(dòng)態(tài)內(nèi)容緩存。它通過(guò)在編譯狀態(tài)下對(duì)它們進(jìn)行緩存以提高PHP腳本的性能,所以那些 系統(tǒng)開銷在編譯時(shí)幾乎可以被消除2014-05-05