欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

UTF-8編碼問題BOM詳細(xì)介紹

 更新時間:2007年05月03日 00:00:00   作者:  
今天在寫php代碼的時候,出現(xiàn)一個特郁悶的問題那就是兩個一模一樣的文件,在IE下顯示有一個文件卻出顯了一個空白行,如地址所示http://www.kuomart.com/blog/my_ex/bom_utf8.htm
以上出現(xiàn)空白行的頁面是用php的require('t.htm')導(dǎo)入模板輸出的,而我的php文件和htm文件都是用的記事本寫的,然后保存為utf-8編碼的,這樣之后就出現(xiàn)了用nodepad保存utf8文件自動添加bom到文件的開始,起先自己測試用nodepad,dw,edplus打開文件都看不到bom內(nèi)容,而用windows寫字板以及zend studio打開就可以看到bom字節(jié)的東西,由于一直對utf8沒有深入的了解,只知道utf8可以表示很多種語言的編碼,他通用三個字節(jié)表示一個字符,如gb碼用兩個字節(jié)表示一個漢字,而用utf8表示一個漢字,則一個漢字要占三個字節(jié)。但是對BOM卻一無所知,最后實在無技可施便到csdn上求助,可是csdn上半天沒一個高手能解決,也于我在web版發(fā)的問題版塊發(fā)得不對吧(暈,我是WEB開發(fā)遇到的問題?。瑹o賴之下又在phpchina去發(fā)貼,終于得aultoale的幫助熱心解答,如貼http://www.phpchina.com/bbs/thread-23423-1-1.html

在網(wǎng)上也找到以下詳解


Wordpress中要注意的UTF-8的BOM問題
很早就遇到過一個問題,就是安裝某個插件后,點激活后會出現(xiàn)白屏。一直沒有搞明白是由于什么原因,以前的解決辦法是,如果是不包含中文字符的,直接把文件轉(zhuǎn)存成ASCII碼方式,一般都能解決。今天給弟弟弄Blog的時候,又出現(xiàn)了這種情況。研究了半天,終于找到了答案。

Unicode規(guī)范中有一個BOM的概念。BOM——Byte Order Mark,就是字節(jié)序標(biāo)記。在這里找到一段關(guān)于BOM的說明:

在UCS 編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的編碼是FEFF。而FFFE在UCS中是不存在的字符,所以不應(yīng)該出現(xiàn)在實際傳輸中。UCS規(guī)范建議我們在傳輸字節(jié)流前,先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。這樣如果接收者收到FEFF,就表明這個字節(jié)流是Big-Endian的;如果收到FFFE,就表明這個字節(jié)流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

UTF-8不需要BOM來表明字節(jié)順序,但可以用BOM來表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF。所以如果接收者收到以EF BB BF開頭的字節(jié)流,就知道這是UTF-8編碼了。

Windows就是使用BOM來標(biāo)記文本文件的編碼方式的。

另外unicode網(wǎng)站的FAQ-BOM詳細(xì)介紹了BOM。官方的自然權(quán)威,不過是英文的,看起來比較費勁。

UTF-8編碼的文件中,BOM占三個字節(jié)。如果用記事本把一個文本文件另存為UTF-8編碼方式的話,用UE打開這個文件,切換到十六進(jìn)制編輯狀態(tài)就可以看到開頭的FFFE了。這是個標(biāo)識UTF-8編碼文件的好辦法,軟件通過BOM來識別這個文件是否是UTF-8編碼,很多軟件還要求讀入的文件必須帶BOM??墒?,還是有很多軟件不能識別BOM。我在研究Firefox的時候就知道,在Firefox早期的版本里,擴(kuò)展是不能有BOM的,不過Firefox 1.5以后的版本已經(jīng)開始支持BOM了?,F(xiàn)在又發(fā)現(xiàn),PHP也不支持BOM。

PHP在設(shè)計時就沒有考慮BOM的問題,也就是說他不會忽略UTF-8編碼的文件開頭BOM的那三個字符。由于必須在
在Bo-Blog的wiki看到,同樣使用PHP的Bo-Blog也一樣受到BOM的困擾。其中有提到另一個麻煩:“受COOKIE送出機(jī)制的限制,在這些文件開頭已經(jīng)有BOM的文件中,COOKIE無法送出(因為在COOKIE送出前PHP已經(jīng)送出了文件頭),所以登入和登出功能失效。一切依賴COOKIE、SESSION實現(xiàn)的功能全部無效?!边@個應(yīng)該就是Wordpress后臺出現(xiàn)空白頁面的原因了,因為任何一個被執(zhí)行的文件包含了BOM,這三個字符都將被送出,導(dǎo)致依賴cookies和session的功能失效。

解決的辦法嘛,如果只包含英文字符(或者說ASCII編碼內(nèi)的字符),就把文件存成ASCII碼方式吧。用UE等編輯器的話,點文件->轉(zhuǎn)換->UTF-8轉(zhuǎn)ASCII,或者在另存為里選擇ASCII編碼。如果是DOS格式的行尾符,可以用記事本打開,點另存為,選ASCII編碼。如果包含中文字符的話,可以用UE的另存為功能,選擇“UTF-8 無 BOM”即可。請參考下面的圖片:

根據(jù)Bo-Blog的wiki的說明:Editplus需要先另存為gb,再另存為UTF-8。不過這樣做要小心,所有GBK編碼中不包含的字符就會都丟了。如果有一些非中文的字符在文件里的話還是不要用這種辦法了。(從這一個小方面來看,UE——UltraEdite-32確實比Editplus好很多,Editplus太輕量級了)

另外我發(fā)現(xiàn)了一個辦法,就是利用Wordpress提供的文件編輯器。這個辦法不受限制,不需要去下載專門的編輯器,畢竟大家都在用Wordpress嘛。先在ftp里把要編輯的文件的寫入權(quán)限打開,然后進(jìn)入Wordpress后臺->管理->文件編輯器,輸入要編輯文件的路徑,點編輯文件。在顯示出來的編輯界面中,你是看不到開頭的那三個字符的,不過沒關(guān)系,把光標(biāo)定位在整個文件的第一個字符前,按一下Backspace鍵。OK了,點更新文件吧,在ftp里刷新一下,可以看到文件小了3字節(jié),大功告成。

最后說一下,這是個大問題,所有要自己寫插件的,編輯別人的插件自己用的,需要修改模版的(這條估計每個人都需要吧),最好了解一下上面的知識,免得出現(xiàn)問題時不知所措。


官方網(wǎng)站信息如下http://www.unicode.org/faq/utf_bom.html#BOM

相關(guān)文章

最新評論