欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

UTF-8編碼問(wèn)題BOM詳細(xì)介紹

 更新時(shí)間:2007年05月03日 00:00:00   作者:  
今天在寫php代碼的時(shí)候,出現(xiàn)一個(gè)特郁悶的問(wèn)題那就是兩個(gè)一模一樣的文件,在IE下顯示有一個(gè)文件卻出顯了一個(gè)空白行,如地址所示http://www.kuomart.com/blog/my_ex/bom_utf8.htm
以上出現(xiàn)空白行的頁(yè)面是用php的require('t.htm')導(dǎo)入模板輸出的,而我的php文件和htm文件都是用的記事本寫的,然后保存為utf-8編碼的,這樣之后就出現(xiàn)了用nodepad保存utf8文件自動(dòng)添加bom到文件的開(kāi)始,起先自己測(cè)試用nodepad,dw,edplus打開(kāi)文件都看不到bom內(nèi)容,而用windows寫字板以及zend studio打開(kāi)就可以看到bom字節(jié)的東西,由于一直對(duì)utf8沒(méi)有深入的了解,只知道utf8可以表示很多種語(yǔ)言的編碼,他通用三個(gè)字節(jié)表示一個(gè)字符,如gb碼用兩個(gè)字節(jié)表示一個(gè)漢字,而用utf8表示一個(gè)漢字,則一個(gè)漢字要占三個(gè)字節(jié)。但是對(duì)BOM卻一無(wú)所知,最后實(shí)在無(wú)技可施便到csdn上求助,可是csdn上半天沒(méi)一個(gè)高手能解決,也于我在web版發(fā)的問(wèn)題版塊發(fā)得不對(duì)吧(暈,我是WEB開(kāi)發(fā)遇到的問(wèn)題啊),無(wú)賴之下又在phpchina去發(fā)貼,終于得aultoale的幫助熱心解答,如貼http://www.phpchina.com/bbs/thread-23423-1-1.html

在網(wǎng)上也找到以下詳解


Wordpress中要注意的UTF-8的BOM問(wèn)題
很早就遇到過(guò)一個(gè)問(wèn)題,就是安裝某個(gè)插件后,點(diǎn)激活后會(huì)出現(xiàn)白屏。一直沒(méi)有搞明白是由于什么原因,以前的解決辦法是,如果是不包含中文字符的,直接把文件轉(zhuǎn)存成ASCII碼方式,一般都能解決。今天給弟弟弄Blog的時(shí)候,又出現(xiàn)了這種情況。研究了半天,終于找到了答案。

Unicode規(guī)范中有一個(gè)BOM的概念。BOM——Byte Order Mark,就是字節(jié)序標(biāo)記。在這里找到一段關(guān)于BOM的說(shuō)明:

在UCS 編碼中有一個(gè)叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的編碼是FEFF。而FFFE在UCS中是不存在的字符,所以不應(yīng)該出現(xiàn)在實(shí)際傳輸中。UCS規(guī)范建議我們?cè)趥鬏斪止?jié)流前,先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。這樣如果接收者收到FEFF,就表明這個(gè)字節(jié)流是Big-Endian的;如果收到FFFE,就表明這個(gè)字節(jié)流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

UTF-8不需要BOM來(lái)表明字節(jié)順序,但可以用BOM來(lái)表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF。所以如果接收者收到以EF BB BF開(kāi)頭的字節(jié)流,就知道這是UTF-8編碼了。

Windows就是使用BOM來(lái)標(biāo)記文本文件的編碼方式的。

另外unicode網(wǎng)站的FAQ-BOM詳細(xì)介紹了BOM。官方的自然權(quán)威,不過(guò)是英文的,看起來(lái)比較費(fèi)勁。

UTF-8編碼的文件中,BOM占三個(gè)字節(jié)。如果用記事本把一個(gè)文本文件另存為UTF-8編碼方式的話,用UE打開(kāi)這個(gè)文件,切換到十六進(jìn)制編輯狀態(tài)就可以看到開(kāi)頭的FFFE了。這是個(gè)標(biāo)識(shí)UTF-8編碼文件的好辦法,軟件通過(guò)BOM來(lái)識(shí)別這個(gè)文件是否是UTF-8編碼,很多軟件還要求讀入的文件必須帶BOM??墒?,還是有很多軟件不能識(shí)別BOM。我在研究Firefox的時(shí)候就知道,在Firefox早期的版本里,擴(kuò)展是不能有BOM的,不過(guò)Firefox 1.5以后的版本已經(jīng)開(kāi)始支持BOM了。現(xiàn)在又發(fā)現(xiàn),PHP也不支持BOM。

PHP在設(shè)計(jì)時(shí)就沒(méi)有考慮BOM的問(wèn)題,也就是說(shuō)他不會(huì)忽略UTF-8編碼的文件開(kāi)頭BOM的那三個(gè)字符。由于必須在
在Bo-Blog的wiki看到,同樣使用PHP的Bo-Blog也一樣受到BOM的困擾。其中有提到另一個(gè)麻煩:“受COOKIE送出機(jī)制的限制,在這些文件開(kāi)頭已經(jīng)有BOM的文件中,COOKIE無(wú)法送出(因?yàn)樵贑OOKIE送出前PHP已經(jīng)送出了文件頭),所以登入和登出功能失效。一切依賴COOKIE、SESSION實(shí)現(xiàn)的功能全部無(wú)效。”這個(gè)應(yīng)該就是Wordpress后臺(tái)出現(xiàn)空白頁(yè)面的原因了,因?yàn)槿魏我粋€(gè)被執(zhí)行的文件包含了BOM,這三個(gè)字符都將被送出,導(dǎo)致依賴cookies和session的功能失效。

解決的辦法嘛,如果只包含英文字符(或者說(shuō)ASCII編碼內(nèi)的字符),就把文件存成ASCII碼方式吧。用UE等編輯器的話,點(diǎn)文件->轉(zhuǎn)換->UTF-8轉(zhuǎn)ASCII,或者在另存為里選擇ASCII編碼。如果是DOS格式的行尾符,可以用記事本打開(kāi),點(diǎn)另存為,選ASCII編碼。如果包含中文字符的話,可以用UE的另存為功能,選擇“UTF-8 無(wú) BOM”即可。請(qǐng)參考下面的圖片:

根據(jù)Bo-Blog的wiki的說(shuō)明:Editplus需要先另存為gb,再另存為UTF-8。不過(guò)這樣做要小心,所有GBK編碼中不包含的字符就會(huì)都丟了。如果有一些非中文的字符在文件里的話還是不要用這種辦法了。(從這一個(gè)小方面來(lái)看,UE——UltraEdite-32確實(shí)比Editplus好很多,Editplus太輕量級(jí)了)

另外我發(fā)現(xiàn)了一個(gè)辦法,就是利用Wordpress提供的文件編輯器。這個(gè)辦法不受限制,不需要去下載專門的編輯器,畢竟大家都在用Wordpress嘛。先在ftp里把要編輯的文件的寫入權(quán)限打開(kāi),然后進(jìn)入Wordpress后臺(tái)->管理->文件編輯器,輸入要編輯文件的路徑,點(diǎn)編輯文件。在顯示出來(lái)的編輯界面中,你是看不到開(kāi)頭的那三個(gè)字符的,不過(guò)沒(méi)關(guān)系,把光標(biāo)定位在整個(gè)文件的第一個(gè)字符前,按一下Backspace鍵。OK了,點(diǎn)更新文件吧,在ftp里刷新一下,可以看到文件小了3字節(jié),大功告成。

最后說(shuō)一下,這是個(gè)大問(wèn)題,所有要自己寫插件的,編輯別人的插件自己用的,需要修改模版的(這條估計(jì)每個(gè)人都需要吧),最好了解一下上面的知識(shí),免得出現(xiàn)問(wèn)題時(shí)不知所措。


官方網(wǎng)站信息如下http://www.unicode.org/faq/utf_bom.html#BOM

相關(guān)文章

最新評(píng)論