UTF-8、Unicode 標準化表單、BOM
更新時間:2007年01月05日 00:00:00 作者:
在“關(guān)于Dreamweaver制作UTF-8編碼網(wǎng)頁的測試 ”中提及的疑惑
http://www.cnbruce.com/blog/showlog.asp?cat_id=27&log_id=999
“阿韓”朋友一語解惑:即勾選上“包括 Unicode 簽名(BOM)”

為詳細了解,以下內(nèi)容摘自幫助文檔:
若要設(shè)置文檔編碼,請使用“默認編碼”彈出式菜單。
“默認編碼”指定在創(chuàng)建新頁面時要使用的編碼,以及指定在未指定任何編碼的情況下打開一個文檔時要使用的編碼。有關(guān)更多信息,請參見了解文檔編碼。
如果選擇 Unicode (UTF-8) 作為文檔編碼,則不需要實體編碼,因為 UTF-8 可以安全地表示所有字符。如果選擇其他文檔編碼,則可能需要用實體編碼來表示某些字符。有關(guān)字符實體的更多信息,請參見 http://www.w3.org/TR/REC-html40/sgml/entities.html 。
如果選擇 Unicode (UTF-8) 作為默認編碼,請選擇一個 Unicode 標準化表單。
有四種 Unicode 標準化表單。最重要的是標準化表單 C,因為它是用于萬維網(wǎng)的字符模型的最常用表單。Macromedia 提供其他三種 Unicode 標準化表單作為補充。
在 Unicode 中,有些字符看上去很相似,但可用不同的方法存儲在文檔中。例如,“
”(e 變音符)可表示為單個字符“e 變音符”,或兩個字符“正常拉丁語 e”+“組合變音符”。Unicode 組合字符是與前一個字符結(jié)合使用的字符,因此變音符會顯示在“拉丁語 e”的上方。這兩種形式都顯示為相同的印刷樣式,但保存在文件中的每種形式是不同的。
標準化是指確保可用不同形式保存的所有字符都使用相同的形式進行保存的過程。即,文檔中所有“
”字符都保存為單個“e 變音符”或“e”+“組合變音符”,而不是在一個文檔中保存為這兩種形式。
有關(guān) Unicode 標準化和可以使用的特定表單的更多信息,請參見 Unicode Web 站點,網(wǎng)址是 http://www.unicode.org/reports/tr15 。
如果選擇 Unicode (UTF-8) 作為默認編碼,則可以選擇“包括 Unicode 簽名 (BOM)”選項以在文檔中包括字節(jié)順序標記 (BOM)。
BOM 是位于文本文件開頭的 2 到 4 個字節(jié),可將文件標識為 Unicode,還標識后面字節(jié)的字節(jié)順序。由于 UTF-8 沒有字節(jié)順序,因此可以選擇添加 UTF-8 BOM。對于 UTF-16 和 UTF-32,這是必需的。
我特意注意了下,相同代碼內(nèi)容的兩個文檔,使用了BOM的文檔字節(jié)比未使用的文檔字節(jié)多3個字節(jié)
對在Dreamweaver中遇到的這個問題,說大不大,說小也不小,平時疏忽啊。。。
http://www.cnbruce.com/blog/showlog.asp?cat_id=27&log_id=999
“阿韓”朋友一語解惑:即勾選上“包括 Unicode 簽名(BOM)”

為詳細了解,以下內(nèi)容摘自幫助文檔:
若要設(shè)置文檔編碼,請使用“默認編碼”彈出式菜單。
“默認編碼”指定在創(chuàng)建新頁面時要使用的編碼,以及指定在未指定任何編碼的情況下打開一個文檔時要使用的編碼。有關(guān)更多信息,請參見了解文檔編碼。
如果選擇 Unicode (UTF-8) 作為文檔編碼,則不需要實體編碼,因為 UTF-8 可以安全地表示所有字符。如果選擇其他文檔編碼,則可能需要用實體編碼來表示某些字符。有關(guān)字符實體的更多信息,請參見 http://www.w3.org/TR/REC-html40/sgml/entities.html 。
如果選擇 Unicode (UTF-8) 作為默認編碼,請選擇一個 Unicode 標準化表單。
有四種 Unicode 標準化表單。最重要的是標準化表單 C,因為它是用于萬維網(wǎng)的字符模型的最常用表單。Macromedia 提供其他三種 Unicode 標準化表單作為補充。
在 Unicode 中,有些字符看上去很相似,但可用不同的方法存儲在文檔中。例如,“

標準化是指確保可用不同形式保存的所有字符都使用相同的形式進行保存的過程。即,文檔中所有“

有關(guān) Unicode 標準化和可以使用的特定表單的更多信息,請參見 Unicode Web 站點,網(wǎng)址是 http://www.unicode.org/reports/tr15 。
如果選擇 Unicode (UTF-8) 作為默認編碼,則可以選擇“包括 Unicode 簽名 (BOM)”選項以在文檔中包括字節(jié)順序標記 (BOM)。
BOM 是位于文本文件開頭的 2 到 4 個字節(jié),可將文件標識為 Unicode,還標識后面字節(jié)的字節(jié)順序。由于 UTF-8 沒有字節(jié)順序,因此可以選擇添加 UTF-8 BOM。對于 UTF-16 和 UTF-32,這是必需的。
我特意注意了下,相同代碼內(nèi)容的兩個文檔,使用了BOM的文檔字節(jié)比未使用的文檔字節(jié)多3個字節(jié)
對在Dreamweaver中遇到的這個問題,說大不大,說小也不小,平時疏忽啊。。。
復制代碼 代碼如下:
txt文件默認打開工具是nodepad,另存為utf-8后這個notepad工具會在文件頭部強行添加文件utf-8 bom。 會破壞文件原有的內(nèi)容,如果你的文件內(nèi)容全部是ascii,大可不必另存為utf-8,因為utf-8編碼包括了ascii。即使你要存成utf-8也要存成無bom的格式,可以用UE 11.0做到
相關(guān)文章
SSI技術(shù)—SHTML的解釋(生成靜態(tài)時用的最火)
SSI技術(shù)—SHTML的解釋(生成靜態(tài)時用的最火)...2007-03-03