腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

基于網(wǎng)址URL中特殊字符轉(zhuǎn)義編碼

更新時(shí)間：2021年10月28日 10:15:08 作者：pcyph

這篇文章主要介紹了網(wǎng)址URL中特殊字符轉(zhuǎn)義編碼，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教

網(wǎng)址URL中特殊字符轉(zhuǎn)義編碼
URL特殊字符轉(zhuǎn)義，URL中一些字符的特殊含義，基本編碼規(guī)則如下：
如果需要在URL中用到，需要將這些特殊字符換成相應(yīng)的十六進(jìn)制的值
預(yù)備知識(shí)
為什么需要Url編碼
哪些字符需要編碼

US-ASCII字符集中沒(méi)有對(duì)應(yīng)的可打印字符
保留字符
不安全字符

如何對(duì)Url中的非法字符進(jìn)行編碼

Javascript中的escape,encodeURI和encodeURIComponent的區(qū)別

安全字符不同
兼容性不同
對(duì)Unicode字符的編碼方式不同
適用場(chǎng)合不同

表單提交

文檔字符集會(huì)影響encodeURI嗎？

其他和Url編碼相關(guān)的問(wèn)題

網(wǎng)址URL中特殊字符轉(zhuǎn)義編碼

字符 - URL編碼值

空格 - %20
" - %22
# - %23
% - %25
& - %26
( - %28
) - %29
+ - %2B
, - %2C
/ - %2F
: - %3A
; - %3B
< - %3C
= - %3D
> - %3E
? - %3F
@ - %40
\ - %5C
| - %7C

URL特殊字符轉(zhuǎn)義，URL中一些字符的特殊含義，基本編碼規(guī)則如下：

1、空格換成加號(hào)(+)

3、問(wèn)號(hào)(?)分隔URL和查詢

4、百分號(hào)(%)制定特殊字符

5、#號(hào)指定書簽

6、&號(hào)分隔參數(shù)

如果需要在URL中用到，需要將這些特殊字符換成相應(yīng)的十六進(jìn)制的值

+ %2B
/ %2F
? %3F
% %25
# %23
& %26

本文主要針對(duì)URI編解碼的相關(guān)問(wèn)題做了介紹，對(duì)Url編碼中哪些字符需要編碼、為什么需要編碼做了詳細(xì)的說(shuō)明，并對(duì)比分析了Javascript 中和編解碼相關(guān)的幾對(duì)函數(shù)escape / unescape,encodeURI / decodeURI和encodeURIComponent / decodeURIComponent。

預(yù)備知識(shí)

foo://example.com:8042/over/there?name=ferret#nose
\_/ \______________/ \________/\_________/ \__/
| | | | |
scheme authority path query fragment

URI是統(tǒng)一資源標(biāo)識(shí)的意思，通常我們所說(shuō)的Url只是URI的一種。典型Url的格式如上面所示。下面提到的Url編碼，實(shí)際上應(yīng)該指的是URI編碼。

為什么需要Url編碼

通常如果一樣?xùn)|西需要編碼，說(shuō)明這樣?xùn)|西并不適合傳輸。原因多種多樣，如Size過(guò)大，包含隱私數(shù)據(jù)，對(duì)于Url來(lái)說(shuō)，之所以要進(jìn)行編碼，是因?yàn)閁rl中有些字符會(huì)引起歧義。

例如Url參數(shù)字符串中使用key=value鍵值對(duì)這樣的形式來(lái)傳參，鍵值對(duì)之間以&符號(hào)分隔，如/s?q=abc& ie=utf-8。如果你的value字符串中包含了=或者&，那么勢(shì)必會(huì)造成接收Url的服務(wù)器解析錯(cuò)誤，因此必須將引起歧義的&和= 符號(hào)進(jìn)行轉(zhuǎn)義，也就是對(duì)其進(jìn)行編碼。

又如，Url的編碼格式采用的是ASCII碼，而不是Unicode，這也就是說(shuō)你不能在Url中包含任何非ASCII字符，例如中文。否則如果客戶端瀏覽器和服務(wù)端瀏覽器支持的字符集不同的情況下，中文可能會(huì)造成問(wèn)題。

Url編碼的原則就是使用安全的字符（沒(méi)有特殊用途或者特殊意義的可打印字符）去表示那些不安全的字符。

哪些字符需要編碼

RFC3986文檔規(guī)定，Url中只允許包含英文字母（a-zA-Z）、數(shù)字（0-9）、-_.~4個(gè)特殊字符以及所有保留字符。

RFC3986文檔對(duì)Url的編解碼問(wèn)題做出了詳細(xì)的建議，指出了哪些字符需要被編碼才不會(huì)引起Url語(yǔ)義的轉(zhuǎn)變，以及對(duì)為什么這些字符需要編碼做出了相應(yīng)的解釋。

US-ASCII字符集中沒(méi)有對(duì)應(yīng)的可打印字符

Url中只允許使用可打印字符。US-ASCII碼中的10-7F字節(jié)全都表示控制字符，這些字符都不能直接出現(xiàn)在Url中。同時(shí)，對(duì)于80-FF字節(jié)（ISO-8859-1），由于已經(jīng)超出了US-ACII定義的字節(jié)范圍，因此也不可以放在Url中。

保留字符

Url可以劃分成若干個(gè)組件，協(xié)議、主機(jī)、路徑等。有一些字符（:/?#[]@）是用作分隔不同組件的。例如:冒號(hào)用于分隔協(xié)議和主機(jī)，/用于分隔主機(jī)和路徑，?用于分隔路徑和查詢參數(shù)，等等。還有一些字符（!$&'()*+,;=）用于在每個(gè)組件中起到分隔作用的，如=用于表示查詢參數(shù)中的鍵值對(duì)，&符號(hào)用于分隔查詢多個(gè)鍵值對(duì)。當(dāng)組件中的普通數(shù)據(jù)包含這些特殊字符時(shí)，需要對(duì)其進(jìn)行編碼。

RFC3986中指定了以下字符為保留字符：

!

*

'

(

)

;

:

@

&

=

+

$

,

/

?

#

[

]

不安全字符

還有一些字符，當(dāng)他們直接放在Url中的時(shí)候，可能會(huì)引起解析程序的歧義。這些字符被視為不安全字符，原因有很多。

空格	Url在傳輸?shù)倪^(guò)程，或者用戶在排版的過(guò)程，或者文本處理程序在處理Url的過(guò)程，都有可能引入無(wú)關(guān)緊要的空格，或者將那些有意義的空格給去掉
引號(hào)以及<>	引號(hào)和尖括號(hào)通常用于在普通文本中起到分隔Url的作用
#	通常用于表示書簽或者錨點(diǎn)
%	百分號(hào)本身用作對(duì)不安全字符進(jìn)行編碼時(shí)使用的特殊字符，因此本身需要編碼
{}\|\^[]`~	某一些網(wǎng)關(guān)或者傳輸代理會(huì)篡改這些字符

需要注意的是，對(duì)于Url中的合法字符，編碼和不編碼是等價(jià)的，但是對(duì)于上面提到的這些字符，如果不經(jīng)過(guò)編碼，那么它們有可能會(huì)造成Url語(yǔ)義的不同。因此對(duì)于Url而言，只有普通英文字符和數(shù)字，特殊字符$-_.+!*'()還有保留字符，才能出現(xiàn)在未經(jīng)編碼的Url之中。其他字符均需要經(jīng)過(guò)編碼之后才能出現(xiàn)在Url中。

但是由于歷史原因，目前尚存在一些不標(biāo)準(zhǔn)的編碼實(shí)現(xiàn)。例如對(duì)于~符號(hào)，雖然RFC3986文檔規(guī)定，對(duì)于波浪符號(hào)~，不需要進(jìn)行Url編碼，但是還是有很多老的網(wǎng)關(guān)或者傳輸代理會(huì)

如何對(duì)Url中的非法字符進(jìn)行編碼

Url編碼通常也被稱為百分號(hào)編碼（Url Encoding，also known as percent-encoding），是因?yàn)樗木幋a方式非常簡(jiǎn)單，使用%百分號(hào)加上兩位的字符——0123456789ABCDEF——代表一個(gè)字節(jié)的十六進(jìn)制形式。Url編碼默認(rèn)使用的字符集是US-ASCII。例如a在US-ASCII碼中對(duì)應(yīng)的字節(jié)是0x61，那么Url編碼之后得到的就是%61，我們?cè)诘刂窓谏陷斎雋ttp://g.cn/search?q=%61%62%63，實(shí)際上就等同于在google上搜索abc了。又如@符號(hào) 在ASCII字符集中對(duì)應(yīng)的字節(jié)為0x40，經(jīng)過(guò)Url編碼之后得到的是%40。

常見(jiàn)字符的Url編碼列表：

保留字符的Url編碼
!	*	"	'	(	)	;	:	@	&
%21	%2A	%22	%27	%28	%29	%3B	%3A	%40	%26
=	+	$	,	/	?	%	#	[	]
%3D	%2B	%24	%2C	%2F	%3F	%25	%23	%5B	%5D

對(duì)于非ASCII字符，需要使用ASCII字符集的超集進(jìn)行編碼得到相應(yīng)的字節(jié)，然后對(duì)每個(gè)字節(jié)執(zhí)行百分號(hào)編碼。對(duì)于Unicode字符，RFC文檔建議使用utf-8對(duì)其進(jìn)行編碼得到相應(yīng)的字節(jié)，然后對(duì)每個(gè)字節(jié)執(zhí)行百分號(hào)編碼。如“中文”使用UTF-8字符集得到的字節(jié)為0xE4 0xB8 0xAD 0xE6 0x96 0x87，經(jīng)過(guò)Url編碼之后得到“%E4%B8%AD%E6%96%87”。

如果某個(gè)字節(jié)對(duì)應(yīng)著ASCII字符集中的某個(gè)非保留字符，則此字節(jié)無(wú)需使用百分號(hào)表示。例如“Url編碼”，使用UTF-8編碼得到的字節(jié)是0x55 0x72 0x6C 0xE7 0xBC 0x96 0xE7 0xA0 0x81，由于前三個(gè)字節(jié)對(duì)應(yīng)著ASCII中的非保留字符“Url”，因此這三個(gè)字節(jié)可以用非保留字符“Url”表示。最終的Url編碼可以簡(jiǎn)化成 “Url%E7%BC%96%E7%A0%81” ，當(dāng)然，如果你用"%55%72%6C%E7%BC%96%E7%A0%81”也是可以的。

由于歷史的原因，有一些Url編碼實(shí)現(xiàn)并不完全遵循這樣的原則，下面會(huì)提到。

Javascript中的escape,encodeURI和encodeURIComponent的區(qū)別

Javascript中提供了3對(duì)函數(shù)用來(lái)對(duì)Url編碼以得到合法的Url，它們分別是escape / unescape,encodeURI / decodeURI和encodeURIComponent / decodeURIComponent。由于解碼和編碼的過(guò)程是可逆的，因此這里只解釋編碼的過(guò)程。

這三個(gè)編碼的函數(shù)——escape，encodeURI，encodeURIComponent——都是用于將不安全不合法的Url字符轉(zhuǎn)換為合法的Url字符表示，它們有以下幾個(gè)不同點(diǎn)。

安全字符不同

下面的表格列出了這三個(gè)函數(shù)的安全字符（即函數(shù)不會(huì)對(duì)這些字符進(jìn)行編碼）

	安全字符
escape（69個(gè)）	*/@+-._0-9a-zA-Z
encodeURI（82個(gè)）	!#$&'()*+,/:;=?@-._~0-9a-zA-Z
encodeURIComponent（71個(gè)）	!'()*-._~0-9a-zA-Z

兼容性不同

escape函數(shù)是從Javascript1.0的時(shí)候就存在了，其他兩個(gè)函數(shù)是在Javascript1.5才引入的。但是由于 Javascript1.5已經(jīng)非常普及了，所以實(shí)際上使用encodeURI和encodeURIComponent并不會(huì)有什么兼容性問(wèn)題。

對(duì)Unicode字符的編碼方式不同

這三個(gè)函數(shù)對(duì)于ASCII字符的編碼方式相同，均是使用百分號(hào)+兩位十六進(jìn)制字符來(lái)表示。但是對(duì)于Unicode字符，escape的編碼方式是%uxxxx，其中的xxxx是用來(lái)表示unicode字符的4位十六進(jìn)制字符。這種方式已經(jīng)被W3C廢棄了。但是在ECMA-262標(biāo)準(zhǔn)中仍然保留著escape的這種編碼語(yǔ)法。encodeURI和encodeURIComponent則使用UTF-8對(duì)非ASCII字符進(jìn)行編碼，然后再進(jìn)行百分號(hào)編碼。這是RFC推薦的。因此建議盡可能的使用這兩個(gè)函數(shù)替代escape進(jìn)行編碼。

適用場(chǎng)合不同

encodeURI被用作對(duì)一個(gè)完整的URI進(jìn)行編碼，而encodeURIComponent被用作對(duì)URI的一個(gè)組件進(jìn)行編碼。

從上面提到的安全字符范圍表格來(lái)看，我們會(huì)發(fā)現(xiàn)，encodeURIComponent編碼的字符范圍要比encodeURI的大。我們上面提到過(guò)，保留字符一般是用來(lái)分隔URI組件（一個(gè)URI可以被切割成多個(gè)組件，參考預(yù)備知識(shí)一節(jié)）或者子組件（如URI中查詢參數(shù)的分隔符），如:號(hào)用于分隔 scheme和主機(jī)，?號(hào)用于分隔主機(jī)和路徑。由于encodeURI操縱的對(duì)象是一個(gè)完整的的URI，這些字符在URI中本來(lái)就有特殊用途，因此這些保留字符不會(huì)被encodeURI編碼，否則意義就變了。

組件內(nèi)部有自己的數(shù)據(jù)表示格式，但是這些數(shù)據(jù)內(nèi)部不能包含有分隔組件的保留字符，否則就會(huì)導(dǎo)致整個(gè)URI中組件的分隔混亂。因此對(duì)于單個(gè)組件使用encodeURIComponent，需要編碼的字符就更多了。

表單提交

當(dāng)Html的表單被提交時(shí)，每個(gè)表單域都會(huì)被Url編碼之后才在被發(fā)送。由于歷史的原因，表單使用的Url編碼實(shí)現(xiàn)并不符合最新的標(biāo)準(zhǔn)。例如對(duì)于空格使用的編碼并不是%20，而是+號(hào)，如果表單使用的是Post方法提交的，我們可以在HTTP頭中看到有一個(gè)Content-Type的header，值為application/x-www-form-urlencoded。大部分應(yīng)用程序均能處理這種非標(biāo)準(zhǔn)實(shí)現(xiàn)的Url編碼，但是在客戶端 Javascript中，并沒(méi)有一個(gè)函數(shù)能夠?qū)?號(hào)解碼成空格，只能自己寫轉(zhuǎn)換函數(shù)。還有，對(duì)于非ASCII字符，使用的編碼字符集取決于當(dāng)前文檔使用的字符集。例如我們?cè)贖tml頭部加上

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

這樣瀏覽器就會(huì)使用gb2312去渲染此文檔（注意，當(dāng)HTML文檔中沒(méi)有設(shè)置此meta標(biāo)簽，則瀏覽器會(huì)根據(jù)當(dāng)前用戶喜好去自動(dòng)選擇字符集，用戶也可以強(qiáng)制當(dāng)前網(wǎng)站使用某個(gè)指定的字符集）。當(dāng)提交表單時(shí)，Url編碼使用的字符集就是gb2312。

文檔字符集會(huì)影響encodeURI嗎？

之前在使用Aptana（為什么專指aptana下面會(huì)提到）遇到一個(gè)很迷惑的問(wèn)題，就是在使用encodeURI的時(shí)候，發(fā)現(xiàn)它編碼得到的結(jié)果和我想的很不一樣。下面是我的示例代碼：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml">     
<head>         
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />     
</head>     
<body>         
<script type="text/javascript">             
document.write(encodeURI("中文"));         
</script>     
</body> 
</html>

運(yùn)行結(jié)果輸出%E6%B6%93%EE%85%9F%E6%9E%83。顯然這并不是使用UTF-8字符集進(jìn)行Url編碼得到的結(jié)果（在Google上搜索“中文”，Url中顯示的是%E4%B8%AD%E6%96%87）。

所以我當(dāng)時(shí)就很質(zhì)疑，難道encodeURI還跟頁(yè)面編碼有關(guān)，但是我發(fā)現(xiàn)，正常情況下，如果你使用gb2312進(jìn)行Url編碼也不會(huì)得到這個(gè)結(jié)果的才是。后來(lái)終于被我發(fā)現(xiàn)，原來(lái)是頁(yè)面文件存儲(chǔ)使用的字符集和Meta標(biāo)簽中指定的字符集不一致導(dǎo)致的問(wèn)題。 Aptana的編輯器默認(rèn)情況下使用UTF-8字符集。也就是說(shuō)這個(gè)文件實(shí)際存儲(chǔ)的時(shí)候使用的是UTF-8字符集。但是由于Meta標(biāo)簽中指定了 gb2312，這個(gè)時(shí)候，瀏覽器就會(huì)按照gb2312去解析這個(gè)文檔，那么自然在“中文”這個(gè)字符串這里就會(huì)出錯(cuò)，因?yàn)椤爸形摹弊址肬TF-8編碼過(guò) 后得到的字節(jié)是0xE4 0xB8 0xAD 0xE6 0x96 0x87，這6個(gè)字節(jié)又被瀏覽器拿gb2312去解碼，那么就會(huì)得到另外三個(gè)漢字“涓枃”（GBK中一個(gè)漢字占兩個(gè)字節(jié)），這三個(gè)漢字在傳入 encodeURI函數(shù)之后得到的結(jié)果就是%E6%B6%93%EE%85%9F%E6%9E%83。因此，encodeURI使用的還是UTF-8，并不會(huì)受到頁(yè)面字符集的影響。

其他和Url編碼相關(guān)的問(wèn)題

對(duì)于包含中文的Url的處理問(wèn)題，不同瀏覽器有不同的表現(xiàn)。例如對(duì)于IE，如果你勾選了高級(jí)設(shè)置“總是以UTF-8發(fā)送Url”，那么Url中的路徑部分的中文會(huì)使用UTF-8進(jìn)行Url編碼之后發(fā)送給服務(wù)端，而查詢參數(shù)中的中文部分使用系統(tǒng)默認(rèn)字符集進(jìn)行Url編碼。為了保證最大互操作性，建議所有放到Url中的組件全部顯式指定某個(gè)字符集進(jìn)行Url編碼，而不依賴于瀏覽器的默認(rèn)實(shí)現(xiàn)。

另外，很多HTTP監(jiān)視工具或者瀏覽器地址欄等在顯示Url的時(shí)候會(huì)自動(dòng)將Url進(jìn)行一次解碼（使用UTF-8字符集），這就是為什么當(dāng)你在 Firefox中訪問(wèn)Google搜索中文的時(shí)候，地址欄顯示的Url包含中文的緣故。但實(shí)際上發(fā)送給服務(wù)端的原始Url還是經(jīng)過(guò)編碼的。你可以在地址欄上使用Javascript訪問(wèn)location.href就可以看出來(lái)了。在研究Url編解碼的時(shí)候千萬(wàn)別被這些假象給迷惑了。

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS