python的urllib.parse用法及說明

更新時間：2023年09月15日 15:03:09 作者：alwaysPractice

這篇文章主要介紹了python的urllib.parse用法及說明,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教

python的urllib.parse用法

urllib.parse解析

url:urllib.parse.urlparse(url, scheme&#61;&#39;&#39;, allow_fragments&#61;True)
url:urllib.parse.urlparse(url, scheme='', allow_fragments=True)

簡單的使用：

urlparse

from urllib import request, parse2 #解析url
print(parse.urlparse('https://movie.douban.com/'))
print(parse.urlparse('https://movie.douban.com/', scheme='http'))
print(parse.urlparse('movie.douban.com/', scheme='http'))
# 下面是結果
ParseResult(scheme='https', netloc='movie.douban.com', path='/', params='', query='', fragment='')
ParseResult(scheme='https', netloc='movie.douban.com', path='/', params='', query='', fragment='')
ParseResult(scheme='http', netloc='', path='movie.douban.com/', params='', query='', fragment='')

可以看出加了scheme參數和沒加的返回結果是有區(qū)別的。

而當scheme協(xié)議加了，而前面的url也包含協(xié)議，一般會忽略后面的scheme參數

既然有解析url，那當然也有反解析url，就是把元素串連成一個url

from urllib import parse
# 將列表元素拼接成url
url = ['http', 'www', 'baidu', 'com', 'dfdf', 'eddffa'] # 這里至少需要6個元素
print(parse.urlunparse(url))
# 下面是結果6http://www/baidu;com?dfdf#eddffa

urlunparse()接收一個列表的參數，而且列表的長度是有要求的，是必須六個參數以上，要不會拋出異常

urllib.parse.urljoin():這個是將第二個參數的url缺少的部分用第一個參數的url補齊

# 連接兩個參數的url, 將第二個參數中缺的部分用第一個參數的補齊,如果第二個有完整的路徑，則以第二個為主
print(parse.urljoin('https://movie.douban.com/', 'index'))
print(parse.urljoin('https://movie.douban.com/', 'https://accounts.douban.com/login'))
# 下面是結果
https://movie.douban.com/index6     https://accounts.douban.com/login

urlencodeurllib庫里面有個urlencode函數，可以把key-value這樣的鍵值對轉換成我們想要的格式，返回的是a=1&b=2這樣的字符串，比如：

>>> from urllib import urlencode
>>> data = {
...     'a': 'test',
...     'name': '魔獸'
... }
>>> print urlencode(data)
a=test&amp;name=%C4%A7%CA%DE
如果只想對一個字符串進行urlencode轉換，怎么辦？urllib提供另外一個函數：quote()
>>> from urllib import quote
>>> quote('魔獸')
'%C4%A7%CA%DE'

urldecode當urlencode之后的字符串傳遞過來之后，接受完畢就要解碼了——urldecode。urllib提供了unquote()這個函數，可沒有urldecode()！

>>> from urllib import unquote
>>> unquote('%C4%A7%CA%DE')
'\xc4\xa7\xca\xde'
>>> print unquote('%C4%A7%CA%DE')
魔獸

urllib.parse模塊

python中提供urllib.parse模塊用來編碼和解碼，分別是urlencode()與unquote()

編碼urlencode()

# 導入parse模塊
from urllib import parse
#調用parse模塊的urlencode()進行編碼
query_string = {'wd':'爬蟲'}
result = parse.urlencode(query_string)
# format函數格式化字符串，進行url拼接
url = 'http://www.baidu.com/s?{}'.format(result)
print(url)

對url地址的編碼操作

編碼quote(string)

from urllib import parse
url = "http://www.baidu.com/s?wd={}"
words = input('請輸入內容')
#quote()只能對字符串進行編碼
query_string = parse.quote(words)
url = url.format(query_string)
print(url)

quote()只能對字符串編碼，而urlencode()可以對查詢字符串進行編碼。

解碼unquote(string)

from urllib import parse
string = '%E7%88%AC%E8%99%AB'
result = parse.unquote(string)
print(result)

解碼就是對編碼后的url進行還原

URL地址拼接方式

字符串相加

 query1= 'http://www.baidu.com/s?'
 query2='wd=%E7%88%AC%E8%99%AB'
 url = query1 + query2

字符串格式化

  query2='wd=%E7%88%AC%E8%99%AB'
  url = 'http://www.baidu.com/s?%s'% query2

format()

# 導入parse模塊
from urllib import parse
#調用parse模塊的urlencode()進行編碼
query_string = {'wd':'爬蟲'}
result = parse.urlencode(query_string)
# format函數格式化字符串，進行url拼接
url = 'http://www.baidu.com/s?{}'.format(result)
print(url)