欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python3中編碼獲取網(wǎng)頁(yè)的實(shí)例方法

 更新時(shí)間:2020年11月16日 08:34:01   作者:PYCN  
在本篇文章里小編給大家整理了一篇關(guān)于python3中編碼獲取網(wǎng)頁(yè)的實(shí)例方法,有興趣的朋友們可以學(xué)習(xí)下。

學(xué)了python后,之前一些我們常用的方法,也可以換一種思路用python中的知識(shí)來(lái)解決。相信操作出來(lái)后,能收獲一大批小粉絲們。就像我們沒(méi)學(xué)習(xí)編程之前,看到那種大神都是可望而不可即。今天我們就之前簡(jiǎn)單獲取網(wǎng)頁(yè)的這種操作用python中的編碼來(lái)解決,大家可以自行體會(huì)一下兩者的不同。

1. encoding和apparent_encoding

import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#獲取響應(yīng)頭Content-Type的charset值,有的網(wǎng)站沒(méi)有charset字段,就可能使用默認(rèn)的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是獲取網(wǎng)站真實(shí)的編碼
print(re.apparent_encoding)

2. 處理方案

直接用r.encoding = ‘xxx'

re.encoding='utf-8'

3. requests的text() 跟 content() 有什么區(qū)別

re.text返回的是處理過(guò)的Unicode型的數(shù)據(jù),

而使用re.content返回的是bytes型的原始數(shù)據(jù)。

4. 爬蟲拿到的HTML和瀏覽器中的源碼不相同時(shí)

通過(guò)下載源碼對(duì)比

import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

 

到此這篇關(guān)于python3中編碼獲取網(wǎng)頁(yè)的實(shí)例方法的文章就介紹到這了,更多相關(guān)python3中編碼如何獲取網(wǎng)頁(yè)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評(píng)論