快捷導(dǎo)航

Python爬蟲基于lxml解決數(shù)據(jù)編碼亂碼問題

更新時間：2020年07月31日 08:30:58 作者：This_is_Y

這篇文章主要介紹了Python爬蟲基于lxml解決數(shù)據(jù)編碼亂碼問題,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下

lxml是python的一個解析庫，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高

XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文檔中查找信息的語言，它最初是用來搜尋XML文檔的，但是它同樣適用于HTML文檔的搜索

XPath的選擇功能十分強(qiáng)大，它提供了非常簡明的路徑選擇表達(dá)式，另外，它還提供了超過100個內(nèi)建函數(shù)，用于字符串、數(shù)值、時間的匹配以及節(jié)點(diǎn)、序列的處理等，幾乎所有我們想要定位的節(jié)點(diǎn)，都可以用XPath來選擇

XPath于1999年11月16日成為W3C標(biāo)準(zhǔn)，它被設(shè)計為供XSLT、XPointer以及其他XML解析軟件使用，更多的文檔可以訪問其官方網(wǎng)站：https://www.w3.org/TR/xpath/

問題狀況：

response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0]
print(name)

可以正常獲取數(shù)據(jù)，但是結(jié)果是

å·²éªŒè¯ å®‰å…¨ ç›¾ç‰Œ

這樣子的亂碼

解決方法：

name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode('ISO-8859-1').decode('UTF-8')

這邊的UTF-8根據(jù)網(wǎng)頁編碼情況而定

看網(wǎng)頁編碼情況

F12

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

python Opencv將圖片轉(zhuǎn)為字符畫
這篇文章主要為大家詳細(xì)介紹了python Opencv將圖片轉(zhuǎn)為字符畫的方法，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-03-03
PyQt5 對圖片進(jìn)行縮放的實(shí)例
今天小編就為大家分享一篇PyQt5 對圖片進(jìn)行縮放的實(shí)例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-06-06
python 網(wǎng)絡(luò)編程要點(diǎn)總結(jié)
Python 提供了兩個級別訪問的網(wǎng)絡(luò)服務(wù)：低級別的網(wǎng)絡(luò)服務(wù)支持基本的 Socket，它提供了標(biāo)準(zhǔn)的 BSD Sockets API，可以訪問底層操作系統(tǒng) Socket 接口的全部方法。高級別的網(wǎng)絡(luò)服務(wù)模塊SocketServer，它提供了服務(wù)器中心類，可以簡化網(wǎng)絡(luò)服務(wù)器的開發(fā)。下面看下該如何使用
2021-06-06
Python多線程采集二手房源數(shù)據(jù)信息流程詳解
這篇文章主要介紹了Python多線程采集二手房源數(shù)據(jù)信息流程，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)吧
2023-05-05
Pycharm pyuic5實(shí)現(xiàn)將ui文件轉(zhuǎn)為py文件,讓UI界面成功顯示
這篇文章主要介紹了Pycharm pyuic5實(shí)現(xiàn)將ui文件轉(zhuǎn)為py文件,讓UI界面成功顯示，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-04-04
python tkinter實(shí)現(xiàn)定時關(guān)機(jī)
這篇文章主要為大家詳細(xì)介紹了python tkinter實(shí)現(xiàn)定時關(guān)機(jī)，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-04-04
Python實(shí)現(xiàn)五子棋聯(lián)機(jī)對戰(zhàn)小游戲
本文主要介紹了通過Python實(shí)現(xiàn)簡單的支持聯(lián)機(jī)對戰(zhàn)的游戲——支持局域網(wǎng)聯(lián)機(jī)對戰(zhàn)的五子棋小游戲。廢話不多說，快來跟隨小編一起學(xué)習(xí)吧
2021-12-12
Python faker生成器生成虛擬數(shù)據(jù)代碼實(shí)例
這篇文章主要介紹了Python faker生成器生成虛擬數(shù)據(jù)代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2020-07-07
解決ImportError:cannot import name ‘Flatten‘&nb
這篇文章主要介紹了解決ImportError:cannot import name ‘Flatten‘ from ‘torch.nn‘問題，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2023-06-06
Python中的字典遍歷備忘
這篇文章主要介紹了Python中的字典遍歷備忘,本文列舉了多種字典遍歷方法,適合初學(xué)者查看,并簡單講解了interitems和iterms區(qū)別,需要的朋友可以參考下
2015-01-01