python 采集中文亂碼問題的完美解決方法
近幾日遇到采集某網(wǎng)頁(yè)的時(shí)候大部分網(wǎng)頁(yè)OK,少部分網(wǎng)頁(yè)出現(xiàn)亂碼的問題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄
1. 在正常情況下..可以用
import chardet thischarset = chardet.detect(strs)["encoding"]
來獲取該文件或頁(yè)面的編碼方式
或直接抓取頁(yè)面的charset = xxxx 來獲取
2. 遇到內(nèi)容中有特殊字符時(shí)指定的編碼一樣會(huì)造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來處理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8")
decode的第二個(gè)參數(shù)表示遇到非法字符時(shí)所采取的方式
該參數(shù)默認(rèn)為拋出異常.
以上就是小編為大家?guī)淼膒ython 采集中文亂碼問題的完美解決方法的全部?jī)?nèi)容了,希望對(duì)大家有所幫助,多多支持腳本之家~
相關(guān)文章
python包pdfkit(wkhtmltopdf)?將HTML轉(zhuǎn)換為PDF的操作方法
pdfkit,把HTML+CSS格式的文件轉(zhuǎn)換成PDF格式文檔的一種工具。它就是html轉(zhuǎn)成pdf工具包wkhtmltopdf的Python封裝。所以,必須手動(dòng)安裝wkhtmltopdf,這篇文章主要介紹了python包pdfkit(wkhtmltopdf)將HTML轉(zhuǎn)換為PDF,需要的朋友可以參考下2022-04-04Python中常用信號(hào)signal類型實(shí)例
這篇文章主要介紹了Python中常用信號(hào)signal類型實(shí)例,分享了相關(guān)代碼示例,小編覺得還是挺不錯(cuò)的,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01python定時(shí)利用QQ郵件發(fā)送天氣預(yù)報(bào)的實(shí)例
下面小編就為大家分享一篇python定時(shí)利用QQ郵件發(fā)送天氣預(yù)報(bào)的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2017-11-11Python調(diào)用百度AI實(shí)現(xiàn)圖片上文字識(shí)別功能實(shí)例
百度AI功能還是很強(qiáng)大的,百度AI開放平臺(tái)真的是測(cè)試接口的天堂,免費(fèi)接口很多,當(dāng)然有量的限制,但個(gè)人使用是完全夠用的,下面這篇文章主要給大家介紹了關(guān)于Python調(diào)用百度AI實(shí)現(xiàn)圖片上文字識(shí)別功能的相關(guān)資料,需要的朋友可以參考下2021-09-09Python Pygame實(shí)戰(zhàn)之趣味籃球游戲的實(shí)現(xiàn)
這篇文章主要為大家分享了一個(gè)基于Python和Pygame實(shí)現(xiàn)的一個(gè)趣味籃球游戲,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)Python有一定幫助,需要的可以參考一下2022-04-04python33 urllib2使用方法細(xì)節(jié)講解
Python 標(biāo)準(zhǔn)庫(kù)中有很多實(shí)用的工具類,這里總結(jié)一些 urllib2 的使用細(xì)節(jié):Proxy 的設(shè)置、Timeout 設(shè)置、在 HTTP Request 中加入特定的 、Cookie、使用 HTTP 的 PUT 和 DELETE 方法2013-12-12pycharm下打開、執(zhí)行并調(diào)試scrapy爬蟲程序的方法
本篇文章主要介紹了pycharm下打開、執(zhí)行并調(diào)試scrapy爬蟲程序的方法,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-11-11Python讀取串口數(shù)據(jù)的實(shí)現(xiàn)方法
本文主要介紹了Python讀取串口數(shù)據(jù)的實(shí)現(xiàn)方法,可以使用pySerial庫(kù)來讀取串口數(shù)據(jù),具有一定的參考價(jià)值,感興趣的可以了解一下2024-02-02在Python反編譯中批量pyc轉(zhuǎn)?py的實(shí)現(xiàn)代碼
這篇文章主要介紹了在Python反編譯中批量pyc轉(zhuǎn)?py的實(shí)現(xiàn)代碼,代碼簡(jiǎn)單易懂,對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-02-02