python 采集中文亂碼問題的完美解決方法

更新時間：2016年09月27日 17:50:05 投稿：jingxian

下面小編就為大家?guī)硪黄猵ython 采集中文亂碼問題的完美解決方法。小編覺得挺不錯的，現(xiàn)在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧

近幾日遇到采集某網(wǎng)頁的時候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄

1. 在正常情況下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

來獲取該文件或頁面的編碼方式

或直接抓取頁面的charset = xxxx 來獲取

2. 遇到內(nèi)容中有特殊字符時指定的編碼一樣會造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來處理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二個參數(shù)表示遇到非法字符時所采取的方式

該參數(shù)默認為拋出異常.

以上就是小編為大家?guī)淼膒ython 采集中文亂碼問題的完美解決方法的全部內(nèi)容了，希望對大家有所幫助，多多支持腳本之家~

您可能感興趣的文章:

相關(guān)文章

python包pdfkit(wkhtmltopdf)?將HTML轉(zhuǎn)換為PDF的操作方法
pdfkit，把HTML+CSS格式的文件轉(zhuǎn)換成PDF格式文檔的一種工具。它就是html轉(zhuǎn)成pdf工具包wkhtmltopdf的Python封裝。所以，必須手動安裝wkhtmltopdf,這篇文章主要介紹了python包pdfkit(wkhtmltopdf)將HTML轉(zhuǎn)換為PDF,需要的朋友可以參考下
2022-04-04
Python中常用信號signal類型實例
這篇文章主要介紹了Python中常用信號signal類型實例，分享了相關(guān)代碼示例，小編覺得還是挺不錯的，具有一定借鑒價值，需要的朋友可以參考下
2018-01-01
python定時利用QQ郵件發(fā)送天氣預(yù)報的實例
下面小編就為大家分享一篇python定時利用QQ郵件發(fā)送天氣預(yù)報的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2017-11-11
Python調(diào)用百度AI實現(xiàn)圖片上文字識別功能實例
百度AI功能還是很強大的,百度AI開放平臺真的是測試接口的天堂,免費接口很多,當(dāng)然有量的限制,但個人使用是完全夠用的,下面這篇文章主要給大家介紹了關(guān)于Python調(diào)用百度AI實現(xiàn)圖片上文字識別功能的相關(guān)資料,需要的朋友可以參考下
2021-09-09
python求定積分之quad函數(shù)詳解
這篇文章主要介紹了python求定積分之quad函數(shù)詳解,SciPy下實現(xiàn)求函數(shù)的積分的函數(shù)的基本使用，積分，高等數(shù)學(xué)里有大量的講述，基本意思就是求曲線下面積之和,需要的朋友可以參考下
2023-08-08
Python Pygame實戰(zhàn)之趣味籃球游戲的實現(xiàn)
這篇文章主要為大家分享了一個基于Python和Pygame實現(xiàn)的一個趣味籃球游戲，文中的示例代碼講解詳細，對我們學(xué)習(xí)Python有一定幫助，需要的可以參考一下
2022-04-04
python33 urllib2使用方法細節(jié)講解
Python 標(biāo)準庫中有很多實用的工具類，這里總結(jié)一些 urllib2 的使用細節(jié)：Proxy 的設(shè)置、Timeout 設(shè)置、在 HTTP Request 中加入特定的、Cookie、使用 HTTP 的 PUT 和 DELETE 方法
2013-12-12
pycharm下打開、執(zhí)行并調(diào)試scrapy爬蟲程序的方法
本篇文章主要介紹了pycharm下打開、執(zhí)行并調(diào)試scrapy爬蟲程序的方法，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-11-11
Python讀取串口數(shù)據(jù)的實現(xiàn)方法
本文主要介紹了Python讀取串口數(shù)據(jù)的實現(xiàn)方法,可以使用pySerial庫來讀取串口數(shù)據(jù),具有一定的參考價值,感興趣的可以了解一下
2024-02-02
在Python反編譯中批量pyc轉(zhuǎn)?py的實現(xiàn)代碼
這篇文章主要介紹了在Python反編譯中批量pyc轉(zhuǎn)?py的實現(xiàn)代碼，代碼簡單易懂，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
2022-02-02