python 采集中文亂碼問題的完美解決方法
近幾日遇到采集某網(wǎng)頁的時候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄
1. 在正常情況下..可以用
import chardet thischarset = chardet.detect(strs)["encoding"]
來獲取該文件或頁面的編碼方式
或直接抓取頁面的charset = xxxx 來獲取
2. 遇到內(nèi)容中有特殊字符時指定的編碼一樣會造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來處理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8")
decode的第二個參數(shù)表示遇到非法字符時所采取的方式
該參數(shù)默認為拋出異常.
以上就是小編為大家?guī)淼膒ython 采集中文亂碼問題的完美解決方法的全部內(nèi)容了,希望對大家有所幫助,多多支持腳本之家~
相關文章
python包pdfkit(wkhtmltopdf)?將HTML轉換為PDF的操作方法
pdfkit,把HTML+CSS格式的文件轉換成PDF格式文檔的一種工具。它就是html轉成pdf工具包wkhtmltopdf的Python封裝。所以,必須手動安裝wkhtmltopdf,這篇文章主要介紹了python包pdfkit(wkhtmltopdf)將HTML轉換為PDF,需要的朋友可以參考下2022-04-04Python調用百度AI實現(xiàn)圖片上文字識別功能實例
百度AI功能還是很強大的,百度AI開放平臺真的是測試接口的天堂,免費接口很多,當然有量的限制,但個人使用是完全夠用的,下面這篇文章主要給大家介紹了關于Python調用百度AI實現(xiàn)圖片上文字識別功能的相關資料,需要的朋友可以參考下2021-09-09Python Pygame實戰(zhàn)之趣味籃球游戲的實現(xiàn)
這篇文章主要為大家分享了一個基于Python和Pygame實現(xiàn)的一個趣味籃球游戲,文中的示例代碼講解詳細,對我們學習Python有一定幫助,需要的可以參考一下2022-04-04pycharm下打開、執(zhí)行并調試scrapy爬蟲程序的方法
本篇文章主要介紹了pycharm下打開、執(zhí)行并調試scrapy爬蟲程序的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-11-11Python讀取串口數(shù)據(jù)的實現(xiàn)方法
本文主要介紹了Python讀取串口數(shù)據(jù)的實現(xiàn)方法,可以使用pySerial庫來讀取串口數(shù)據(jù),具有一定的參考價值,感興趣的可以了解一下2024-02-02在Python反編譯中批量pyc轉?py的實現(xiàn)代碼
這篇文章主要介紹了在Python反編譯中批量pyc轉?py的實現(xiàn)代碼,代碼簡單易懂,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-02-02