快捷導(dǎo)航

python處理中文編碼和判斷編碼示例

更新時(shí)間：2014年02月26日 11:22:03 作者：

在開發(fā)自用爬蟲過程中，有的網(wǎng)頁是utf-8，有的是gb2312,有的是gbk，如果不加處理，采集到的都是亂碼，解決的方法是將html處理成統(tǒng)一的utf-8編碼

下面所說的都是針對(duì)python2.7

#coding:utf-8
#chardet 需要下載安裝

import chardet
#抓取網(wǎng)頁html
line = "http://www.***.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
#print html_1
encoding_dict = chardet.detect(html_1)
#print encoding
web_encoding = encoding_dict['encoding']
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':

html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')

#有以上處理，整個(gè)html就不會(huì)是亂碼。

您可能感興趣的文章:

相關(guān)文章

Django應(yīng)用程序中如何發(fā)送電子郵件詳解
我們常常會(huì)用到一些發(fā)送郵件的功能，比如有人提交了應(yīng)聘的表單，可以向HR的郵箱發(fā)郵件，這樣，HR不看網(wǎng)站就可以知道有人在網(wǎng)站上提交了應(yīng)聘信息。下面這篇文章就介紹了在Django應(yīng)用程序中如何發(fā)送電子郵件的相關(guān)資料,需要的朋友可以參考借鑒。
2017-02-02
Python打包文件執(zhí)行報(bào)錯(cuò)：ModuleNotFoundError: No module
這篇文章給大家介紹了Python打包文件執(zhí)行報(bào)錯(cuò)：ModuleNotFoundError: No module named ‘pymssql‘的解決方法,如果有遇到相同問題的朋友可以參考閱讀一下本文
2023-10-10
Python進(jìn)階學(xué)習(xí)修改閉包內(nèi)使用的外部變量
這篇文章主要為大家介紹了Python進(jìn)階學(xué)習(xí)修改閉包內(nèi)使用的外部變量實(shí)現(xiàn)示例，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪
2022-06-06
Python multiprocessing 進(jìn)程間通信方式實(shí)現(xiàn)
本文主要介紹了Python multiprocessing 進(jìn)程間通信方式實(shí)現(xiàn)，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2023-02-02
Python和Ruby中each循環(huán)引用變量問題（一個(gè)隱秘BUG?）
這篇文章主要介紹了Python和Ruby中each循環(huán)引用變量問題,類似PHP的foreach中使用引用變量的問題,需要的朋友可以參考下
2014-06-06
Python 函數(shù)list&read&seek詳解
這篇文章主要介紹了Python 函數(shù)list&read&seek詳解,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-08-08
python?教程之blinker?信號(hào)庫
這篇文章主要介紹了python?教程之blinker?信號(hào)庫，文章基于python的相關(guān)資料展開詳細(xì)的內(nèi)容說明。具有一定的參考價(jià)價(jià)值，需要的小伙伴可以參考一下
2022-05-05
python3使用騰訊企業(yè)郵箱發(fā)送郵件的實(shí)例
今天小編就為大家分享一篇python3使用騰訊企業(yè)郵箱發(fā)送郵件的實(shí)例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2019-06-06
對(duì)pytorch的函數(shù)中的group參數(shù)的作用介紹
今天小編就為大家分享一篇對(duì)pytorch的函數(shù)中的group參數(shù)的作用介紹，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
django數(shù)據(jù)模型（Model）的字段類型解析
這篇文章主要介紹了django數(shù)據(jù)模型（Model）的字段類型,文中給大家提到了django數(shù)據(jù)模型on_delete, db_constraint的使用,需要的朋友可以參考下
2019-12-12