欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python處理中文編碼和判斷編碼示例

 更新時(shí)間:2014年02月26日 11:22:03   作者:  
在開發(fā)自用爬蟲過程中,有的網(wǎng)頁是utf-8,有的是gb2312,有的是gbk,如果不加處理,采集到的都是亂碼,解決的方法是將html處理成統(tǒng)一的utf-8編碼

下面所說的都是針對python2.7

復(fù)制代碼 代碼如下:

#coding:utf-8
#chardet 需要下載安裝

import chardet
#抓取網(wǎng)頁html
line = "http://www.***.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
#print html_1
encoding_dict = chardet.detect(html_1)
#print encoding
web_encoding = encoding_dict['encoding']
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':

  html = html_1
else :
   html = html_1.decode('gbk','ignore').encode('utf-8')

#有以上處理,整個(gè)html就不會是亂碼。

相關(guān)文章

最新評論