欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python處理中文編碼和判斷編碼示例

 更新時間:2014年02月26日 11:22:03   作者:  
在開發(fā)自用爬蟲過程中,有的網(wǎng)頁是utf-8,有的是gb2312,有的是gbk,如果不加處理,采集到的都是亂碼,解決的方法是將html處理成統(tǒng)一的utf-8編碼

下面所說的都是針對python2.7

復(fù)制代碼 代碼如下:

#coding:utf-8
#chardet 需要下載安裝

import chardet
#抓取網(wǎng)頁html
line = "http://www.***.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
#print html_1
encoding_dict = chardet.detect(html_1)
#print encoding
web_encoding = encoding_dict['encoding']
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':

  html = html_1
else :
   html = html_1.decode('gbk','ignore').encode('utf-8')

#有以上處理,整個html就不會是亂碼。

相關(guān)文章

  • Django應(yīng)用程序中如何發(fā)送電子郵件詳解

    Django應(yīng)用程序中如何發(fā)送電子郵件詳解

    我們常常會用到一些發(fā)送郵件的功能,比如有人提交了應(yīng)聘的表單,可以向HR的郵箱發(fā)郵件,這樣,HR不看網(wǎng)站就可以知道有人在網(wǎng)站上提交了應(yīng)聘信息。下面這篇文章就介紹了在Django應(yīng)用程序中如何發(fā)送電子郵件的相關(guān)資料,需要的朋友可以參考借鑒。
    2017-02-02
  • Python打包文件執(zhí)行報錯:ModuleNotFoundError: No module named ‘pymssql‘的解決方法

    Python打包文件執(zhí)行報錯:ModuleNotFoundError: No module 

    這篇文章給大家介紹了Python打包文件執(zhí)行報錯:ModuleNotFoundError: No module named ‘pymssql‘的解決方法,如果有遇到相同問題的朋友可以參考閱讀一下本文
    2023-10-10
  • Python進(jìn)階學(xué)習(xí)修改閉包內(nèi)使用的外部變量

    Python進(jìn)階學(xué)習(xí)修改閉包內(nèi)使用的外部變量

    這篇文章主要為大家介紹了Python進(jìn)階學(xué)習(xí)修改閉包內(nèi)使用的外部變量實現(xiàn)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-06-06
  • Python multiprocessing 進(jìn)程間通信方式實現(xiàn)

    Python multiprocessing 進(jìn)程間通信方式實現(xiàn)

    本文主要介紹了Python multiprocessing 進(jìn)程間通信方式實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02
  • Python和Ruby中each循環(huán)引用變量問題(一個隱秘BUG?)

    Python和Ruby中each循環(huán)引用變量問題(一個隱秘BUG?)

    這篇文章主要介紹了Python和Ruby中each循環(huán)引用變量問題,類似PHP的foreach中使用引用變量的問題,需要的朋友可以參考下
    2014-06-06
  • Python 函數(shù)list&read&seek詳解

    Python 函數(shù)list&read&seek詳解

    這篇文章主要介紹了Python 函數(shù)list&read&seek詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-08-08
  • python?教程之blinker?信號庫

    python?教程之blinker?信號庫

    這篇文章主要介紹了python?教程之blinker?信號庫,文章基于python的相關(guān)資料展開詳細(xì)的內(nèi)容說明。具有一定的參考價價值,需要的小伙伴可以參考一下
    2022-05-05
  • python3使用騰訊企業(yè)郵箱發(fā)送郵件的實例

    python3使用騰訊企業(yè)郵箱發(fā)送郵件的實例

    今天小編就為大家分享一篇python3使用騰訊企業(yè)郵箱發(fā)送郵件的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06
  • 對pytorch的函數(shù)中的group參數(shù)的作用介紹

    對pytorch的函數(shù)中的group參數(shù)的作用介紹

    今天小編就為大家分享一篇對pytorch的函數(shù)中的group參數(shù)的作用介紹,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • django數(shù)據(jù)模型(Model)的字段類型解析

    django數(shù)據(jù)模型(Model)的字段類型解析

    這篇文章主要介紹了django數(shù)據(jù)模型(Model)的字段類型,文中給大家提到了django數(shù)據(jù)模型on_delete, db_constraint的使用,需要的朋友可以參考下
    2019-12-12

最新評論