欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python信息抽取之亂碼解決辦法

 更新時間:2017年06月29日 09:08:07   投稿:lqh  
這篇文章主要介紹了Python信息抽取之亂碼解決辦法的相關(guān)資料,需要的朋友可以參考下

Python信息抽取之亂碼解決辦法

就事論事,直說自己遇到的情況,和我不一樣的路過吧,一樣的就看看吧

  信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去獲取想要抽取的頁面內(nèi)容,然后使用lxml或者beautifulSoup進行解析,插入mysql 具體的內(nèi)容,好了貌似很簡單很easy的樣子,可是里面的惡心之處就來了,第一,國內(nèi)開發(fā)網(wǎng)站的人在指定網(wǎng)站編碼或者是保存網(wǎng)站源碼的時候并沒有考慮什么編碼,反正一句話,一個網(wǎng)站即使你用工具查看或者查看源碼頭信息查看到他們的源碼是utf-8,或者GBK之類的,也別信,哎,什么東西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

  以下給出一些流程:(具體各個庫不是我這里向說的哦)

 import urllib2

   import chardet

  html = urllib2.urlopen("某網(wǎng)站")

  print chardet.detect(html) #這里會輸出一個字典{'a':0.99999,'encoding':'utf-8'}

  好,這整個html的編碼都知道,該插入以utf-8建立的mysql數(shù)據(jù)庫了吧,但是我就在插入的時候發(fā)生錯誤了,因為我使用lxml以后的字符串不是utf-8,而是Big5(繁體字編碼),還有各種未知編碼EUC-JP(日本語編碼),OK,我采取了unicode方法,先對這個字段進行解碼,在進行編碼

if chardet.detect(name)['encoding'] == 'GB2312':
  name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'Big5':
 name = unicode(name,'Big5','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'ascii':
 name = unicode(name,'ascii','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'GBK':
 name = unicode(name,'GBK','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'EUC-JP':
 name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')
else:
  name = '未知'

感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!

相關(guān)文章

  • python中路徑的三種寫法+路徑前符號含義解讀

    python中路徑的三種寫法+路徑前符號含義解讀

    這篇文章主要介紹了python中路徑的三種寫法+路徑前符號含義解讀,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • PyQt5+PyQt5Designer的安裝步驟

    PyQt5+PyQt5Designer的安裝步驟

    本文主要介紹了PyQt5+PyQt5Designer的安裝步驟,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-01-01
  • python爬取w3shcool的JQuery課程并且保存到本地

    python爬取w3shcool的JQuery課程并且保存到本地

    本文主要介紹python爬取w3shcool的JQuery的課程并且保存到本地的方法解析。具有很好的參考價值。下面跟著小編一起來看下吧
    2017-04-04
  • Django完整增刪改查系統(tǒng)實例代碼

    Django完整增刪改查系統(tǒng)實例代碼

    Django實現(xiàn)增刪改查,主要是依賴于models來實現(xiàn)的,下面這篇文章主要給大家介紹了關(guān)于Django完整增刪改查系統(tǒng)的相關(guān)資料,文中通過實例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-08-08
  • Python計算IV值的示例講解

    Python計算IV值的示例講解

    今天小編就為大家分享一篇Python計算IV值的示例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • python 實現(xiàn)兔子生兔子示例

    python 實現(xiàn)兔子生兔子示例

    今天小編就為大家分享一篇python 實現(xiàn)兔子生兔子示例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-11-11
  • 在CMD窗口中調(diào)用python函數(shù)的實現(xiàn)

    在CMD窗口中調(diào)用python函數(shù)的實現(xiàn)

    本文主要介紹了在CMD窗口中調(diào)用python函數(shù)的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2022-07-07
  • Python中import機制詳解

    Python中import機制詳解

    在剛剛接觸python時,我們會被其優(yōu)美的格式、簡潔的語法和無窮無盡的類庫所震撼。在真正的將python應(yīng)用到實際的項目中,你會遇到一些無法避免的問題。最讓人困惑不解的問題有二類,一個編碼問題,另一個則是引用問題。本文主要討論關(guān)于Python中import的機制與實現(xiàn)
    2017-11-11
  • python orm 框架中sqlalchemy用法實例詳解

    python orm 框架中sqlalchemy用法實例詳解

    這篇文章主要介紹了python orm 框架中sqlalchemy用法,結(jié)合實例形式詳細(xì)分析了Python orm 框架基本概念、原理及sqlalchemy相關(guān)使用技巧,需要的朋友可以參考下
    2020-02-02
  • python獲取指定時間段內(nèi)特定規(guī)律的日期列表

    python獲取指定時間段內(nèi)特定規(guī)律的日期列表

    這篇文章主要介紹了python獲取指定時間段內(nèi)特定規(guī)律的日期列表,本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-04-04

最新評論