快捷導(dǎo)航

Python信息抽取之亂碼解決辦法

更新時(shí)間：2017年06月29日 09:08:07 投稿：lqh

這篇文章主要介紹了Python信息抽取之亂碼解決辦法的相關(guān)資料,需要的朋友可以參考下

Python信息抽取之亂碼解決辦法

就事論事，直說(shuō)自己遇到的情況，和我不一樣的路過(guò)吧，一樣的就看看吧

　　信息抓取，用python,beautifulSoup,lxml,re,urllib2,urllib2去獲取想要抽取的頁(yè)面內(nèi)容，然后使用lxml或者beautifulSoup進(jìn)行解析，插入mysql 具體的內(nèi)容，好了貌似很簡(jiǎn)單很easy的樣子，可是里面的惡心之處就來(lái)了，第一，國(guó)內(nèi)開發(fā)網(wǎng)站的人在指定網(wǎng)站編碼或者是保存網(wǎng)站源碼的時(shí)候并沒有考慮什么編碼，反正一句話，一個(gè)網(wǎng)站即使你用工具查看或者查看源碼頭信息查看到他們的源碼是utf-8,或者GBK之類的，也別信，哎，什么東西信了就遭殃了，即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

　　以下給出一些流程：（具體各個(gè)庫(kù)不是我這里向說(shuō)的哦）

　import urllib2

　　 import chardet

　　html = urllib2.urlopen("某網(wǎng)站")

　 print chardet.detect(html) #這里會(huì)輸出一個(gè)字典{'a':0.99999,'encoding':'utf-8'}

　　好，這整個(gè)html的編碼都知道，該插入以u(píng)tf-8建立的mysql數(shù)據(jù)庫(kù)了吧，但是我就在插入的時(shí)候發(fā)生錯(cuò)誤了，因?yàn)槲沂褂胠xml以后的字符串不是utf-8，而是Big5（繁體字編碼）,還有各種未知編碼EUC-JP(日本語(yǔ)編碼)，OK，我采取了unicode方法，先對(duì)這個(gè)字段進(jìn)行解碼，在進(jìn)行編碼

if chardet.detect(name)['encoding'] == 'GB2312':
　　name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'Big5':
 name = unicode(name,'Big5','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'ascii':
 name = unicode(name,'ascii','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'GBK':
 name = unicode(name,'GBK','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'EUC-JP':
 name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')
else:
  name = '未知'

感謝閱讀，希望能幫助到大家，謝謝大家對(duì)本站的支持！

您可能感興趣的文章:

相關(guān)文章

python中路徑的三種寫法+路徑前符號(hào)含義解讀
這篇文章主要介紹了python中路徑的三種寫法+路徑前符號(hào)含義解讀，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2023-03-03
PyQt5+PyQt5Designer的安裝步驟
本文主要介紹了PyQt5+PyQt5Designer的安裝步驟，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2023-01-01
python爬取w3shcool的JQuery課程并且保存到本地
本文主要介紹python爬取w3shcool的JQuery的課程并且保存到本地的方法解析。具有很好的參考價(jià)值。下面跟著小編一起來(lái)看下吧
2017-04-04
Django完整增刪改查系統(tǒng)實(shí)例代碼
Django實(shí)現(xiàn)增刪改查,主要是依賴于models來(lái)實(shí)現(xiàn)的,下面這篇文章主要給大家介紹了關(guān)于Django完整增刪改查系統(tǒng)的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
2022-08-08
Python計(jì)算IV值的示例講解
今天小編就為大家分享一篇Python計(jì)算IV值的示例講解，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2020-02-02
python 實(shí)現(xiàn)兔子生兔子示例
今天小編就為大家分享一篇python 實(shí)現(xiàn)兔子生兔子示例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2019-11-11
在CMD窗口中調(diào)用python函數(shù)的實(shí)現(xiàn)
本文主要介紹了在CMD窗口中調(diào)用python函數(shù)的實(shí)現(xiàn)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2022-07-07
Python中import機(jī)制詳解
在剛剛接觸python時(shí)，我們會(huì)被其優(yōu)美的格式、簡(jiǎn)潔的語(yǔ)法和無(wú)窮無(wú)盡的類庫(kù)所震撼。在真正的將python應(yīng)用到實(shí)際的項(xiàng)目中，你會(huì)遇到一些無(wú)法避免的問(wèn)題。最讓人困惑不解的問(wèn)題有二類，一個(gè)編碼問(wèn)題，另一個(gè)則是引用問(wèn)題。本文主要討論關(guān)于Python中import的機(jī)制與實(shí)現(xiàn)
2017-11-11
python orm 框架中sqlalchemy用法實(shí)例詳解
這篇文章主要介紹了python orm 框架中sqlalchemy用法,結(jié)合實(shí)例形式詳細(xì)分析了Python orm 框架基本概念、原理及sqlalchemy相關(guān)使用技巧,需要的朋友可以參考下
2020-02-02
python獲取指定時(shí)間段內(nèi)特定規(guī)律的日期列表
這篇文章主要介紹了python獲取指定時(shí)間段內(nèi)特定規(guī)律的日期列表,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2021-04-04