快捷導(dǎo)航

python抓取網(wǎng)頁(yè)時(shí)字符集轉(zhuǎn)換問題處理方案分享

更新時(shí)間：2014年06月19日 09:45:07 投稿：hebedich

python學(xué)習(xí)過程中發(fā)現(xiàn)英文不好學(xué)起來(lái)挺困難的，其中小弟就遇到一個(gè)十分蛋疼的問題，百度了半天就沒找到解決辦法~囧~摸索了半天自己解決了，記錄下來(lái)與君共勉。

問題提出：

有時(shí)候我們采集網(wǎng)頁(yè)，處理完畢后將字符串保存到文件或者寫入數(shù)據(jù)庫(kù)，這時(shí)候需要制定字符串的編碼，如果采集網(wǎng)頁(yè)的編碼是gb2312，而我們的數(shù)據(jù)庫(kù)是utf-8的，這樣不做任何處理直接插入數(shù)據(jù)庫(kù)可能會(huì)亂碼(沒測(cè)試過，不知道數(shù)據(jù)庫(kù)會(huì)不會(huì)自動(dòng)轉(zhuǎn)碼)，我們需要手動(dòng)將gb2312轉(zhuǎn)換成utf-8。

首先我們知道，python里的字符默認(rèn)是ascii碼，英文當(dāng)然沒問題啦，碰到中文的時(shí)候立馬給跪。

不知道你還記不記得，python里打印中文漢字的時(shí)候需要在字符串前面加 u：

print u"來(lái)搞基嗎？"

這樣子中文才能顯示，這里面的u的作用就是將后面的字符串轉(zhuǎn)換為unicode碼，這樣中文才能得到正確的顯示。
這里與之相關(guān)的有一個(gè)unicode()函數(shù)，用法如下

str="來(lái)搞基"
str=unicode(str,"utf-8")
print str

與u的區(qū)別是，這里用unicode將str轉(zhuǎn)換為unicode編碼，需要正確指定第二個(gè)參數(shù)，這里的utf-8是我test.py腳本自身的文件字符集，默認(rèn)的可能是ansi。
unicode這是一個(gè)關(guān)鍵，下面繼續(xù)

我們開始抓取百度首頁(yè)，注意，游客訪問百度首頁(yè)，查看網(wǎng)頁(yè)源代碼，它的charset=gb2312。

import urllib2
def main():
  f=urllib2.urlopen("http://www.baidu.com")
  str=f.read()
  str=unicode(str,"gb2312")
  fp=open("baidu.html","w")
  fp.write(str.encode("utf-8"))
  fp.close()

if __name__ == '__main__' :
  main()

解釋：
我們首先用urllib2.urlopen()方法將百度首頁(yè)抓取到，f是句柄，用str=f.read()將所有源代碼讀入str中

搞清楚,str里面就是我們抓取的html源代碼，由于網(wǎng)頁(yè)默認(rèn)的字符集是gb2312，所以如果我們直接保存到文件中，文件編碼將是ansi。

對(duì)于大部分人來(lái)說，其實(shí)這就足夠了，但是有時(shí)候我就想把gb2312轉(zhuǎn)換成utf-8的該怎么辦呢？

首先：
str=unicode(str,"gb2312") #這里的gb2312就是str的實(shí)際字符集，我們現(xiàn)在將其轉(zhuǎn)換成unicode

然后：
str=str.encode("utf-8") #將unicode的字符串重新編碼成utf-8

最后：

將str寫入到文件中，打開文件看一下編碼屬性，發(fā)現(xiàn)是utf-8的了，把<meta charset="gb2312"改成<meta charset="utf-8" ，就是一個(gè)utf-8的網(wǎng)頁(yè)了。做了這么多其實(shí)就完成了一個(gè)gb2312->utf-8的轉(zhuǎn)碼。

總結(jié)：

我們回顧一下，如果需要將字符串按照指定的字符集保存，有以下幾個(gè)步驟：

1：用unicode(str,"原來(lái)的編碼")將str解碼成unicode字符串

2：將unicode字符串str 使用 str.encode("指定的字符集") 轉(zhuǎn)換成你指定的字符集

3：將str保存文件，或者寫入數(shù)據(jù)庫(kù)等操作，當(dāng)然，編碼你已經(jīng)指定了，不是嗎？

您可能感興趣的文章: