快捷導(dǎo)航

Python BeautifulSoup中文亂碼問題的2種解決方法

更新時(shí)間：2014年04月22日 10:16:48 作者：

這篇文章主要介紹了Python BeautifulSoup中文亂碼問題的2種解決方法,需要的朋友可以參考下

解決方法一：

使用python的BeautifulSoup來抓取網(wǎng)頁然后輸出網(wǎng)頁標(biāo)題,但是輸出的總是亂碼,找了好久找到解決辦法,下面分享給大家
首先是代碼

from bs4 import BeautifulSoup
import urllib2

url = 'http://www.dbjr.com.cn/'
page = urllib2.urlopen(url)

soup = BeautifulSoup(page,from_encoding="utf8")
print soup.original_encoding
print (soup.title).encode('gb18030')

file = open("title.txt","w")
file.write(str(soup.title))
file.close()

 

for link in soup.find_all('a'):
    print link['href']

在剛開始測試的時(shí)候發(fā)現(xiàn),雖然輸出是亂碼的,但是寫在文件里面卻是正常的.然后在網(wǎng)上找了找解決辦法才發(fā)現(xiàn)
print一個(gè)對象的邏輯：內(nèi)部是調(diào)用對象的__str__得到對應(yīng)的字符串的，此處對應(yīng)的是soup的__str__ 而針對于soup本身，其實(shí)已經(jīng)是Unicode編碼，所以可以通過指定__str__輸出時(shí)的編碼為GBK，以使得此處正確顯示非亂碼的中文
而對于cmd：（中文的系統(tǒng)中）編碼為GBK,所以只要重新編碼為gb18030就可以正常輸出了
就是下面這行代碼

復(fù)制代碼代碼如下:

print (soup.title).encode('gb18030')

解決方法二：

BeautifulSoup在解析utf-8編碼的網(wǎng)頁時(shí)，如果不指定fromEncoding或者將fromEncoding指定為utf-8會出現(xiàn)中文亂碼的現(xiàn)象。

解決此問題的方法是將Beautifulsoup構(gòu)造函數(shù)中的fromEncoding參數(shù)的值指定為：gb18030

復(fù)制代碼代碼如下:

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.dbjr.com.cn/');
soup = BeautifulSoup(page,fromEncoding="gb18030")
print soup.originalEncoding
print soup.prettify()

您可能感興趣的文章:

相關(guān)文章

Python Pandas學(xué)習(xí)之基本數(shù)據(jù)操作詳解
本文將通過讀取一個(gè)股票數(shù)據(jù)，來進(jìn)行Pandas的一些基本數(shù)據(jù)操作的語法介紹。文中的示例代碼講解詳細(xì)，感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下
2022-02-02
python實(shí)現(xiàn)猜數(shù)字游戲
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)猜數(shù)字游戲，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2019-10-10
Python實(shí)現(xiàn)Web指紋識別實(shí)例
這篇文章主要來帶大家探索Web指紋識別：了解主流識別方式，從標(biāo)題到指紋讀取網(wǎng)站信息的簡單方法，揭秘Web指紋識別關(guān)鍵字、哈希和URL的魔力
2023-10-10
python中使用paramiko模塊并實(shí)現(xiàn)遠(yuǎn)程連接服務(wù)器執(zhí)行上傳下載功能
paramiko是用python語言寫的一個(gè)模塊，遵循SSH2協(xié)議，支持以加密和認(rèn)證的方式，進(jìn)行遠(yuǎn)程服務(wù)器的連接。這篇文章主要介紹了python中使用paramiko模塊并實(shí)現(xiàn)遠(yuǎn)程連接服務(wù)器執(zhí)行上傳下載功能,需要的朋友可以參考下
2020-02-02
Python 裝飾器@，對函數(shù)進(jìn)行功能擴(kuò)展操作示例【開閉原則】
這篇文章主要介紹了Python 裝飾器@，對函數(shù)進(jìn)行功能擴(kuò)展操作,結(jié)合實(shí)例形式分析了裝飾器的相關(guān)使用技巧,以及開閉原則下的函數(shù)功能擴(kuò)展,需要的朋友可以參考下
2019-10-10
python使用docx模塊讀寫docx文件的方法與docx模塊常用方法詳解
這篇文章主要介紹了python使用docx模塊讀寫docx文件的方法與docx模塊常用方法詳解,需要的朋友可以參考下
2020-02-02
OpenCV實(shí)現(xiàn)直線檢測
這篇文章主要為大家詳細(xì)介紹了OpenCV實(shí)現(xiàn)直線檢測，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2022-08-08
GoReplay中間件python版本使用教程
GoReplay 是一個(gè)用于網(wǎng)絡(luò)流量錄制和回放的工具,它可以用于測試和優(yōu)化分布式系統(tǒng),這篇文章主要介紹了GoReplay中間件python版本使用教程,需要的朋友可以參考下
2024-02-02
淺談python中的錯誤與異常
寫Python代碼的小伙伴不可避免地會遇到代碼執(zhí)行錯誤和異常，這次就來詳細(xì)的總結(jié)一下python中的錯誤和異常
2021-06-06
Django-celery-beat動態(tài)添加周期性任務(wù)實(shí)現(xiàn)過程解析
這篇文章主要介紹了Django-celery-beat動態(tài)添加周期性任務(wù)實(shí)現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-11-11