欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲之必備chardet庫

 更新時間:2021年04月30日 11:39:07   作者:數(shù)據(jù)分析與統(tǒng)計學(xué)之美  
這篇文章主要介紹了Python爬蟲之必備chardet庫,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python的小伙伴們有非常好的幫助,需要的朋友可以參考下

一、chardet庫的安裝與介紹

玩兒過爬蟲的朋友應(yīng)該知道,在爬取不同的網(wǎng)頁時,返回結(jié)果會出現(xiàn)亂碼的情況。比如,在爬取某個中文網(wǎng)頁的時候,有的頁面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁面,知道網(wǎng)頁編碼很重要的。

雖然HTML頁面有charset標(biāo)簽,但是有些時候是不對的,那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實現(xiàn)字符串/文件的編碼檢測。

如果你安裝過Anaconda,那么可以直接使用chardet庫。如果你只是安裝了Python的話,就需要使用下面幾行代碼,完成chardet庫的安裝。

pip install chardet

接著,使用下面這行代碼,導(dǎo)入chardet庫。

import chardet

二、chardet庫的使用

這個小節(jié),我們分3部分講解。

2.1 chardet.detect()函數(shù)

detect()函數(shù)接受一個參數(shù),一個非unicode字符串。它返回一個字典,其中包含自動檢測到的字符編碼和從0到1的可信度級別。

  • encoding:表示字符編碼方式。
  • confidence:表示可信度。
  • language:語言。

光看這個解釋,大多數(shù)朋友可能看不懂,下面我們就用例子來講述這個函數(shù)。

2.2 使用該函數(shù)分別檢測gbk、utf-8和日語

檢測gbk編碼的中文:

str1 = '大家好,我是黃同學(xué)'.encode('gbk')
chardet.detect(str1)

chardet.detect(str1)["encoding"]

結(jié)果如下:

在這里插入圖片描述

檢測的編碼是GB2312,注意到GBK是GB2312的父集,兩者是同一種編碼,檢測正確的概率是99%,language字段指出的語言是'Chinese'。

檢測utf-8編碼的中文:

str2 = '我有一個夢想'.encode('utf-8')
chardet.detect(str2)

chardet.detect(str2)["encoding"]

結(jié)果如下:

在這里插入圖片描述

檢測一段日文:

str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)

chardet.detect(str3)

結(jié)果如下:

在這里插入圖片描述

2.3 如何在“爬蟲”中使用chardet庫呢?

我們以百度網(wǎng)頁為例子,進(jìn)行講述。

在這里插入圖片描述

這個網(wǎng)頁的源代碼,使用的是什么編碼呢?我們看看源代碼:

在這里插入圖片描述

從圖中可以看到,是utf-8字符編碼。

如果不使用chardet庫,獲取網(wǎng)頁源代碼的時候,怎么指定字符編碼呢?

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text

結(jié)果如下:

在這里插入圖片描述

你會發(fā)現(xiàn):正確指定編碼后,沒有亂碼。如果你將編碼改為gbk,再看看結(jié)果。此時已經(jīng)亂碼。

在這里插入圖片描述

如果使用chardet庫,獲取網(wǎng)頁源代碼的時候,可以輕松指定字符編碼!

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)

# 注意下面這行代碼,是怎么寫的?
response.encoding = chardet.detect(response.content)['encoding']
response.text

結(jié)果如下:

在這里插入圖片描述

編碼不用我們自己查找,也不用猜,直接交給chardet庫去猜測,正確率還高。

到此這篇關(guān)于Python爬蟲之必備chardet庫的文章就介紹到這了,更多相關(guān)Python chardet庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python正則表達(dá)式常用函數(shù)總結(jié)

    Python正則表達(dá)式常用函數(shù)總結(jié)

    這篇文章主要介紹了Python正則表達(dá)式常用函數(shù),結(jié)合實例形式總結(jié)分析了Python正則表達(dá)式常用函數(shù)功能、使用方法及相關(guān)注意事項,需要的朋友可以參考下
    2017-06-06
  • python查詢sqlite數(shù)據(jù)表的方法

    python查詢sqlite數(shù)據(jù)表的方法

    這篇文章主要介紹了python查詢sqlite數(shù)據(jù)表的方法,涉及Python操作SQLite數(shù)據(jù)庫的基本技巧,需要的朋友可以參考下
    2015-05-05
  • Python 中面向接口編程詳情

    Python 中面向接口編程詳情

    這篇文章主要介紹了Python 中面向接口編程詳情,Python 中的接口與大多數(shù)其它語言的處理方式不同,它們的設(shè)計復(fù)雜性也不同,關(guān)于Python 接口編程的介紹,需要的小伙伴可以參考下面文章內(nèi)容
    2022-05-05
  • Flask??請求鉤子的實現(xiàn)

    Flask??請求鉤子的實現(xiàn)

    這篇文章主要給大家分享了Flask請求鉤子的實現(xiàn),在客戶端和服務(wù)器交互的過程中,有些準(zhǔn)備工作或掃尾工作需要處理,比如:在請求開始時,建立數(shù)據(jù)庫連接;在請求開始時,根據(jù)需求進(jìn)行權(quán)限校驗;在請求結(jié)束時,指定數(shù)據(jù)的交互格式;下面來看看文章詳細(xì)介紹內(nèi)容吧
    2021-11-11
  • 基于Python編寫一個簡單的端口掃描器

    基于Python編寫一個簡單的端口掃描器

    端口掃描是非常實用的,不止用在信息安全方面,日常的運維也用得到。本文將利用Python編寫一個簡單的端口掃描器,需要的可以參考一下
    2022-04-04
  • Python簡單讀取json文件功能示例

    Python簡單讀取json文件功能示例

    這篇文章主要介紹了Python簡單讀取json文件功能,結(jié)合實例形式分析了Python文件讀取及json格式數(shù)據(jù)相關(guān)操作技巧,需要的朋友可以參考下
    2017-11-11
  • Django如何在不停機的情況下創(chuàng)建索引

    Django如何在不停機的情況下創(chuàng)建索引

    在本篇內(nèi)容里小編給大家整理的是關(guān)于Django如何在不停機的情況下創(chuàng)建索引的相關(guān)文章,有興趣的朋友們參考學(xué)習(xí)下。
    2020-08-08
  • 如何判斷pytorch是否支持GPU加速

    如何判斷pytorch是否支持GPU加速

    這篇文章主要介紹了判斷pytorch是否支持GPU加速的操作,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-06-06
  • 樹莓派上利用python+opencv+dlib實現(xiàn)嘴唇檢測的實現(xiàn)

    樹莓派上利用python+opencv+dlib實現(xiàn)嘴唇檢測的實現(xiàn)

    本文主要介紹了樹莓派上利用python+opencv+dlib實現(xiàn)嘴唇檢測的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-10-10
  • python、java等哪一門編程語言適合人工智能?

    python、java等哪一門編程語言適合人工智能?

    哪一門編程語言適合人工智能?這篇文章主要為大家詳細(xì)介紹了python編程語言適合人工智能的原因、優(yōu)點,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2017-11-11

最新評論