欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲之異常捕獲及標(biāo)簽過濾詳解

 更新時(shí)間:2021年05月17日 16:39:09   作者:一名小測(cè)試  
今天帶大家了解python異常捕獲及標(biāo)簽過濾,文中有非常詳細(xì)的代碼示例,對(duì)正在學(xué)習(xí)python爬蟲的小伙伴們很有幫助,需要的朋友可以參考下

增加異常捕獲,更容易現(xiàn)問題的解決方向

import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HTTPError, URLError
 
 
def get_data(url):
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
 
    """
    urlopen處增加兩個(gè)異常捕獲:
            1、如果頁(yè)面出現(xiàn)錯(cuò)誤或者服務(wù)器不存在時(shí),會(huì)拋HTTP錯(cuò)誤代碼
            2、如果url寫錯(cuò)了或者是鏈接打不開時(shí),會(huì)拋URLError錯(cuò)誤
    """
    try:
        url_obj = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(url_obj)
        html = response.read().decode('utf8')
    except (HTTPError, URLError)as e:
        raise e
 
    """
    BeautifulSoup處增加異常捕獲是因?yàn)锽eautifulSoup對(duì)象中有時(shí)候標(biāo)簽實(shí)際不存在時(shí),會(huì)返回None值;
    因?yàn)椴恢?,所以調(diào)用了就會(huì)導(dǎo)致拋出AttributeError: 'NoneType' object has no xxxxxxx。
    """
    try:
        bs = BeautifulSoup(html, "html.parser")
        results = bs.body 
    except AttributeError as e:
        return None
 
    return results
 
 
if __name__ == '__main__':
    print(get_data("https://movie.douban.com/chart"))

解析html,更好的實(shí)現(xiàn)數(shù)據(jù)展示效果

  • get_text():獲取文本信息
# 此處代碼同上面打開url代碼一致,故此處省略......
 
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'電影評(píng)價(jià)數(shù):{data}')
print(f'電影評(píng)價(jià)數(shù):{data.get_text()}')

運(yùn)行后的結(jié)果顯示如下:

電影評(píng)價(jià)數(shù):<span class="pl">(38054人評(píng)價(jià))</span>
電影評(píng)價(jià)數(shù):(38054人評(píng)價(jià))
  • find() 方法是過濾HTML標(biāo)簽,查找需要的單個(gè)標(biāo)簽

圖片

實(shí)際find方法封裝是調(diào)用了正則find_all方法,把find_all中的limt參數(shù)傳1,獲取單個(gè)標(biāo)簽

1.name:可直接理解為標(biāo)簽元素

2.attrs:字典格式,放屬性和屬性值 {"class": "indent"}

3.recursive:遞歸參數(shù),布爾值,為真時(shí)遞歸查詢子標(biāo)簽

4.text:標(biāo)簽的文本內(nèi)容匹配 , 是標(biāo)簽的文本,標(biāo)簽的文本

  • find_all() 方法是過濾HTML標(biāo)簽,查找需要的標(biāo)簽組

使用方法適合find一樣的,無非就是多了個(gè)limit參數(shù)(篩選數(shù)據(jù))

圖片

必須注意的小知識(shí)點(diǎn):

#   下面兩種寫法,實(shí)際是一樣的功能,都是查詢id為text的屬性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})
#   如果是class的就不能class="x x x"了,因?yàn)閏lass是python中類的關(guān)鍵字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})

到此這篇關(guān)于python爬蟲之異常捕獲及標(biāo)簽過濾詳解的文章就介紹到這了,更多相關(guān)python異常捕獲及標(biāo)簽過濾內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python時(shí)間處理模塊time和datetime詳解

    Python時(shí)間處理模塊time和datetime詳解

    本文詳細(xì)介紹了Python中常用的時(shí)間處理模塊time和datetime,time模塊提供多種時(shí)間獲取和轉(zhuǎn)換功能,datetime模塊則在time的基礎(chǔ)上增加了日期和時(shí)間的組合處理,如datetime.now()獲取當(dāng)前日期時(shí)間,兩個(gè)模塊在日常編程中非常有用,尤其是在需要時(shí)間日期計(jì)算和轉(zhuǎn)換的場(chǎng)景下
    2024-10-10
  • Python獲取操作系統(tǒng)的三種方法

    Python獲取操作系統(tǒng)的三種方法

    在Python中,?如何獲取操作系統(tǒng)的類型、名稱、版本等信息,本文就來介紹三種獲取方法,文中通過示例代碼介紹的非常詳細(xì),需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2024-01-01
  • 如何在Python中隱藏和加密密碼示例詳解

    如何在Python中隱藏和加密密碼示例詳解

    Maskpass是一個(gè)類似getpass的Python庫(kù),但是具有一些高級(jí)功能,比如掩蔽和顯示,下面這篇文章主要給大家介紹了關(guān)于如何在Python中隱藏和加密密碼的相關(guān)資料,需要的朋友可以參考下
    2022-02-02
  • python消費(fèi)kafka數(shù)據(jù)批量插入到es的方法

    python消費(fèi)kafka數(shù)據(jù)批量插入到es的方法

    今天小編就為大家分享一篇python消費(fèi)kafka數(shù)據(jù)批量插入到es的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • 使用Python和Pygame輕松實(shí)現(xiàn)播放音頻播放器

    使用Python和Pygame輕松實(shí)現(xiàn)播放音頻播放器

    在這個(gè)數(shù)字化時(shí)代,音頻和音樂已成為我們?nèi)粘I畹囊徊糠?不管是為了放松、學(xué)習(xí)還是工作,一個(gè)好的音樂播放器總是必不可少的,所以本文給大家介紹了用Python和Pygame制作自己的音頻播放器,感興趣的朋友可以參考下
    2024-01-01
  • 使用python搭建服務(wù)器并實(shí)現(xiàn)Android端與之通信的方法

    使用python搭建服務(wù)器并實(shí)現(xiàn)Android端與之通信的方法

    今天小編就為大家分享一篇使用python搭建服務(wù)器并實(shí)現(xiàn)Android端與之通信的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06
  • Python內(nèi)置異常類型全面匯總

    Python內(nèi)置異常類型全面匯總

    這篇文章主要介紹了Python內(nèi)置異常類型全面匯總,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-05-05
  • 關(guān)于python的矩陣乘法運(yùn)算

    關(guān)于python的矩陣乘法運(yùn)算

    這篇文章主要介紹了關(guān)于python的矩陣乘法運(yùn)算,矩陣是一個(gè)數(shù)字陣列,一個(gè)二維數(shù)組,n行r列的陣列稱為n*r矩陣。如果n==r則稱為方陣,需要的朋友可以參考下
    2023-04-04
  • python讀寫excel數(shù)據(jù)--pandas詳解

    python讀寫excel數(shù)據(jù)--pandas詳解

    這篇文章主要為大家詳細(xì)介紹了python操作EXCEL讀數(shù)據(jù)、寫數(shù)據(jù)的實(shí)例源碼,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-09-09
  • flask-restful使用總結(jié)

    flask-restful使用總結(jié)

    Flask-RESTful是一個(gè)用于快速創(chuàng)建RESTful API接口的Flask擴(kuò)展。,這篇文章主要介紹了flask-restful使用總結(jié),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-12-12

最新評(píng)論