欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python網(wǎng)頁(yè)解析器使用實(shí)例詳解

 更新時(shí)間:2020年05月30日 10:30:35   作者:BSSZDS930  
這篇文章主要介紹了Python網(wǎng)頁(yè)解析器使用實(shí)例詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

python 網(wǎng)頁(yè)解析器

  1、常見(jiàn)的python網(wǎng)頁(yè)解析工具有:re正則匹配、python自帶的html.parser模塊、第三方庫(kù)BeautifulSoup(重點(diǎn)學(xué)習(xí))以及l(fā)xm庫(kù)。

  2、常見(jiàn)網(wǎng)頁(yè)解析器分類

  (1)模糊匹配 :re正則表達(dá)式即為字符串式的模糊匹配模式;

  (2)結(jié)構(gòu)化解析: BeatufiulSoup、html.parser與lxml,他們都以DOM樹結(jié)構(gòu)為標(biāo)準(zhǔn),進(jìn)行標(biāo)簽結(jié)構(gòu)信息的提取。

  3.DOM樹解釋:即文檔對(duì)象模型(Document Object Model),其樹形標(biāo)簽結(jié)構(gòu),請(qǐng)見(jiàn)下圖。

  所謂結(jié)構(gòu)化解析,就是網(wǎng)頁(yè)解析器它會(huì)將下載的整個(gè)HTML文檔當(dāng)成一個(gè)Doucment對(duì)象,然后在利用其上下結(jié)構(gòu)的標(biāo)簽形式,對(duì)這個(gè)對(duì)象進(jìn)行上下級(jí)的標(biāo)簽進(jìn)行遍歷和信息提取操作。

# 引入相關(guān)的包,urllib與bs4,是獲取和解析網(wǎng)頁(yè)最常用的庫(kù)
from urllib.request import urlopen
from bs4 import BeautifulSoup

# 打開鏈接
html=urlopen("https://www.datalearner.com/website_navi")

# 通過(guò)urlopen獲得網(wǎng)頁(yè)對(duì)象,將其放入BeautifulSoup中,bsObj存放的目標(biāo)網(wǎng)頁(yè)的html文檔

bsObj=BeautifulSoup(html.read())
print(bsObj)

# soup = BeautifulSoup(open(url,'r',encoding = 'utf-8'))

import requests
from bs4 import BeautifulSoup

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36','referer':"www.mmjpg.com" }
all_url = 'http://www.mmjpg.com/'
  #'User-Agent':請(qǐng)求方式
  #'referer':從哪個(gè)鏈接跳轉(zhuǎn)進(jìn)來(lái)的

start_html = requests.get(all_url, headers=headers)
  #all_url:起始的地址,也就是訪問(wèn)的第一個(gè)頁(yè)面
  #headers:請(qǐng)求頭,告訴服務(wù)器是誰(shuí)來(lái)了。
  #requests.get:一個(gè)方法能獲取all_url的頁(yè)面內(nèi)容并且返回內(nèi)容。

Soup = BeautifulSoup(start_html.text, 'lxml')
  #BeautifulSoup:解析頁(yè)面
  #lxml:解析器
  #start_html.text:頁(yè)面的內(nèi)容

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

最新評(píng)論