Python中使用ElementTree解析XML示例
【XML基本概念介紹】
XML 指可擴(kuò)展標(biāo)記語(yǔ)言(eXtensible Markup Language)。
XML 被設(shè)計(jì)用來(lái)傳輸和存儲(chǔ)數(shù)據(jù)。
概念一:
<foo> # foo元素的起始標(biāo)簽
</foo> # foo元素的結(jié)束標(biāo)簽
# note: 每一個(gè)起始標(biāo)簽必須有對(duì)應(yīng)的結(jié)束標(biāo)簽來(lái)閉合, 也可以寫成<foo/>
概念二:
<foo> # 元素可以嵌套到任意參次
<bar></bar> # bar元素為foo元素的子元素
</foo> # 父元素foo的結(jié)束標(biāo)簽
概念三:
<foo lang='EN'> # foo元素有個(gè)lang的屬性,該屬性值為: EN;對(duì)應(yīng)Python字典(Name-Value)對(duì);
<bar id='001' lang="CH"></bar> # bar元素有個(gè)lang的屬性,該屬性值為: CH;還有個(gè)id屬性,值為:001,放置在''或“”中;
</foo> # bar元素中的lang屬性不會(huì)和foo元素中相沖突,每個(gè)元素都有獨(dú)立的屬性集;
概念四:
<title>Learning Python</title> # 元素可以有文本內(nèi)容
# Note:如果一個(gè)元素即沒有文本內(nèi)容,也沒有子元素,則為空元素。
概念五:
<info> # info元素為根節(jié)點(diǎn)
<list id='001'> A </list> # list元素為子節(jié)點(diǎn)
<list id='002'> B </list>
<list id='003'> C </list>
</info>
概念六:
<feed xmlns='http://www.w3.org/2005/Atom'> # 可以通過聲明xmlns來(lái)定義默認(rèn)名字空間,feed元素處于http://www.w3.org/2005/Atom命名空間中
<title>dive into mark</title> # title元素也是。名字空間聲明不僅會(huì)作用于當(dāng)前聲明它的元素,還會(huì)影響到該元素的所有子元素
</feed>
也可以通過xmlns:prefix聲明來(lái)定義一個(gè)名字空間并取其名為prefix。
然后該名字空間中的每個(gè)元素都必須顯式地使用這個(gè)前綴(prefix)來(lái)聲明。
<atom:feed xmlns:atom='http://www.w3.org/2005/Atom'> # feed屬于命名空間atom
<atom:title>dive into mark</atom:title> # title元素同樣屬于該命名空間
</atom:feed> # xmlns(XML Name Space)
【XML幾種解析方法】
常見的XML編程接口有DOM和SAX,這兩種接口處理XML文件的方式不同,使用場(chǎng)合自然也就不同。
Python有三種方法解析XML: SAX,DOM,以及ElementTree:
1.SAX (Simple API for XML )
Pyhton標(biāo)準(zhǔn)庫(kù)包含SAX解析器,SAX用事件驅(qū)動(dòng)模型,通過在解析XML的過程中觸發(fā)一個(gè)個(gè)的事件并調(diào)用用戶定義的回調(diào)函數(shù)來(lái)處理XML文件。SAX是一種基于事件驅(qū)動(dòng)的API。利用SAX解析XML文檔牽涉到兩個(gè)部分:解析器和事件處理器。
解析器負(fù)責(zé)讀取XML文檔,并向事件處理器發(fā)送事件,如元素開始及結(jié)束事件;而事件處理器則負(fù)責(zé)對(duì)事件作出處理。
優(yōu)點(diǎn):SAX流式讀取XML文件,比較快,占用內(nèi)存少。
缺點(diǎn):需要用戶實(shí)現(xiàn)回調(diào)函數(shù)(handler)。
2.DOM(Document Object Model)
將XML數(shù)據(jù)在內(nèi)存中解析成一個(gè)樹,通過對(duì)樹的操作來(lái)操作XML。一個(gè)DOM的解析器在解析一個(gè)XML文檔時(shí),一次性讀取整個(gè)文檔,把文檔中所有元素保存在內(nèi)存中的一個(gè)樹結(jié)構(gòu)里,之后你可以利用DOM提供的不同的函數(shù)來(lái)讀取或修改文檔的內(nèi)容和結(jié)構(gòu),也可以把修改過的內(nèi)容寫入xml文件。
優(yōu)點(diǎn):使用DOM的好處是你不需要對(duì)狀態(tài)進(jìn)行追蹤,因?yàn)槊恳粋€(gè)節(jié)點(diǎn)都知道誰(shuí)是它的父節(jié)點(diǎn),誰(shuí)是子節(jié)點(diǎn).
缺點(diǎn):DOM需要將XML數(shù)據(jù)映射到內(nèi)存中的樹,一是比較慢,二是比較耗內(nèi)存,使用起來(lái)也比較麻煩!
3.ElementTree(元素樹)
ElementTree就像一個(gè)輕量級(jí)的DOM,具有方便友好的API。代碼可用性好,速度快,消耗內(nèi)存少。
相比而言,第三種方法,即方便,又快速,我們一直用它!下面介紹用元素樹如何解析XML:
【ElementTree解析】
兩種實(shí)現(xiàn)
ElementTree生來(lái)就是為了處理XML ,它在Python標(biāo)準(zhǔn)庫(kù)中有兩種實(shí)現(xiàn)。
一種是純Python實(shí)現(xiàn),例如: xml.etree.ElementTree
另外一種是速度快一點(diǎn)的: xml.etree.cElementTree
盡量使用C語(yǔ)言實(shí)現(xiàn)的那種,因?yàn)樗俣雀?,而且消耗的?nèi)存更少! 在程序中可以這樣寫:
try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
常用方法
# 當(dāng)要獲取屬性值時(shí),用attrib方法。
# 當(dāng)要獲取節(jié)點(diǎn)值時(shí),用text方法。
# 當(dāng)要獲取節(jié)點(diǎn)名時(shí),用tag方法。
示例XML
<?xml version="1.0" encoding="utf-8"?>
<info>
<intro>Book message</intro>
<list id='001'>
<head>bookone</head>
<name>python check</name>
<number>001</number>
<page>200</page>
</list>
<list id='002'>
<head>booktwo</head>
<name>python learn</name>
<number>002</number>
<page>300</page>
</list>
</info>
###########
## 加載XML
###########
方法一:加載文件
root = ET.parse('book.xml')
方法二:加載字符串
root = ET.fromstring(xmltext)
###########
## 獲取節(jié)點(diǎn)
###########
方法一:獲得指定節(jié)點(diǎn)->getiterator()方法
book_node = root.getiterator('list')
方法二:獲得指定節(jié)點(diǎn)->findall()方法
book_node = root.findall('list')
方法三:獲得指定節(jié)點(diǎn)->find()方法
book_node = root.find('list')
方法四:獲得兒子節(jié)點(diǎn)->getchildren()
for node in book_node:
book_node_child = node.getchildren()[0]
print book_node_child.tag, '=> ', book_node_child.text
###########
## 例子01
###########
# coding=utf-8
try: # 導(dǎo)入模塊
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
root = ET.parse('book.xml') # 分析XML文件
books = root.findall('/list') # 查找所有根目錄下的list的子節(jié)點(diǎn)
for book_list in books: # 對(duì)查找后的結(jié)果遍歷
print "=" * 30 # 輸出格式
for book in book_list: # 對(duì)每個(gè)子節(jié)點(diǎn)再進(jìn)行遍歷,找出里面你的屬性及值
if book.attrib.has_key('id'): # 一句id來(lái)做條件判斷
print "id:", book.attrib['id'] # 根據(jù)id打印出屬性值
print book.tag + '=> ' + book.text # 輸出標(biāo)簽及文本內(nèi)容
print "=" * 30
輸出結(jié)果:
==============================
head=> bookone
name=> python check
number=> 001
page=> 200
==============================
head=> booktwo
name=> python learn
number=> 002
page=> 300
==============================
PS:這里再為大家提供幾款關(guān)于xml操作的在線工具供大家參考使用:
在線XML/JSON互相轉(zhuǎn)換工具:
http://tools.jb51.net/code/xmljson
在線格式化XML/在線壓縮XML:
http://tools.jb51.net/code/xmlformat
XML在線壓縮/格式化工具:
http://tools.jb51.net/code/xml_format_compress
相關(guān)文章
python實(shí)現(xiàn)數(shù)據(jù)庫(kù)跨服務(wù)器遷移
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)遷移,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-04-04python matplotlib折線圖樣式實(shí)現(xiàn)過程
這篇文章主要介紹了python matplotlib折線圖樣式實(shí)現(xiàn)過程,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-11-11跟老齊學(xué)Python之?dāng)?shù)據(jù)類型總結(jié)
前面已經(jīng)洋洋灑灑地介紹了不少數(shù)據(jù)類型。不能再不顧一切地向前沖了,應(yīng)當(dāng)總結(jié)一下。這樣讓看官能夠從總體上對(duì)這些數(shù)據(jù)類型有所了解,如果能夠有一覽眾山小的感覺,就太好了。2014-09-09python實(shí)現(xiàn)人人對(duì)戰(zhàn)的五子棋游戲
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)人人對(duì)戰(zhàn)的五子棋游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-05-05用TensorFlow實(shí)現(xiàn)多類支持向量機(jī)的示例代碼
這篇文章主要介紹了用TensorFlow實(shí)現(xiàn)多類支持向量機(jī)的示例代碼,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來(lái)看看吧2018-04-04python實(shí)現(xiàn)圖片,視頻人臉識(shí)別(dlib版)
這篇文章主要介紹了python實(shí)現(xiàn)圖像,視頻人臉識(shí)別(dlib版)的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下2020-11-11