Python實現(xiàn)XML文件解析的示例代碼
1. XML簡介
XML(eXtensible Markup Language)指可擴展標記語言,被設(shè)計用來傳輸和存儲數(shù)據(jù),已經(jīng)日趨成為當前許多新生技術(shù)的核心,在不同的領(lǐng)域都有著不同的應(yīng)用。它是web發(fā)展到一定階段的必然產(chǎn)物,既具有SGML的核心特征,又有著HTML的簡單特性,還具有明確和結(jié)構(gòu)良好等許多新的特性。
test.XML文件
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
XML詳細介紹可以參考: http://www.w3school.com.cn/xmldom/dom_nodetype.asp
2. XML文件解析
python解析XML常見的有三種方法:一是xml.dom.*模塊,它是W3C DOM API的實現(xiàn),若需要處理DOM API則該模塊很適合;二是xml.sax.*模塊,它是SAX API的實現(xiàn),這個模塊犧牲了便捷性來換取速度和內(nèi)存占用,SAX是一個基于事件的API,這就意味著它可以“在空中”處理龐大數(shù)量的的文檔,不用完全加載進內(nèi)存;三是xml.etree.ElementTree模塊(簡稱 ET),它提供了輕量級的Python式的API,相對于DOM來說ET 快了很多,而且有很多令人愉悅的API可以使用,相對于SAX來說ET的ET.iterparse也提供了 “在空中” 的處理方式,沒有必要加載整個文檔到內(nèi)存,ET的性能的平均值和SAX差不多,但是API的效率更高一點而且使用起來很方便。
2.1 xml.dom.*
文件對象模型(Document Object Model,簡稱DOM),是W3C組織推薦的處理可擴展置標語言的標準編程接口。一個 DOM 的解析器在解析一個XML文檔時,一次性讀取整個文檔,把文檔中所有元素保存在內(nèi)存中的一個樹結(jié)構(gòu)里,之后你可以利用DOM 提供的不同的函數(shù)來讀取或修改文檔的內(nèi)容和結(jié)構(gòu),也可以把修改過的內(nèi)容寫入xml文件。python中用xml.dom.minidom來解析xml文件。
a. 獲得子標簽
b. 區(qū)分相同標簽名的標簽
c. 獲取標簽屬性值
d. 獲取標簽對之間的數(shù)據(jù)
#coding=utf-8
#通過minidom解析xml文件
import xml.dom.minidom as xmldom
import os
'''
XML文件讀取
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>dasdas
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
'''
xmlfilepath = os.path.abspath("test.xml")
print ("xml文件路徑:", xmlfilepath)
# 得到文檔對象
domobj = xmldom.parse(xmlfilepath)
print("xmldom.parse:", type(domobj))
# 得到元素對象
elementobj = domobj.documentElement
print ("domobj.documentElement:", type(elementobj))
#獲得子標簽
subElementObj = elementobj.getElementsByTagName("login")
print ("getElementsByTagName:", type(subElementObj))
print (len(subElementObj))
# 獲得標簽屬性值
print (subElementObj[0].getAttribute("username"))
print (subElementObj[0].getAttribute("passwd"))
#區(qū)分相同標簽名的標簽
subElementObj1 = elementobj.getElementsByTagName("caption")
for i in range(len(subElementObj1)):
print ("subElementObj1[i]:", type(subElementObj1[i]))
print (subElementObj1[i].firstChild.data) #顯示標簽對之間的數(shù)據(jù)
輸出結(jié)果:
>>> D:\Pystu>python xml_instance.py
>>> xml文件路徑: D:\Pystu\test.xml
>>> xmldom.parse: <class 'xml.dom.minidom.Document'>
>>> domobj.documentElement: <class 'xml.dom.minidom.Element'>
>>> getElementsByTagName: <class 'xml.dom.minicompat.NodeList'>
>>> username: pytest
>>> passwd: 123456
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Python
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> 測試
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Zope
2.2 xml.etree.ElementTree
ElementTree生來就是為了處理XML,它在Python標準庫中有兩種實現(xiàn):一種是純Python實現(xiàn)的,如xml.etree.ElementTree,另一種是速度快一點的xml.etree.cElementTree。注意:盡量使用C語言實現(xiàn)的那種,因為它速度更快,而且消耗的內(nèi)存更少。
a. 遍歷根節(jié)點的下一層
b. 下標訪問各個標簽、屬性、文本
c. 查找root下的指定標簽
d. 遍歷XML文件
e. 修改XML文件
#coding=utf-8
#通過解析xml文件
'''
try:
import xml.etree.CElementTree as ET
except:
import xml.etree.ElementTree as ET
從Python3.3開始ElementTree模塊會自動尋找可用的C庫來加快速度
'''
import xml.etree.ElementTree as ET
import os
import sys
'''
XML文件讀取
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>dasdas
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
'''
#遍歷xml文件
def traverseXml(element):
#print (len(element))
if len(element)>0:
for child in element:
print (child.tag, "----", child.attrib)
traverseXml(child)
#else:
#print (element.tag, "----", element.attrib)
if __name__ == "__main__":
xmlFilePath = os.path.abspath("test.xml")
print(xmlFilePath)
try:
tree = ET.parse(xmlFilePath)
print ("tree type:", type(tree))
# 獲得根節(jié)點
root = tree.getroot()
except Exception as e: #捕獲除與程序退出sys.exit()相關(guān)之外的所有異常
print ("parse test.xml fail!")
sys.exit()
print ("root type:", type(root))
print (root.tag, "----", root.attrib)
#遍歷root的下一層
for child in root:
print ("遍歷root的下一層", child.tag, "----", child.attrib)
#使用下標訪問
print (root[0].text)
print (root[1][1][0].text)
print (20 * "*")
#遍歷xml文件
traverseXml(root)
print (20 * "*")
#根據(jù)標簽名查找root下的所有標簽
captionList = root.findall("item") #在當前指定目錄下遍歷
print (len(captionList))
for caption in captionList:
print (caption.tag, "----", caption.attrib, "----", caption.text)
#修改xml文件,將passwd修改為999999
login = root.find("login")
passwdValue = login.get("passwd")
print ("not modify passwd:", passwdValue)
login.set("passwd", "999999") #修改,若修改text則表示為login.text
print ("modify passwd:", login.get("passwd"))
輸出結(jié)果:
>>> D:\Pystu\test.xml
>>> tree type: <class 'xml.etree.ElementTree.ElementTree'>
>>> root type: <class 'xml.etree.ElementTree.Element'>
>>> catalog ---- {}
>>> 遍歷root的下一層 maxid ---- {}
>>> 遍歷root的下一層 login ---- {'username': 'pytest', 'passwd': '123456'}
>>> 遍歷root的下一層 item ---- {'id': '2'}
>>> 4
>>> 測試
>>> ********************
>>> maxid ---- {}
>>> login ---- {'username': 'pytest', 'passwd': '123456'}
>>> caption ---- {}
>>> item ---- {'id': '4'}
>>> caption ---- {}
>>> item ---- {'id': '2'}
>>> caption ---- {}
>>> ********************
>>> 1
>>> item ---- {'id': '2'} ----
>>> not modify passwd: 123456
>>> modify passwd: 999999
附:
#coding=utf-8
'''
XML解析類
@功能-結(jié)點的增刪改查
'''
import xml.etree.ElementTree as ET
import sys
import os.path
class XmlParse:
def __init__(self, file_path):
self.tree = None
self.root = None
self.xml_file_path = file_path
def ReadXml(self):
try:
print("xmlfile:", self.xml_file_path)
self.tree = ET.parse(self.xml_file_path)
self.root = self.tree.getroot()
except Exception as e:
print ("parse xml faild!")
sys.exit()
else:
print ("parse xml success!")
finally:
return self.tree
def CreateNode(self, tag, attrib, text):
element = ET.Element(tag, attrib)
element.text = text
print ("tag:%s;attrib:%s;text:%s" %(tag, attrib, text))
return element
def AddNode(self, Parent, tag, attrib, text):
element = self.CreateNode(tag, attrib, text)
if Parent:
Parent.append(element)
el = self.root.find("lizhi")
print (el.tag, "----", el.attrib, "----", el.text)
else:
print ("parent is none")
def WriteXml(self, destfile):
dest_xml_file = os.path.abspath(destfile)
self.tree.write(dest_xml_file, encoding="utf-8",xml_declaration=True)
if __name__ == "__main__":
xml_file = os.path.abspath("test.xml")
parse = XmlParse(xml_file)
tree = parse.ReadXml()
root = tree.getroot()
print (root)
parse.AddNode(root, "Python", {"age":"22", "hello":"world"}, "YES")
parse.WriteXml("testtest.xml")
2.3 xml.sax.*
SAX是一種基于事件驅(qū)動的API,利用SAX解析XML牽涉到兩個部分:解析器和事件處理器。
解析器負責讀取XML文檔,并向事件處理器發(fā)送事件,如元素開始跟元素結(jié)束事件
事件處理器則負責對事件作出相應(yīng),對傳遞的XML數(shù)據(jù)進行處理
常用場景:
(1)對大型文件進行處理
(2)只需文件的部分內(nèi)容,或只需從文件中得到特定信息
(3)想建立自己的對象模型
基于事件驅(qū)動的SAX解析XML內(nèi)容的知識后續(xù)補充!
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
在Python的Django框架中實現(xiàn)Hacker News的一些功能
這篇文章主要介紹了在Python的Django框架中實現(xiàn)Hacker News的一些功能,包括投票“頂”評論等功能,需要的朋友可以參考下2015-04-04
python使用selenium實現(xiàn)批量文件下載
這篇文章主要介紹了python使用selenium實現(xiàn)批量文件下載,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03
使用Python的networkx繪制精美網(wǎng)絡(luò)圖教程
今天小編就為大家分享一篇使用Python的networkx繪制精美網(wǎng)絡(luò)圖教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-11-11
python?matplotlib繪圖詳解大全(非常詳細!)
這篇文章主要給大家介紹了關(guān)于python?matplotlib繪圖詳解的相關(guān)資料,matplotlib是python中用于繪制各種圖像的模塊,功能十分強大,通常與pandas模塊搭配使用,可以生成各種樣視的圖片,用于數(shù)據(jù)的分析和展示,需要的朋友可以參考下2023-09-09

