進一步了解Python中的XML 工具

更新時間：2015年04月13日 09:21:38 投稿：goldensun

這篇文章主要介紹了更為深入的的Python中的XML工具,本文來自于IBM官方開發(fā)者技術文檔,需要的朋友可以參考下

模塊：xmllib

xmllib 是一個非驗證的低級語法分析器。應用程序員使用的 xmllib 可以覆蓋 XMLParser 類，并提供處理文檔元素（如特定或類屬標記，或字符實體）的方法。從 Python 1.5x 到 Python 2.0+ 以來， xmllib 的使用方法并沒變化；在絕大多數(shù)情況下更好的選擇是使用 SAX 技術，它也是種面向流的技術，對語言和開發(fā)者來說更為標準。

本文中的示例與原來專欄中的相同：包括一個叫做 quotations.dtd 的 DTD 以及這個 DTD 的文檔 sample.xml （請參閱參考資料，以獲取本文中提到的文件的檔案）。以下的代碼顯示了 sample.xml 中每段引言的前幾行，并生成了非常簡單的未知標記和實體的 ASCII 指示符。經過分析的文本作為連續(xù)流來處理，所使用的任何累加器都由程序員負責（如標記中的字符串 (#PCDATA)，或所遇到的標記的列表或詞典）。
清單 1: try_xmllib.py

import
         xmllib, string
    
    classQuotationParser

        (xmllib.XMLParser):
  """Crude xmllib extractor for quotations.dtd document"""
  
    
    def__init__

        (self):
    xmllib.XMLParser.__init__(self)
    self.thisquote = ''       
    
    # quotation accumulator
     
     
     defhandle_data

        (self, data):
    self.thisquote = self.thisquote + data
  
    
    defsyntax_error
        (self, message):
    
    
    pass
  defstart_quotations
        (self, attrs): 
    
    # top level tag
         
     
     print

         '--- Begin Document ---'
  
    
    defstart_quotation
        (self, attrs):
    
    
    print
         'QUOTATION:'
  
    
    defend_quotation
        (self):
    
    
    print

         string.join(string.split(self.thisquote[:230]))+'...',
    
    
    print

         '('+str(len(self.thisquote))+' bytes)\n'
    self.thisquote = ''
  
    
    defunknown_starttag

        (self, tag, attrs):
    self.thisquote = self.thisquote + '{'
  
    
    defunknown_endtag

        (self, tag):
    self.thisquote = self.thisquote + '}'
  
    
    defunknown_charref

        (self, ref):
    self.thisquote = self.thisquote + '?'
  
    
    defunknown_entityref

        (self, ref):
    self.thisquote = self.thisquote + '#'
    
    if

         __name__ == '__main__':
  parser = QuotationParser()
  
    
    for
         c 
    
    in
         open("sample.xml").read():
    parser.feed(c)
  parser.close()

驗證

您可能需要展望標準 XML 支持的未來的原因是，在進行語法分析的同時需要進行驗證。不幸的是，標準 Python 2.0 XML 包并不包括驗證型語法分析器。

xmlproc 是 python 原有的語法分析器，它執(zhí)行幾乎完整的驗證。如果需要驗證型語法分析器， xmlproc 是 Python 當前唯一的選擇。而且， xmlproc 提供其它語法分析器所不具備的各種高級和測試接口。

選擇一種語法分析器

如果決定使用 XML 的簡單 API (SAX) -- 它應該用于復雜的事物，因為其它大部分工具都是在它的基礎上建立的 -- 將為您完成許多語法分析器的分類工作。 xml.sax 模塊包含一個自動選擇“最佳”語法分析器的設施。在標準 Python 2.0 安裝中，唯一能選擇的語法分析器是 expat ，它是種 C 語言編寫的快速擴展。然而，也可以在 $PYTHONLIB/xml/parsers 下安裝另一個語法分析器，以備選擇。設置語法分析器很簡單：
清單 2: Python 選擇最佳語法分析器的語句

import
         xml.sax
parser = xml.sax.make_parser()

您還可以通過傳遞參數(shù)來選擇特定的語法分析器；但考慮到可移植性 -- 也為了對今后更好的語法分析器的向上兼容性 -- 最佳方法是使用 make_parser() 來完成工作。

您可以直接導入 xml.parsers.expat 。如果這樣做，您就能獲得 SAX 界面并不提供的一些特殊技巧。這樣， xml.parsers.expat 與 SAX 相比有些“低級”。但 SAX 技術非常標準，對面向流的處理也非常好；大多數(shù)情況下 SAX 的級別正合適。通常情況下，由于 make_parser() 函數(shù)已經能獲得 expat 提供的性能，因此純速度的差異很小。

什么是 SAX

考慮到背景因素，回答什么是 SAX 的較好答案是：

SAX （XML 的簡單 API）是 XML 語法分析器的公用語法分析器接口。它允許應用程序作者編寫使用 XML 語法分析器的應用程序，但是它卻獨立于所使用的語法分析器。（將它看作 XML 的 JDBC。）（Lars Marius Garshol，SAX for Python）

SAX -- 如同它提供的語法分析器模塊的 API -- 基本上是一個 XML 文檔的順序處理器。使用它的方法與 xmllib 示例極其相似，但更加抽象。應用程序員將定義一個 handler 類，而不是語法分析器類，該 handler 類能注冊到任何所使用的語法分析器中。必須定義 4 個 SAX 接口（每個接口都有幾個方法）：DocumentHandler、DTDHandler、EntityResolver 和 ErrorHandler。創(chuàng)建語法分析器除非被覆蓋，否則它還連接默認接口。這些代碼執(zhí)行與 xmllib 示例相同的任務：
清單 3: try_sax.py

"Simple SAX example, updated for Python 2.0+"
    
    import
         string
    
    import
         xml.sax
    
    from
         xml.sax.handler 
    
    import
         *
    
    classQuotationHandler

        
  (ContentHandler):
  """Crude extractor for quotations.dtd compliant XML document"""
  
    
    def__init__

        
  (self):
    self.in_quote = 0
    self.thisquote = ''
  
    
    defstartDocument
        
  (self):
    
    
    print

         '--- Begin Document ---'
  
    
    defstartElement

        
  (self, name, attrs):
    
    
    if

         name == 'quotation':
      
    
    print

         'QUOTATION:'
      self.in_quote = 1
    
    
    else:
    
    
      self.thisquote = self.thisquote + '{'
  
    
    defendElement

        
  (self, name):
    
    
    if

         name == 'quotation':
      
    
    print

         string.join(string.split(self.thisquote[:230]))+'...',
      
    
    print

         '('+str(len(self.thisquote))+' bytes)\n'
      self.thisquote = ''
      self.in_quote = 0
    
    
    else:
    
    
      self.thisquote = self.thisquote + '}'
  
    
    defcharacters
        
  (self, ch):
    
    
    if

         self.in_quote:
      self.thisquote = self.thisquote + ch
    
    if
         __name__ == '__main__':
  parser = xml.sax.make_parser()
  handler = QuotationHandler()
  parser.setContentHandler(handler)
  parser.parse("sample.xml")

與 xmllib 相比，上述示例中要注意兩件小事： .parse() 方法處理整個流或字符串，所以不必為語法分析器創(chuàng)建循環(huán)； .parse() 同樣能靈活地接收一個文件名、一個文件對象，或是眾多的類文件對象（一些具有 .read() 方式）。

包：DOM

DOM 是一種 XML 文檔的高級樹型表示。該模型并非只針對 Python，而是一種普通 XML 模型（請參閱參考資料以獲取進一步信息）。Python 的 DOM 包是基于 SAX 構建的，并且包括在 Python 2.0 的標準 XML 支持里。由于篇幅所限，沒有將代碼示例加到本文中，但在 XML-SIG 的 "Python/XML HOWTO" 中給出了一個極好的總體描述：

文檔對象模型為 XML 文檔指定了樹型表示。頂級文檔實例是樹的根，它只有一個子代，即頂級元素實例；這個元素有表示內容和子元素的子節(jié)點，他們也可以有子代，以此類推。定義的函數(shù)允許隨意遍歷結果樹，訪問元素和屬性值，插入和刪除節(jié)點，以及將樹轉換回 XML。

DOM 可以用于修改 XML 文檔，因為可以創(chuàng)建一棵 DOM 樹，通過添加新節(jié)點和來回移動子樹來修改這棵樹，然后生成一個新的 XML 文檔作為輸出。您也可以自己構造一棵 DOM 樹，然后將它轉換成 XML；用這種方法生成 XML 輸出比僅將 <tag1>...</tag1> 寫入文件的方法更靈活。

使用 xml.dom 模塊的語法與早期的文章相比有了一些變動。Python 2.0 中自帶的 DOM 實現(xiàn)被稱為 xml.dom.minidom ，并提供輕量級和小型版本的 DOM。顯然，完整的 XML-SIG 的 DOM 中有些試驗性的特性并未被放入 xml.dom.minidom 中，但大家并不會注意到這一點。

生成 DOM 對象很簡單；只需：
清單 4: 在 XML 文件中創(chuàng)建 Python DOM 對象

from
         xml.dom.minidom 
    
    import

         parse, parseString
dom1 = parse('mydata.xml') 
    
    # parse an XML file by name

使用 DOM 對象是種非常直接的 OOP 模式的工作。然而，經常在無法立刻簡單區(qū)分的層級（除了循環(huán)列舉）中碰到許多類似清單的屬性。例如，以下是一段普通的 DOM Python 代碼片斷：
清單 5: 通過 Python DOM 節(jié)點對象的迭代

for
         node 
    
    in
         dom_node.childNodes:
  
    
    if

         node.nodeName == '#text':   
    
    # PCDATA is a kind of node,
    PCDATA = node.nodeValue    
    
    # but not a new subtag
     
     
     elif

         node.nodeName == 'spam':
    spam_node_list.append(node) 
    
    # Create list of <spam> nodes

Python 標準說明文檔中有一些更詳細的 DOM 示例。我的早期文章中有關使用 DOM 對象的示例（請參閱參考資料）指出的方向仍然是正確的，但是文章發(fā)布后至今，一些方法和屬性名稱以更改，因此請查閱一下 Python 的說明文檔。

模塊： pyxie

pyxie 模塊是在 Python 標準 XML 支持之上構建的，它為 XML 文檔提供了附加的高級接口。 pyxie 將完成兩項基本操作：它將 XML 文檔轉換成一種更易于進行語法分析的基于行的格式；并且它提供了將 XML 文檔當作可操作樹處理的方法。 pyxie 所使用的基于行的 PYX 格式是不受語言限制的，其工具適用于幾種語言?？傊臋n的 PYX 表示與其 XML 表示相比，更易于使用常見的基于行的文本處理工具進行處理，如 grep、sed、awk、bash、perl，或標準 python 模塊，如 string 和 re 。根據結果，從 XML 轉換到 PYX 可能節(jié)省許多工作。

pyxie 將 XML 文檔當作樹處理的概念與 DOM 中的思路相似。由于 DOM 標準得到許多編程語言的廣泛支持，那么如果 XML 文檔的樹型表示是必需的，大多數(shù)程序員會使用 DOM 標準而非 pyxie 。

更多模塊： xml_pickle 和 xml_objectify

我自行開發(fā)了處理 XML 的高級模塊，稱為 xml_pickle 和 xml_objectify 。我還在其它地方寫過許多類似模塊（請參閱參考資料），在此不必做過多的介紹。當你“用 Python 思考”而不是“用 XML 思考”時，這些模塊非常有用。特別是 xml_objectify 自身對程序員隱藏了幾乎所有的 XML 線索，使您在程序中充分使用 Python “原始”對象。實際的 XML 數(shù)據格式幾乎被抽象得不可見。同樣， xml_pickle 使 Python 程序員以“原始” Python 對象開始，該對象的數(shù)據可以來源于任何源代碼，然后把它們（連續(xù)地）放入其他用戶以后可能需要的 XML 格式。

您可能感興趣的文章: