快捷導(dǎo)航

Java中四種XML解析技術(shù)

更新時(shí)間：2006年10月13日 00:00:00 作者：

　　在平時(shí)工作中，難免會(huì)遇到把 XML 作為數(shù)據(jù)存儲(chǔ)格式。面對(duì)目前種類繁多的解決方案，哪個(gè)最適合我們呢？在這篇文章中，我對(duì)這四種主流方案做一個(gè)不完全評(píng)測(cè)，僅僅針對(duì)遍歷 XML 這塊來測(cè)試，因?yàn)楸闅v XML 是工作中使用最多的（至少我認(rèn)為）。

　　預(yù) 備

　　測(cè)試環(huán)境：

　　AMD 毒龍1.4G OC 1.5G、256M DDR333、Windows2000 Server SP4、Sun JDK 1.4.1+Eclipse 2.1+Resin 2.1.8，在 Debug 模式下測(cè)試。

　　XML 文件格式如下：

　?。?xml version="1.0" encoding="GB2312"?＞
　?。糝ESULT＞
　　＜VALUE＞
　?。糔O＞A1234＜/NO＞
　　＜ADDR＞四川省XX縣XX鎮(zhèn)XX路X段XX號(hào)＜/ADDR＞
　?。?VALUE＞
　?。糣ALUE＞
　?。糔O＞B1234＜/NO＞
　?。糀DDR＞四川省XX市XX鄉(xiāng)XX村XX組＜/ADDR＞
　　＜/VALUE＞
　?。?RESULT＞

　　測(cè)試方法：

　　采用 JSP 端調(diào)用Bean（至于為什么采用JSP來調(diào)用，請(qǐng)參考：http://blog.csdn.net/rosen/archive/2004/10/15/138324.aspx），讓每一種方案分別解析10K、100K、1000K、10000K的 XML 文件，計(jì)算其消耗時(shí)間（單位:毫秒）。

　　JSP 文件：

　?。?@ page contentType="text/html; charset=gb2312" %＞
　?。?@ page import="com.test.*"%＞

　?。糷tml＞
　?。糱ody＞
　?。?
　　String args[]={""};
　　MyXMLReader.main(args);
　　%＞
　?。?body＞
　　＜/html＞

　　測(cè) 試

　　首先出場(chǎng)的是 DOM（JAXP Crimson 解析器）

　　DOM 是用與平臺(tái)和語言無關(guān)的方式表示 XML 文檔的官方 W3C 標(biāo)準(zhǔn)。DOM 是以層次結(jié)構(gòu)組織的節(jié)點(diǎn)或信息片斷的集合。這個(gè)層次結(jié)構(gòu)允許開發(fā)人員在樹中尋找特定信息。分析該結(jié)構(gòu)通常需要加載整個(gè)文檔和構(gòu)造層次結(jié)構(gòu)，然后才能做任何工作。由于它是基于信息層次的，因而 DOM 被認(rèn)為是基于樹或基于對(duì)象的。DOM 以及廣義的基于樹的處理具有幾個(gè)優(yōu)點(diǎn)。首先，由于樹在內(nèi)存中是持久的，因此可以修改它以便應(yīng)用程序能對(duì)數(shù)據(jù)和結(jié)構(gòu)作出更改。它還可以在任何時(shí)候在樹中上下導(dǎo)航，而不是像 SAX 那樣是一次性的處理。DOM 使用起來也要簡(jiǎn)單得多。

　　另一方面，對(duì)于特別大的文檔，解析和加載整個(gè)文檔可能很慢且很耗資源，因此使用其他手段來處理這樣的數(shù)據(jù)會(huì)更好。這些基于事件的模型，比如 SAX。

　　Bean文件：

　　package com.test;

　　import java.io.*;
　　import java.util.*;
　　import org.w3c.dom.*;
　　import javax.xml.parsers.*;

　　public class MyXMLReader{

　　public static void main(String arge[]){
　　long lasting =System.currentTimeMillis();
　　try{
　　　File f=new File("data_10k.xml");
　　　DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
　　　DocumentBuilder builder=factory.newDocumentBuilder();
　　　Document doc = builder.parse(f);
　　　NodeList nl = doc.getElementsByTagName("VALUE");
　　　for (int i=0;i＜nl.getLength();i++){
　　　　System.out.print("車牌號(hào)碼:" + doc.getElementsByTagName("NO").item(i).getFirstChild().getNodeValue());
　　　　System.out.println(" 車主地址:" + doc.getElementsByTagName("ADDR").item(i).getFirstChild().getNodeValue());
　　}
　　}catch(Exception e){
　　　e.printStackTrace();
　　}
　　System.out.println("運(yùn)行時(shí)間："+(System.currentTimeMillis() - lasting)+" 毫秒");
　　}
　　}

　　10k消耗時(shí)間：265 203 219 172
　　100k消耗時(shí)間：9172 9016 8891 9000
　　1000k消耗時(shí)間：691719 675407 708375 739656
　　10000k消耗時(shí)間：OutOfMemoryError

　　接著是 SAX

　　這種處理的優(yōu)點(diǎn)非常類似于流媒體的優(yōu)點(diǎn)。分析能夠立即開始，而不是等待所有的數(shù)據(jù)被處理。而且，由于應(yīng)用程序只是在讀取數(shù)據(jù)時(shí)檢查數(shù)據(jù)，因此不需要將數(shù)據(jù)存儲(chǔ)在內(nèi)存中。這對(duì)于大型文檔來說是個(gè)巨大的優(yōu)點(diǎn)。事實(shí)上，應(yīng)用程序甚至不必解析整個(gè)文檔；它可以在某個(gè)條件得到滿足時(shí)停止解析。一般來說，SAX 還比它的替代者 DOM 快許多。

　　選擇 DOM 還是選擇 SAX ？

　　對(duì)于需要自己編寫代碼來處理 XML 文檔的開發(fā)人員來說，選擇 DOM 還是 SAX 解析模型是一個(gè)非常重要的設(shè)計(jì)決策。

　　DOM 采用建立樹形結(jié)構(gòu)的方式訪問 XML 文檔，而 SAX 采用的事件模型。

　　DOM 解析器把 XML 文檔轉(zhuǎn)化為一個(gè)包含其內(nèi)容的樹，并可以對(duì)樹進(jìn)行遍歷。用 DOM 解析模型的優(yōu)點(diǎn)是編程容易，開發(fā)人員只需要調(diào)用建樹的指令，然后利用navigation APIs訪問所需的樹節(jié)點(diǎn)來完成任務(wù)?？梢院苋菀椎奶砑雍托薷臉渲械脑?。然而由于使用 DOM 解析器的時(shí)候需要處理整個(gè) XML 文檔，所以對(duì)性能和內(nèi)存的要求比較高，尤其是遇到很大的 XML 文件的時(shí)候。由于它的遍歷能力，DOM 解析器常用于 XML 文檔需要頻繁的改變的服務(wù)中。

　　SAX 解析器采用了基于事件的模型，它在解析 XML 文檔的時(shí)候可以觸發(fā)一系列的事件，當(dāng)發(fā)現(xiàn)給定的tag的時(shí)候，它可以激活一個(gè)回調(diào)方法，告訴該方法制定的標(biāo)簽已經(jīng)找到。SAX 對(duì)內(nèi)存的要求通常會(huì)比較低，因?yàn)樗岄_發(fā)人員自己來決定所要處理的tag。特別是當(dāng)開發(fā)人員只需要處理文檔中所包含的部分?jǐn)?shù)據(jù)時(shí)，SAX 這種擴(kuò)展能力得到了更好的體現(xiàn)。但用 SAX 解析器的時(shí)候編碼工作會(huì)比較困難，而且很難同時(shí)訪問同一個(gè)文檔中的多處不同數(shù)據(jù)。

　　Bean文件：

　　package com.test;
　　import org.xml.sax.*;
　　import org.xml.sax.helpers.*;
　　import javax.xml.parsers.*;

　　public class MyXMLReader extends DefaultHandler {

　　java.util.Stack tags = new java.util.Stack();

　　public MyXMLReader() {
　　super();
　　}

　　public static void main(String args[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　SAXParserFactory sf = SAXParserFactory.newInstance();
　　　SAXParser sp = sf.newSAXParser();
　　　MyXMLReader reader = new MyXMLReader();
　　　sp.parse(new InputSource("data_10k.xml"), reader);
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("運(yùn)行時(shí)間：" + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}

　　public void characters(char ch[], int start, int length) throws SAXException {
　　String tag = (String) tags.peek();
　　if (tag.equals("NO")) {
　　　System.out.print("車牌號(hào)碼：" + new String(ch, start, length));
　　}
　　if (tag.equals("ADDR")) {
　　System.out.println(" 地址:" + new String(ch, start, length));
　　}
　　}

　　public void startElement(
　　String uri,
　　String localName,
　　String qName,
　　Attributes attrs) {
　　tags.push(qName);
　　}
　　}

　　10k消耗時(shí)間：110 47 109 78
　　100k消耗時(shí)間：344 406 375 422
　　1000k消耗時(shí)間：3234 3281 3688 3312
　　10000k消耗時(shí)間：32578 34313 31797 31890 30328

　　然后是 JDOM http://www.jdom.org/

　　JDOM 的目的是成為 Java 特定文檔模型，它簡(jiǎn)化與 XML 的交互并且比使用 DOM 實(shí)現(xiàn)更快。由于是第一個(gè) Java 特定模型，JDOM 一直得到大力推廣和促進(jìn)。正在考慮通過“Java 規(guī)范請(qǐng)求 JSR-102”將它最終用作“Java 標(biāo)準(zhǔn)擴(kuò)展”。從 2000 年初就已經(jīng)開始了 JDOM 開發(fā)。

　　JDOM 與 DOM 主要有兩方面不同。首先，JDOM 僅使用具體類而不使用接口。這在某些方面簡(jiǎn)化了 API，但是也限制了靈活性。第二，API 大量使用了 Collections 類，簡(jiǎn)化了那些已經(jīng)熟悉這些類的 Java 開發(fā)者的使用。

　　JDOM 文檔聲明其目的是“使用 20%（或更少）的精力解決 80%（或更多）Java/XML 問題”（根據(jù)學(xué)習(xí)曲線假定為 20%）。JDOM 對(duì)于大多數(shù) Java/XML 應(yīng)用程序來說當(dāng)然是有用的，并且大多數(shù)開發(fā)者發(fā)現(xiàn) API 比 DOM 容易理解得多。JDOM 還包括對(duì)程序行為的相當(dāng)廣泛檢查以防止用戶做任何在 XML 中無意義的事。然而，它仍需要您充分理解 XML 以便做一些超出基本的工作（或者甚至理解某些情況下的錯(cuò)誤）。這也許是比學(xué)習(xí) DOM 或 JDOM 接口都更有意義的工作。

　　JDOM 自身不包含解析器。它通常使用 SAX2 解析器來解析和驗(yàn)證輸入 XML 文檔（盡管它還可以將以前構(gòu)造的 DOM 表示作為輸入）。它包含一些轉(zhuǎn)換器以將 JDOM 表示輸出成 SAX2 事件流、DOM 模型或 XML 文本文檔。JDOM 是在 Apache 許可證變體下發(fā)布的開放源碼。

　　Bean文件：

　　package com.test;

　　import java.io.*;
　　import java.util.*;
　　import org.jdom.*;
　　import org.jdom.input.*;

　　public class MyXMLReader {

　　public static void main(String arge[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　SAXBuilder builder = new SAXBuilder();
　　　Document doc = builder.build(new File("data_10k.xml"));
　　　Element foo = doc.getRootElement();
　　　List allChildren = foo.getChildren();
　　　for(int i=0;i＜allChildren.size();i++) {
　　　　System.out.print("車牌號(hào)碼:" + ((Element)allChildren.get(i)).getChild("NO").getText());
　　　　System.out.println(" 車主地址:" + ((Element)allChildren.get(i)).getChild("ADDR").getText());
　　　}
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("運(yùn)行時(shí)間：" + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}
　　}

　　10k消耗時(shí)間：125 62 187 94
　　100k消耗時(shí)間：704 625 640 766
　　1000k消耗時(shí)間：27984 30750 27859 30656
　　10000k消耗時(shí)間：OutOfMemoryError

　　最后是 DOM4J http://dom4j.sourceforge.net/

　　雖然 DOM4J 代表了完全獨(dú)立的開發(fā)結(jié)果，但最初，它是 JDOM 的一種智能分支。它合并了許多超出基本 XML 文檔表示的功能，包括集成的 XPath 支持、XML Schema 支持以及用于大文檔或流化文檔的基于事件的處理。它還提供了構(gòu)建文檔表示的選項(xiàng)，它通過 DOM4J API 和標(biāo)準(zhǔn) DOM 接口具有并行訪問功能。從 2000 下半年開始，它就一直處于開發(fā)之中。

　　為支持所有這些功能，DOM4J 使用接口和抽象基本類方法。DOM4J 大量使用了 API 中的 Collections 類，但是在許多情況下，它還提供一些替代方法以允許更好的性能或更直接的編碼方法。直接好處是，雖然 DOM4J 付出了更復(fù)雜的 API 的代價(jià)，但是它提供了比 JDOM 大得多的靈活性。

　　在添加靈活性、XPath 集成和對(duì)大文檔處理的目標(biāo)時(shí)，DOM4J 的目標(biāo)與 JDOM 是一樣的：針對(duì) Java 開發(fā)者的易用性和直觀操作。它還致力于成為比 JDOM 更完整的解決方案，實(shí)現(xiàn)在本質(zhì)上處理所有 Java/XML 問題的目標(biāo)。在完成該目標(biāo)時(shí)，它比 JDOM 更少?gòu)?qiáng)調(diào)防止不正確的應(yīng)用程序行為。

　　DOM4J 是一個(gè)非常非常優(yōu)秀的Java XML API，具有性能優(yōu)異、功能強(qiáng)大和極端易用使用的特點(diǎn)，同時(shí)它也是一個(gè)開放源代碼的軟件。如今你可以看到越來越多的 Java 軟件都在使用 DOM4J 來讀寫 XML，特別值得一提的是連 Sun 的 JAXM 也在用 DOM4J。

　　Bean文件：

　　package com.test;

　　import java.io.*;
　　import java.util.*;
　　import org.dom4j.*;
　　import org.dom4j.io.*;

　　public class MyXMLReader {

　　public static void main(String arge[]) {
　　long lasting = System.currentTimeMillis();
　　try {
　　　File f = new File("data_10k.xml");
　　　SAXReader reader = new SAXReader();
　　　Document doc = reader.read(f);
　　　Element root = doc.getRootElement();
　　　Element foo;
　　　for (Iterator i = root.elementIterator("VALUE"); i.hasNext();) {
　　　　foo = (Element) i.next();
　　　　System.out.print("車牌號(hào)碼:" + foo.elementText("NO"));
　　　　System.out.println(" 車主地址:" + foo.elementText("ADDR"));
　　　}
　　} catch (Exception e) {
　　　e.printStackTrace();
　　}
　　System.out.println("運(yùn)行時(shí)間：" + (System.currentTimeMillis() - lasting) + " 毫秒");
　　}
　　}

　　10k消耗時(shí)間：109 78 109 31
　　100k消耗時(shí)間：297 359 172 312
　　1000k消耗時(shí)間：2281 2359 2344 2469
　　10000k消耗時(shí)間：20938 19922 20031 21078

　　JDOM 和 DOM 在性能測(cè)試時(shí)表現(xiàn)不佳，在測(cè)試 10M 文檔時(shí)內(nèi)存溢出。在小文檔情況下還值得考慮使用 DOM 和 JDOM。雖然 JDOM 的開發(fā)者已經(jīng)說明他們期望在正式發(fā)行版前專注性能問題，但是從性能觀點(diǎn)來看，它確實(shí)沒有值得推薦之處。另外，DOM 仍是一個(gè)非常好的選擇。DOM 實(shí)現(xiàn)廣泛應(yīng)用于多種編程語言。它還是許多其它與 XML 相關(guān)的標(biāo)準(zhǔn)的基礎(chǔ)，因?yàn)樗将@得 W3C 推薦（與基于非標(biāo)準(zhǔn)的 Java 模型相對(duì)），所以在某些類型的項(xiàng)目中可能也需要它（如在 JavaScript 中使用 DOM）。

　　SAX表現(xiàn)較好，這要依賴于它特定的解析方式。一個(gè) SAX 檢測(cè)即將到來的XML流，但并沒有載入到內(nèi)存（當(dāng)然當(dāng)XML流被讀入時(shí)，會(huì)有部分文檔暫時(shí)隱藏在內(nèi)存中）。

　　無疑，DOM4J是這場(chǎng)測(cè)試的獲勝者，目前許多開源項(xiàng)目中大量采用 DOM4J，例如大名鼎鼎的 Hibernate 也用 DOM4J 來讀取 XML 配置文件。如果不考慮可移植性，那就采用DOM4J吧！