欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

橫向?qū)Ρ确治鯬ython解析XML的四種方式

 更新時(shí)間:2016年03月30日 11:33:22   作者:zhangshuyx  
這篇文章主要以橫向?qū)Ρ确绞椒治鯬ython解析XML的四種方式,感興趣的小伙伴們可以參考一下

在最初學(xué)習(xí)PYTHON的時(shí)候,只知道有DOM和SAX兩種解析方法,但是其效率都不夠理想,由于需要處理的文件數(shù)量太大,這兩種方式耗時(shí)太高無法接受。

在網(wǎng)絡(luò)搜索后發(fā)現(xiàn),目前應(yīng)用比較廣泛,且效率相對(duì)較高的ElementTree也是一個(gè)比較多人推薦的算法,于是拿這個(gè)算法來實(shí)測對(duì)比,ElementTree也包括兩種實(shí)現(xiàn),一個(gè)是普通ElementTree(ET),一個(gè)是ElementTree.iterparse(ET_iter)。

本文將對(duì)DOM、SAX、ET、ET_iter四種方式進(jìn)行橫向?qū)Ρ?,通過處理相同文件比較各個(gè)算法的用時(shí)來評(píng)估其效率。

程序中將四種解析方法均寫為函數(shù),在主程序中分別調(diào)用,來評(píng)估其解析效率。

解壓后的XML文件內(nèi)容示例為:

主程序函數(shù)調(diào)用部分代碼為:

  print("文件計(jì)數(shù):%d/%d." % (gz_cnt,paser_num))
  str_s,cnt = dom_parser(gz)
  #str_s,cnt = sax_parser(gz)
  #str_s,cnt = ET_parser(gz)
  #str_s,cnt = ET_parser_iter(gz)
  output.write(str_s)
  vs_cnt += cnt

在最初的函數(shù)調(diào)用中函數(shù)返回兩個(gè)值,但接收函數(shù)調(diào)用值時(shí)用兩個(gè)變量分別調(diào)用,導(dǎo)致每個(gè)函數(shù)都要執(zhí)行兩次,之后修改為一次調(diào)用兩個(gè)變量接收返回值,減少了無效調(diào)用。

1、DOM解析

函數(shù)定義代碼:

def dom_parser(gz):
  import gzip,cStringIO
  import xml.dom.minidom
  
  vs_cnt = 0
  str_s = ''
  file_io = cStringIO.StringIO()
  xm = gzip.open(gz,'rb')
  print("已讀入:%s.\n解析中:" % (os.path.abspath(gz)))
  doc = xml.dom.minidom.parseString(xm.read())
  bulkPmMrDataFile = doc.documentElement
  #讀入子元素
  enbs = bulkPmMrDataFile.getElementsByTagName("eNB")
  measurements = enbs[0].getElementsByTagName("measurement")
  objects = measurements[0].getElementsByTagName("object")
  #寫入csv文件
  for object in objects:
    vs = object.getElementsByTagName("v")
    vs_cnt += len(vs)
    for v in vs:
      file_io.write(enbs[0].getAttribute("id")+' '+object.getAttribute("id")+' '+\
      object.getAttribute("MmeUeS1apId")+' '+object.getAttribute("MmeGroupId")+' '+object.getAttribute("MmeCode")+' '+\
      object.getAttribute("TimeStamp")+' '+v.childNodes[0].data+'\n') #獲取文本值
  str_s = (((file_io.getvalue().replace(' \n','\r\n')).replace(' ',',')).replace('T',' ')).replace('NIL','')
  xm.close()
  file_io.close()
  return (str_s,vs_cnt)

程序運(yùn)行結(jié)果:

**************************************************
程序處理啟動(dòng)。
輸入目錄為:/tmcdata/mro2csv/input31/。
輸出目錄為:/tmcdata/mro2csv/output31/。
輸入目錄下.gz文件個(gè)數(shù)為:12,本次處理其中的12個(gè)。
**************************************************
文件計(jì)數(shù):1/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_234598_20160224060000.xml.gz.
解析中:
文件計(jì)數(shù):2/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_233798_20160224060000.xml.gz.
解析中:
文件計(jì)數(shù):3/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_123798_20160224060000.xml.gz.
解析中:
………………………………………
文件計(jì)數(shù):12/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_235598_20160224060000.xml.gz.
解析中:
VS行計(jì)數(shù):177849,運(yùn)行時(shí)間:107.077867,每秒處理行數(shù):1660。
已寫入:/tmcdata/mro2csv/output31/mro_0001.csv。

**************************************************
程序處理結(jié)束。
由于DOM解析需要將整個(gè)文件讀入內(nèi)存,并建立樹結(jié)構(gòu),其內(nèi)存消耗和時(shí)間消耗都比較高,但其優(yōu)點(diǎn)在于邏輯簡單,不需要定義回調(diào)函數(shù),便于實(shí)現(xiàn)。

2、SAX解析

函數(shù)定義代碼:

def sax_parser(gz):
  import os,gzip,cStringIO
  from xml.parsers.expat import ParserCreate

  #變量聲明
  d_eNB = {}
  d_obj = {}
  s = ''
  global flag 
  flag = False
  file_io = cStringIO.StringIO()
  
  #Sax解析類
  class DefaultSaxHandler(object):
    #處理開始標(biāo)簽
    def start_element(self, name, attrs):
      global d_eNB
      global d_obj
      global vs_cnt
      if name == 'eNB':
        d_eNB = attrs
      elif name == 'object':
        d_obj = attrs
      elif name == 'v':
        file_io.write(d_eNB['id']+' '+ d_obj['id']+' '+d_obj['MmeUeS1apId']+' '+d_obj['MmeGroupId']+' '+d_obj['MmeCode']+' '+d_obj['TimeStamp']+' ')
        vs_cnt += 1
      else:
        pass
    #處理中間文本
    def char_data(self, text):
      global d_eNB
      global d_obj
      global flag
      if text[0:1].isnumeric():
        file_io.write(text)
      elif text[0:17] == 'MR.LteScPlrULQci1':
        flag = True
        #print(text,flag)
      else:
        pass
    #處理結(jié)束標(biāo)簽
    def end_element(self, name):
      global d_eNB
      global d_obj
      if name == 'v':
        file_io.write('\n')
      else:
        pass
  
  #Sax解析調(diào)用
  handler = DefaultSaxHandler()
  parser = ParserCreate()
  parser.StartElementHandler = handler.start_element
  parser.EndElementHandler = handler.end_element
  parser.CharacterDataHandler = handler.char_data
  vs_cnt = 0
  str_s = ''
  xm = gzip.open(gz,'rb')
  print("已讀入:%s.\n解析中:" % (os.path.abspath(gz)))
  for line in xm.readlines():
    parser.Parse(line) #解析xml文件內(nèi)容
    if flag:
      break
  str_s = file_io.getvalue().replace(' \n','\r\n').replace(' ',',').replace('T',' ').replace('NIL','')  #寫入解析后內(nèi)容
  xm.close()
  file_io.close()
  return (str_s,vs_cnt)

程序運(yùn)行結(jié)果:

**************************************************
程序處理啟動(dòng)。
輸入目錄為:/tmcdata/mro2csv/input31/。
輸出目錄為:/tmcdata/mro2csv/output31/。
輸入目錄下.gz文件個(gè)數(shù)為:12,本次處理其中的12個(gè)。
**************************************************
文件計(jì)數(shù):1/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_234598_20160224060000.xml.gz.
解析中:
文件計(jì)數(shù):2/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_233798_20160224060000.xml.gz.
解析中:
文件計(jì)數(shù):3/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_123798_20160224060000.xml.gz.
解析中:
.........................................
文件計(jì)數(shù):12/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_235598_20160224060000.xml.gz.
解析中:
VS行計(jì)數(shù):177849,運(yùn)行時(shí)間:14.386779,每秒處理行數(shù):12361。
已寫入:/tmcdata/mro2csv/output31/mro_0001.csv。

**************************************************
程序處理結(jié)束。
SAX解析相比DOM解析,運(yùn)行時(shí)間大幅縮短,由于SAX采用逐行解析,對(duì)于處理較大文件其占用內(nèi)存也少,因此SAX解析是目前應(yīng)用較多的一種解析方法。其缺點(diǎn)在于需要自己實(shí)現(xiàn)回調(diào)函數(shù),邏輯較為復(fù)雜。

3、ET解析

函數(shù)定義代碼:

def ET_parser(gz):
  import os,gzip,cStringIO
  import xml.etree.cElementTree as ET

  vs_cnt = 0
  str_s = ''
  file_io = cStringIO.StringIO()
  xm = gzip.open(gz,'rb')
  print("已讀入:%s.\n解析中:" % (os.path.abspath(gz)))
  tree = ET.ElementTree(file=xm)
  root = tree.getroot()
  for elem in root[1][0].findall('object'):
      for v in elem.findall('v'):
          file_io.write(root[1].attrib['id']+' '+elem.attrib['TimeStamp']+' '+elem.attrib['MmeCode']+' '+\
          elem.attrib['id']+' '+ elem.attrib['MmeUeS1apId']+' '+ elem.attrib['MmeGroupId']+' '+ v.text+'\n')
      vs_cnt += 1
  str_s = file_io.getvalue().replace(' \n','\r\n').replace(' ',',').replace('T',' ').replace('NIL','')  #寫入解析后內(nèi)容
  xm.close()
  file_io.close()
  return (str_s,vs_cnt)

程序運(yùn)行結(jié)果:

**************************************************
程序處理啟動(dòng)。
輸入目錄為:/tmcdata/mro2csv/input31/。
輸出目錄為:/tmcdata/mro2csv/output31/。
輸入目錄下.gz文件個(gè)數(shù)為:12,本次處理其中的12個(gè)。
**************************************************
文件計(jì)數(shù):1/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_234598_20160224060000.xml.gz.
解析中:
文件計(jì)數(shù):2/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_233798_20160224060000.xml.gz.
解析中:
文件計(jì)數(shù):3/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_123798_20160224060000.xml.gz.
解析中:
...........................................
文件計(jì)數(shù):12/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_235598_20160224060000.xml.gz.
解析中:
VS行計(jì)數(shù):177849,運(yùn)行時(shí)間:4.308103,每秒處理行數(shù):41282。
已寫入:/tmcdata/mro2csv/output31/mro_0001.csv。

**************************************************
程序處理結(jié)束。
相較于SAX解析,ET解析時(shí)間更短,并且函數(shù)實(shí)現(xiàn)也比較簡單,所以ET具有類似DOM的簡單邏輯實(shí)現(xiàn)且匹敵SAX的解析效率,因此ET是目前XML解析的首選。

4、ET_iter解析

函數(shù)定義代碼:

def ET_parser_iter(gz):
  import os,gzip,cStringIO
  import xml.etree.cElementTree as ET

  vs_cnt = 0
  str_s = ''
  file_io = cStringIO.StringIO()
  xm = gzip.open(gz,'rb')
  print("已讀入:%s.\n解析中:" % (os.path.abspath(gz)))
  d_eNB = {}
  d_obj = {}
  i = 0
  for event,elem in ET.iterparse(xm,events=('start','end')):
    if i >= 2:
      break    
    elif event == 'start':
          if elem.tag == 'eNB':
              d_eNB = elem.attrib
          elif elem.tag == 'object':
        d_obj = elem.attrib
      elif event == 'end' and elem.tag == 'smr':
      i += 1
    elif event == 'end' and elem.tag == 'v':
      file_io.write(d_eNB['id']+' '+d_obj['TimeStamp']+' '+d_obj['MmeCode']+' '+d_obj['id']+' '+\
      d_obj['MmeUeS1apId']+' '+ d_obj['MmeGroupId']+' '+str(elem.text)+'\n')
          vs_cnt += 1
      elem.clear()
  str_s = file_io.getvalue().replace(' \n','\r\n').replace(' ',',').replace('T',' ').replace('NIL','')  #寫入解析后內(nèi)容
  xm.close()
  file_io.close()
  return (str_s,vs_cnt)

程序運(yùn)行結(jié)果:

**************************************************
程序處理啟動(dòng)。
輸入目錄為:/tmcdata/mro2csv/input31/。
輸出目錄為:/tmcdata/mro2csv/output31/。
輸入目錄下.gz文件個(gè)數(shù)為:12,本次處理其中的12個(gè)。
**************************************************
文件計(jì)數(shù):1/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_234598_20160224060000.xml.gz.
解析中:
文件計(jì)數(shù):2/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_233798_20160224060000.xml.gz.
解析中:
文件計(jì)數(shù):3/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_123798_20160224060000.xml.gz.
解析中:
...................................................
文件計(jì)數(shù):12/12.
已讀入:/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_235598_20160224060000.xml.gz.
解析中:
VS行計(jì)數(shù):177849,運(yùn)行時(shí)間:3.043805,每秒處理行數(shù):58429。
已寫入:/tmcdata/mro2csv/output31/mro_0001.csv。

**************************************************
程序處理結(jié)束。
在引入了ET_iter解析后,解析效率比ET提升了近50%,而相較于DOM解析更是提升了35倍,在解析效率提升的同時(shí),由于其采用了iterparse這個(gè)循序解析的工具,其內(nèi)存占用也是比較小的。

所以,小伙伴們,請(qǐng)好好利用這幾種工具吧。
以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助。

相關(guān)文章

  • 解決python執(zhí)行不輸出系統(tǒng)命令彈框的問題

    解決python執(zhí)行不輸出系統(tǒng)命令彈框的問題

    今天小編就為大家分享一篇解決python執(zhí)行不輸出系統(tǒng)命令彈框的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06
  • tkinter禁用(只讀)下拉列表Combobox問題

    tkinter禁用(只讀)下拉列表Combobox問題

    這篇文章主要介紹了tkinter禁用(只讀)下拉列表Combobox問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-01-01
  • Python?OpenCV的基本使用及相關(guān)函數(shù)

    Python?OpenCV的基本使用及相關(guān)函數(shù)

    這篇文章主要介紹了Python-OpenCV的基本使用和相關(guān)函數(shù)介紹,主要包括圖像的讀取保存圖像展示問題,結(jié)合實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2022-05-05
  • python使用wxpython開發(fā)簡單記事本的方法

    python使用wxpython開發(fā)簡單記事本的方法

    這篇文章主要介紹了python使用wxpython開發(fā)簡單記事本的方法,涉及Python使用wxPython實(shí)現(xiàn)桌面圖形應(yīng)用程序的技巧,需要的朋友可以參考下
    2015-05-05
  • Python列表計(jì)數(shù)及插入實(shí)例

    Python列表計(jì)數(shù)及插入實(shí)例

    這篇文章主要介紹了Python列表計(jì)數(shù)及插入的用法,以實(shí)例形式對(duì)列表的計(jì)數(shù)與插入用法做了較為詳細(xì)的分析,需要的朋友可以參考下
    2014-12-12
  • windows下Python實(shí)現(xiàn)將pdf文件轉(zhuǎn)化為png格式圖片的方法

    windows下Python實(shí)現(xiàn)將pdf文件轉(zhuǎn)化為png格式圖片的方法

    這篇文章主要介紹了windows下Python實(shí)現(xiàn)將pdf文件轉(zhuǎn)化為png格式圖片的方法,結(jié)合實(shí)例形式較為詳細(xì)的分析了Python實(shí)現(xiàn)將pdf轉(zhuǎn)換為png格式的相關(guān)模塊、使用方法與相關(guān)注意事項(xiàng),需要的朋友可以參考下
    2017-07-07
  • Python并發(fā)concurrent.futures和asyncio實(shí)例

    Python并發(fā)concurrent.futures和asyncio實(shí)例

    這篇文章主要介紹了Python并發(fā)concurrent.futures和asyncio實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • Pygame框架實(shí)現(xiàn)飛機(jī)大戰(zhàn)

    Pygame框架實(shí)現(xiàn)飛機(jī)大戰(zhàn)

    這篇文章主要為大家詳細(xì)介紹了Pygame框架實(shí)現(xiàn)飛機(jī)大戰(zhàn),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2020-08-08
  • Python正則表達(dá)式急速入門(小結(jié))

    Python正則表達(dá)式急速入門(小結(jié))

    這篇文章主要介紹了Python正則表達(dá)式急速入門(小結(jié)),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-12-12
  • python將字符串list寫入excel和txt的實(shí)例

    python將字符串list寫入excel和txt的實(shí)例

    今天小編就為大家分享一篇python將字符串list寫入excel和txt的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07

最新評(píng)論