python解析基于xml格式的日志文件

更新時間：2017年02月25日 15:48:55 作者：程序猿全敏

這篇文章主要為大家詳細介紹了python如何解析基于xml格式的日志文件，具有一定的參考價值，感興趣的小伙伴們可以參考一下

大家中午好，由于過年一直還沒回到狀態(tài)，好久沒分享一波小知識了，今天，繼續(xù)給大家分享一波Python解析日志的小腳本。

首先，同樣的先看看日志是個啥樣。

都是xml格式的，是不是看著就頭暈了？？沒事，我們先來分析一波。

1.每一段開頭都是catalina-exec，那么我們就按catalina-exec來分，分了之后，他們就都是一段一段的了。

2.然后，我們再在已經分好的一段段里面分，找出你要分割的關鍵字，因為是xml的，所以，接下來的工作就簡單了，都是一個頭一個尾的。

3.但是還有一個問題，有可能有的里面沒有你想要的關鍵字，所以你要判斷下，如果沒有這個字段，那么我就把這個字段設置為空。

思路清晰了，代碼自然而然就簡單了。

接下來我們就看看代碼

#coding:utf-8 
import re 
#文本所在TXT文件 
file = 'iag_interface.log' 
#分割一段 
xml1='catalina-exec' 
xml2='catalina-exec' 
#關鍵字reqtimestamp 
time1 = '<timestamp>' 
time2 = '</timestamp>' 
#關鍵字functionid 
functionid1 = '<functionid>' 
functionid2 = '</functionid>' 
#關鍵字transid 
transid1='<transid>' 
transid2='</transid>' 
#關鍵字siappid 
siappid1='<siappid>' 
siappid2='</siappid>' 
#關鍵字userid 
userid1='<userid>' 
userid2='</userid>' 
#關鍵字mobnum 
mobnum1='<mobnum>' 
mobnum2='</mobnum>' 
f = open(file,'r',encoding= 'utf-8') 
#f = open(file,'r') 
#for (num,value) in enumerate(f): 
 #print("line number",num,"is:",value) 
buff = f.read() 
#清除換行符,請取消下一行注釋 
#buff = buff.replace('\n','') 
pat = re.compile(time1+'(.*?)'+time2,re.S) 
pat1 = re.compile(functionid1+'(.*?)'+functionid2,re.S) 
pat2 = re.compile(transid1+'(.*?)'+transid2,re.S) 
pat3 = re.compile(siappid1+'(.*?)'+siappid2,re.S) 
pat4 = re.compile(userid1+'(.*?)'+userid2,re.S) 
pat5 = re.compile(mobnum1+'(.*?)'+mobnum2,re.S) 
pat6=re.compile(xml1+'(.*?)'+xml2,re.S) 
result6 = pat6.findall(buff) 
print(len(result6)) 
x = open("logfx.txt", 'w') 
x.write("===========================開始數(shù)據(jù)================================="+"\n") 
x.write("time"+"\t"+"functionid"+"\t"+"transid"+"\t"+"siappid"+"\t"+"userid"+"\t"+"mobnum"+"\n") 
for i in range(0,len(result6)): 
 result = pat.findall(result6[i]) 
 result1 = pat1.findall(result6[i]) 
 result2 = pat2.findall(result6[i]) 
 result3 = pat3.findall(result6[i]) 
 result4 = pat4.findall(result6[i]) 
 result5 = pat5.findall(result6[i]) 
 if len(result)==0: 
  result.append("空") 
 if len(result1)==0: 
  result1.append("空") 
 if len(result2)==0: 
  result2.append("空") 
 if len(result3)==0: 
  result3.append("空") 
 if len(result4)==0: 
  result4.append("空") 
 if len(result5)==0: 
  result5.append("空") 
 #print(result[0],"=",result1[0],"=",result2[0],"=",result3[0],"=",result4[0],"=",result5[0]) 
 x.write("timestamp:"+result[0]+"\t"+result1[0]+"\t"+result2[0]+"\t"+result3[0]+"\t"+result4[0]+"\t"+"mobnum:"+result5[0]+"\n") 
x.write("===========================結束數(shù)據(jù)================================="+"\n")  
print("執(zhí)行完畢!生成文件logfx.txt") 
x.close()

運行下代碼