用python標(biāo)準(zhǔn)庫(kù)difflib比較兩份文件的異同詳解
【需求背景】
有時(shí)候我們要對(duì)比兩份配置文件是不是一樣,或者比較兩個(gè)文本是否異樣,可以使用linux命令行工具diff a_file b_file,但是輸出的結(jié)果讀起來不是很友好。這時(shí)候使用python的標(biāo)準(zhǔn)庫(kù)difflib就能滿足我們的需求。
下面這個(gè)腳本使用了difflib和argparse,argparse用于解析我們給此腳本傳入的兩個(gè)參數(shù)(即兩份待比較的文件),由difflib執(zhí)行比較,比較的結(jié)果放到了一個(gè)html里面,只要找個(gè)瀏覽器打開此html文件,就能直觀地看到比較結(jié)果,兩份文件有差異的地方會(huì)高亮顯示出來。
【程序正文】
以python2.7為例,compare_two_files.py程序正文:
#!/bin/env python # -*- coding: utf-8 -*- # 20180430 import difflib import sys import argparse # 讀取建表語(yǔ)句或配置文件 def read_file(file_name): try: file_desc = open(file_name, 'r') # 讀取后按行分割 text = file_desc.read().splitlines() file_desc.close() return text except IOError as error: print 'Read input file Error: {0}'.format(error) sys.exit() # 比較兩個(gè)文件并把結(jié)果生成一份html文本 def compare_file(file1, file2): if file1 == "" or file2 == "": print '文件路徑不能為空:第一個(gè)文件的路徑:{0}, 第二個(gè)文件的路徑:{1} .'.format(file1, file2) sys.exit() else: print "正在比較文件{0} 和 {1}".format(file1, file2) text1_lines = read_file(file1) text2_lines = read_file(file2) diff = difflib.HtmlDiff() # 創(chuàng)建HtmlDiff 對(duì)象 result = diff.make_file(text1_lines, text2_lines) # 通過make_file 方法輸出 html 格式的對(duì)比結(jié)果 # 將結(jié)果寫入到result_comparation.html文件中 try: with open('result_comparation.html', 'w') as result_file: result_file.write(result) print "0==}==========> Successfully Finished\n" except IOError as error: print '寫入html文件錯(cuò)誤:{0}'.format(error) if __name__ == "__main__": # To define two arguments should be passed in, and usage: -f1 fname1 -f2 fname2 my_parser = argparse.ArgumentParser(description="傳入兩個(gè)文件參數(shù)") my_parser.add_argument('-f1', action='store', dest='fname1', required=True) my_parser.add_argument('-f2', action='store', dest='fname2', required=True) # retrieve all input arguments given_args = my_parser.parse_args() file1 = given_args.fname1 file2 = given_args.fname2 compare_file(file1, file2)
【待比較的文件】
兩份文件分別是old_ddl_file和new_ddl_file,內(nèi)容分別是—— old_ddl_file文件內(nèi)容 CREATE EXTERNAL TABLE raw_tags( p0 string COMMENT ‘uid', p3 string COMMENT ‘tag name, e.g. news, games, fairs, shoopingURL', p4 string COMMENT ‘e.g. 0, Games', p11 int COMMENT ‘gender', dt string COMMENT ‘date, like 26/6/2017', action string COMMENT ‘clickmodule, click_taghead_link, clicklink') CLUSTERED BY ( dt) INTO 4 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,' STORED AS INPUTFORMAT ‘org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION ‘hdfs://hdfs-ha/apps/hive/warehouse/ksai.db/raw_tags' TBLPROPERTIES ( ‘numFiles'='1', ‘numRows'='0', ‘rawDataSize'='0', ‘totalSize'='70575510', ‘transient_lastDdlTime'='1500469448') new_ddl_file文件內(nèi)容 CREATE EXTERNAL TABLE raw_tags( p0 string COMMENT ‘uid', p3 string COMMENT ‘tag name, e.g. news, games, fairs, shoopingURL', p4 string COMMENT ‘e.g. 0, Games', p11 int COMMENT ‘gender', dt string COMMENT ‘date, like 26/6/2017', action string COMMENT ‘clickmodule, click_taghead_link, clicklink') ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,' STORED AS INPUTFORMAT ‘org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION ‘hdfs://hdfs-ha/apps/hive/warehouse/ksai.db/raw_tags' TBLPROPERTIES ( ‘COLUMN_STATS_ACCURATE'='{\”BASIC_STATS\”:\”true\”}', ‘numFiles'='0', ‘numRows'='0', ‘rawDataSize'='0', ‘totalSize'='0', ‘transient_lastDdlTime'='1521546069')
肉眼很難看出來區(qū)別吧?
【執(zhí)行結(jié)果】
那么就使用上面的腳本來比較,在linux命令行的使用方法 python -f1 file1 -f2 file2 也就是:
python compare_two_files.py -f1 old_ddl_file -f2 new_ddl_file
再把運(yùn)行結(jié)果產(chǎn)生的html文件下載到本地,用任一種瀏覽器打開即可,如截圖:
運(yùn)行結(jié)果:
使用瀏覽器查看html文件,可以看到,里面給出了各種顏色標(biāo)注的圖例說明,一目了然。
以上這篇用python標(biāo)準(zhǔn)庫(kù)difflib比較兩份文件的異同詳解就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python編程實(shí)現(xiàn)生成特定范圍內(nèi)不重復(fù)多個(gè)隨機(jī)數(shù)的2種方法
這篇文章主要介紹了Python編程實(shí)現(xiàn)生成特定范圍內(nèi)不重復(fù)多個(gè)隨機(jī)數(shù)的2種方法,涉及Python基于random生成隨機(jī)數(shù)的常見操作技巧,需要的朋友可以參考下2017-04-04Django中Q查詢及Q()對(duì)象 F查詢及F()對(duì)象用法
這篇文章主要介紹了Django中Q查詢及Q()對(duì)象 F查詢及F()對(duì)象用法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-07-07Python 協(xié)程與 JavaScript 協(xié)程的對(duì)比
當(dāng)漸漸對(duì) JavaScript 了解后,一查發(fā)現(xiàn) Python 和 JavaScript 的協(xié)程發(fā)展史簡(jiǎn)直就是一毛一樣!接下來小編就大致做下橫向?qū)Ρ群涂偨Y(jié),便于對(duì)這兩個(gè)語(yǔ)言有興趣的新人理解和吸收。2021-09-09詳盡講述用Python的Django框架測(cè)試驅(qū)動(dòng)開發(fā)的教程
這篇文章主要介紹了詳盡講述用Python的Django框架測(cè)試驅(qū)動(dòng)開發(fā)的教程,主要使用TDD工具,全文介紹非常詳細(xì),需要的朋友可以參考下2015-04-04最新PyCharm從安裝到PyCharm永久激活再到PyCharm官方中文漢化詳細(xì)教程
這篇文章涵蓋了最新版PyCharm安裝教程,最新版PyCharm永久激活碼教程,PyCharm官方中文(漢化)版安裝教程圖文并茂非常詳細(xì),需要的朋友可以參考下2020-11-11python爬蟲使用正則爬取網(wǎng)站的實(shí)現(xiàn)
這篇文章主要介紹了python爬蟲使用正則爬取網(wǎng)站的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08python中count函數(shù)知識(shí)點(diǎn)淺析
在本篇文章里小編給大家整理了一篇關(guān)于python中count函數(shù)知識(shí)點(diǎn)淺析內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。2020-12-12