一文秒懂python讀寫(xiě)csv xml json文件各種騷操作
Python優(yōu)越的靈活性和易用性使其成為最受歡迎的編程語(yǔ)言之一,尤其是對(duì)數(shù)據(jù)科學(xué)家而言。 這在很大程度上是因?yàn)槭褂肞ython處理大型數(shù)據(jù)集是很簡(jiǎn)單的一件事情。
如今,每家科技公司都在制定數(shù)據(jù)戰(zhàn)略。 他們都意識(shí)到,擁有正確的數(shù)據(jù)(干凈、盡可能多)會(huì)給他們帶來(lái)關(guān)鍵的競(jìng)爭(zhēng)優(yōu)勢(shì)。 數(shù)據(jù),如果使用有效,可以提供深層次的、隱藏在表象之下的信息。
多年來(lái),數(shù)據(jù)存儲(chǔ)的可能格式顯著增加,但是,在日常使用中,還是以 CSV 、 JSON 和 XML 占主導(dǎo)地位。 在本文中,我將與你分享在Python中使用這三種流行數(shù)據(jù)格式及其之間相互轉(zhuǎn)換的最簡(jiǎn)單方法!
CSV 數(shù)據(jù)
CSV文件是存儲(chǔ)數(shù)據(jù)的最常見(jiàn)方式,你會(huì)發(fā)現(xiàn),Kaggle競(jìng)賽中的大多數(shù)數(shù)據(jù)都是以這種方式存儲(chǔ)的。 我們可以使用Python內(nèi)置的csv庫(kù)讀寫(xiě)CSV文件,通常,我們將數(shù)據(jù)讀入一個(gè)列表中,列表中每個(gè)元素又是一個(gè)列表,代表一行數(shù)據(jù)。
觀察下面的代碼,當(dāng)我們運(yùn)行 csv.reader() 時(shí),就可以訪問(wèn)到我們指定的CSV數(shù)據(jù)文件。 而 csvreader.next() 函數(shù)的作用是從CSV中讀取一行,每次調(diào)用它,它都會(huì)移動(dòng)到下一行。 我們還可以通過(guò) for row in csvreader 使用for循環(huán)遍歷csv的每一行。 另外,最好確保每一行的列數(shù)相同,否則,在處理列表時(shí)可能會(huì)遇到一些錯(cuò)誤。
import csv filename = "my_data.csv" fields = [] rows = [] # 讀取csv文件 with open(filename, 'r') as csvfile: # 創(chuàng)建一個(gè)csv reader對(duì)象 csvreader = csv.reader(csvfile) # 從文件中第一行中讀取屬性名稱信息 # fields = next(csvreader) python3.2 以上的版本使用 fields = csvreader.next() # 接著一行一行讀取數(shù)據(jù) for row in csvreader: rows.append(row) # 打印前5行信息 for row in rows[:5]: print(row)
在Python將數(shù)據(jù)寫(xiě)入CSV也很容易,在一個(gè)單獨(dú)的列表中設(shè)置屬性名稱,并將要寫(xiě)入的數(shù)據(jù)存儲(chǔ)在一個(gè)列表中。 這一次,我們將創(chuàng)建一個(gè) writer() 對(duì)象,并使用它將數(shù)據(jù)寫(xiě)入文件,這與我們讀取數(shù)據(jù)的方式非常相似。
import csv # 屬性名稱 fields = ['Name', 'Goals', 'Assists', 'Shots'] # csv文件中每一行的數(shù)據(jù),一行為一個(gè)列表 rows = [ ['Emily', '12', '18', '112'], ['Katie', '8', '24', '96'], ['John', '16', '9', '101'], ['Mike', '3', '14', '82']] filename = "soccer.csv" # 將數(shù)據(jù)寫(xiě)入到csv文件中 with open(filename, 'w+') as csvfile: # 創(chuàng)建一個(gè)csv writer對(duì)象 csvwriter = csv.writer(csvfile) # 寫(xiě)入屬性名稱 csvwriter.writerow(fields) # 寫(xiě)入數(shù)據(jù) csvwriter.writerows(rows)
當(dāng)然,使用強(qiáng)大的pandas庫(kù)將會(huì)使處理數(shù)據(jù)變得容易很多,從CSV讀取和寫(xiě)入文件都只需要一行代碼!
import pandas as pd filename = "my_data.csv" # 讀取csv文件數(shù)據(jù) data = pd.read_csv(filename) # 打印前5行 print(data.head(5)) # 將數(shù)據(jù)寫(xiě)入到csv文件中 data.to_csv("new_data.csv", sep=",", index=False)
我們甚至可以使用pandas通過(guò)一行代碼快速將CSV轉(zhuǎn)換為字典列表。 轉(zhuǎn)換為字典列表之后,我們可以使用 dicttoxml 庫(kù)將其轉(zhuǎn)換為XML格式,我們還可以將它保存為JSON文件!
import pandas as pd from dicttoxml import dicttoxml import json # 創(chuàng)建一個(gè)DataFrame data = {'Name': ['Emily', 'Katie', 'John', 'Mike'], 'Goals': [12, 8, 16, 3], 'Assists': [18, 24, 9, 14], 'Shots': [112, 96, 101, 82] } df = pd.DataFrame(data, columns=data.keys()) # 將DataFrame轉(zhuǎn)化為一個(gè)字典并且將它存儲(chǔ)到j(luò)son文件中 data_dict = df.to_dict(orient="records") with open('output.json', "w+") as f: json.dump(data_dict, f, indent=4) # 將DataFrame轉(zhuǎn)化為一個(gè)字典并且將它存儲(chǔ)到xml文件中 xml_data = dicttoxml(data_dict).decode() with open("output.xml", "w+") as f: f.write(xml_data)
JSON數(shù)據(jù)
JSON提供了一種干凈且易于閱讀的格式,因?yàn)樗S護(hù)了一個(gè)字典風(fēng)格的結(jié)構(gòu)。 就像CSV一樣,Python有一個(gè)內(nèi)置的json模塊,使讀寫(xiě)變得超級(jí)容易! 從上面的例子可以看到當(dāng)我們讀取CSV時(shí),可以將數(shù)據(jù)以字典的形式存儲(chǔ),然后再將字典寫(xiě)入文件。
import json import pandas as pd # 使用json模塊從json文件中讀取數(shù)據(jù) # 以字典形式存儲(chǔ) with open('data.json') as f: data_listofdict = json.load(f) # 也可以直接使用pandas直接讀取json文件 data_df = pd.read_json('data.json', orient='records') # 將字典數(shù)據(jù)保存為json文件 # 并使用 'indent' and 'sort_keys' 格式化json文件 with open('new_data.json', 'w+') as json_file: json.dump(data_listofdict, json_file, indent=4, sort_keys=True) # 也可以使用pandas將字典結(jié)構(gòu)的數(shù)據(jù)保存為json文件 export = data_df.to_json('new_data.json', orient='records')
正如我們之前看到的,我們可以通過(guò)pandas或者使用Python的內(nèi)置csv模塊輕松地將我們的數(shù)據(jù)存儲(chǔ)為CSV文件,而在轉(zhuǎn)化為成XML時(shí),我們使用的是 dicttoxml 庫(kù)。
import json import pandas as pd import csv # 從json文件中讀取數(shù)據(jù) # 數(shù)據(jù)存儲(chǔ)在一個(gè)字典列表中 with open('data.json') as f: data_listofdict = json.load(f) # 以列表中的字典寫(xiě)入倒csv文件中 keys = data_listofdict[0].keys() with open('saved_data.csv', 'w') as output_file: dict_writer = csv.DictWriter(output_file, keys) dict_writer.writeheader() dict_writer.writerows(data_listofdict)
XML數(shù)據(jù)
XML有點(diǎn)不同于CSV和JSON。 通常,CSV和JSON由于其簡(jiǎn)單性而被廣泛使用。 它們讀、寫(xiě)和解釋起來(lái)既簡(jiǎn)單又快捷,不需要額外的工作,而且解析JSON或CSV是非常輕量級(jí)的。
另一方面,XML往往數(shù)據(jù)量要大一些。 你如果正在發(fā)送更多的數(shù)據(jù),這意味著你需要更多的帶寬、更多的存儲(chǔ)空間和更多的運(yùn)行時(shí)間。 但是與JSON和CSV相比,XML確實(shí)具有一些額外的特性: 你可以使用名稱空間來(lái)構(gòu)建和共享標(biāo)準(zhǔn)結(jié)構(gòu)、更好的繼承表示,以及用XML schema、DTD等表示數(shù)據(jù)的行業(yè)標(biāo)準(zhǔn)化方法。
要讀取XML數(shù)據(jù),我們將使用Python內(nèi)置的XML模塊的子模塊ElementTree。 這里,我們可以使用 xmltodict 庫(kù)將ElementTree對(duì)象轉(zhuǎn)換為字典。 一旦有了字典,我們就可以像上面一樣將字典換轉(zhuǎn)換為CSV、JSON或pandas的 DataFrame !
import xml.etree.ElementTree as ET import xmltodict import json tree = ET.parse('output.xml') xml_data = tree.getroot() xmlstr = ET.tostring(xml_data, encoding='utf8', method='xml') data_dict = dict(xmltodict.parse(xmlstr)) print(data_dict) with open('new_data_2.json', 'w+') as json_file: json.dump(data_dict, json_file, indent=4, sort_keys=True)
總結(jié)
以上所述是小編給大家介紹的一文綜述python讀寫(xiě)csv xml json文件各種騷操作,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
如果你覺(jué)得本文對(duì)你有幫助,歡迎轉(zhuǎn)載,煩請(qǐng)注明出處,謝謝!
相關(guān)文章
python之np.argmax()及對(duì)axis=0或者1的理解
這篇文章主要介紹了python之np.argmax()及對(duì)axis=0或者1的理解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-06-06淺談python元素如何去重,去重后如何保持原來(lái)元素的順序不變
這篇文章主要介紹了淺談python元素如何去重,去重后如何保持原來(lái)元素的順序不變?具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02python列表嵌套引發(fā)的問(wèn)題總結(jié)
這篇文章主要介紹了python列表嵌套引發(fā)的問(wèn)題總結(jié),下面問(wèn)文章引發(fā)問(wèn)題來(lái)自日常工作總結(jié),具有一定的參考價(jià)值需要的小伙伴可以參考一下2022-05-05win10系統(tǒng)下python3安裝及pip換源和使用教程
這篇文章主要介紹了win10系統(tǒng)下python3安裝及pip換源和使用教程,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-01-01Python控制臺(tái)輸出時(shí)刷新當(dāng)前行內(nèi)容而不是輸出新行的實(shí)現(xiàn)
今天小編就為大家分享一篇Python控制臺(tái)輸出時(shí)刷新當(dāng)前行內(nèi)容而不是輸出新行的實(shí)現(xiàn),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02Python使用Tkinter實(shí)現(xiàn)轉(zhuǎn)盤(pán)抽獎(jiǎng)器的步驟詳解
這篇文章主要介紹了Python使用Tkinter實(shí)現(xiàn)轉(zhuǎn)盤(pán)抽獎(jiǎng)器,,本文分場(chǎng)景通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-01-01如何用Python來(lái)理一理紅樓夢(mèng)里的那些關(guān)系
這篇文章主要介紹了用Python來(lái)理一理紅樓夢(mèng)里的那些關(guān)系代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08Pandas之drop_duplicates:去除重復(fù)項(xiàng)方法
下面小編就為大家分享一篇Pandas之drop_duplicates:去除重復(fù)項(xiàng)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04