利用Python如何將數(shù)據(jù)寫到CSV文件中
前言
我們從網(wǎng)上爬取數(shù)據(jù),最后一步會考慮如何存儲數(shù)據(jù)。如果數(shù)據(jù)量不大,往往不會選擇存儲到數(shù)據(jù)庫,而是選擇存儲到文件中,例如文本文件、CSV 文件、xls 文件等。因為文件具備攜帶方便、查閱直觀。
Python 作為膠水語言,搞定這些當(dāng)然不在話下。但在寫數(shù)據(jù)過程中,經(jīng)常因數(shù)據(jù)源中帶有中文漢字而報錯。最讓人頭皮發(fā)麻的編碼問題。
我先說下編碼相關(guān)的知識。編碼方式有很多種:UTF-8, GBK, ASCII 等。
ASCII 碼是美國在上個世紀(jì) 60 年代制定的一套字符編碼。主要是規(guī)范英語字符和二進制位之間的關(guān)系。英語詞匯組成簡單,由 26 個字母構(gòu)成。使用一個字節(jié)就能表示一個字母符號。外加各種符號,使用 128 個字符就滿足編碼要求。
不同國家有不同語言文字。同時,文字組成部分的數(shù)量相比英語字母要多很多。根據(jù)不完全統(tǒng)計,漢字的數(shù)量大約將近 10 萬個,日常所使用的漢字有 3000 個。顯然,ASCII 編碼無法滿足需求。所以漢字采用 GBK 編碼,使用兩個字節(jié)表示一個漢字。簡體中文的編碼方式是 GBK2312。
那 UTF-8 又是什么編碼?這要先說 Unicode 了。Unicode 目的是為了統(tǒng)一各種編碼。因為各國都各自的編碼方式。如果使用一種編碼編碼,使用另一種編碼解碼。這會造成出現(xiàn)亂碼的情況。但 Unicode 只是一個符號集,它只規(guī)定了符號的二進制代碼,卻沒有規(guī)定這個二進制代碼應(yīng)該如何存儲。UTF-8 就是在互聯(lián)網(wǎng)上使用最廣的一種 Unicode 的實現(xiàn)方式。
因此,如果我們要寫數(shù)據(jù)到文件中,最好指定編碼形式為 UTF-8。
Python 標(biāo)準(zhǔn)庫中,有個名為 csv 的庫,專門處理 csv 的讀寫操作。
Python csv模塊封裝了常用的功能,使用的簡單例子如下:
# 讀取csv文件 import csv with open('some.csv', 'rb') as f: # 采用b的方式處理可以省去很多問題 reader = csv.reader(f) for row in reader: # do something with row, such as row[0],row[1] import csv with open('some.csv', 'wb') as f: # 采用b的方式處理可以省去很多問題 writer = csv.writer(f) writer.writerows(someiterable)
具體使用實例如下:
import csv import codecs # codecs 是自然語言編碼轉(zhuǎn)換模塊 fileName = 'PythonBook.csv' # 指定編碼為 utf-8, 避免寫 csv 文件出現(xiàn)中文亂碼 with codecs.open(fileName, 'w', 'utf-8') as csvfile: # 指定 csv 文件的頭部顯示項 filednames = ['書名', '作者'] writer = csv.DictWriter(csvfile, fieldnames=filednames) books = [] book = { 'title': '笑傲江湖', 'author': '金庸', } books.append(book) writer.writeheader() for book in books: try: writer.writerow({'書名':book['title'], '作者':book['author']}) except UnicodeEncodeError: print("編碼錯誤, 該數(shù)據(jù)無法寫到文件中, 直接忽略該數(shù)據(jù)")
這種方式是逐行往 CSV 文件中寫數(shù)據(jù), 所以效率會比較低。如果想批量將數(shù)據(jù)寫到 CSV 文件中,需要用到 pandas 庫。
pandas 是第三方庫,所以使用之前需要安裝。通過 pip 方式安裝是最簡單、最方便的。
pip install pandas
使用 pandas 批量寫數(shù)據(jù)的用法如下:
import pandas as pd fileName = 'PythonBook.csv' number = 1 books = [] book = { 'title': '笑傲江湖', 'author': '金庸', } # 如果 book 條數(shù)足夠多的話,pandas 會每次往文件中寫 50 條數(shù)據(jù)。 books.append(book) data = pd.DataFrame(books) # 寫入csv文件,'a+'是追加模式 try: if number == 1: csv_headers = ['書名', '作者'] data.to_csv(fileName, header=csv_headers, index=False, mode='a+', encoding='utf-8') else: data.to_csv('fileName, header=False, index=False, mode='a+', encoding='utf-8') number = number + 1 except UnicodeEncodeError: print("編碼錯誤, 該數(shù)據(jù)無法寫到文件中, 直接忽略該數(shù)據(jù)")
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
python結(jié)合opencv實現(xiàn)人臉檢測與跟蹤
在Python下用起來OpenCV很爽,代碼很簡潔,很清晰易懂。使用的是Haar特征的分類器,訓(xùn)練之后得到的數(shù)據(jù)存在一個xml中。下面我們就來詳細談?wù)劇?/div> 2015-06-06Pycharm自動添加文件頭注釋和函數(shù)注釋參數(shù)的方法
這篇文章主要介紹了Pycharm自動添加文件頭注釋和函數(shù)注釋參數(shù),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-10-10Python 調(diào)用 Outlook 發(fā)送郵件過程解析
這篇文章主要介紹了Python 調(diào)用 Outlook 發(fā)送郵件過程解析,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-08-08Python函數(shù)__new__及__init__作用及區(qū)別解析
這篇文章主要介紹了Python函數(shù)__new__及__init__作用及區(qū)別解析,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-08-08最新評論