python 快速把超大txt文件轉存為csv的實例

更新時間：2018年10月26日 15:11:45 作者：nudt_qxx

今天小編就為大家分享一篇python 快速把超大txt文件轉存為csv的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

今天項目有個需求，就是把txt文件轉為csv，txt之間是空格隔開，轉為csv時需要把空格轉換為逗號，網上找的一個版本，只需要三行代碼，特別犀利：

import numpy as np
import pandas as pd

data_txt = np.loadtxt('datas_train.txt')
data_txtDF = pd.DataFrame(data_txt)
data_txtDF.to_csv('datas_train.csv',index=False)

上述的datas_train.txt只有不到100MB，560W行數據，三分鐘之內轉換完畢。

然后我換了一個5600W行共1.2G的txt文本，用上述代碼轉換，電腦直接卡死了。

原因在于上述代碼會把全部的txt加載進內存，然后再轉換，這就會造成電腦內存耗盡。

然后就想到了切割數據的辦法，具體實現如下：

import numpy as np
import pandas as pd


train_data = pd.read_table('big_data.txt',iterator=True,header=None)

while True:
 try:
  chunk = train_data.get_chunk(5600000)
  chunk.columns = ['user_id','spu_id','buy_or_not','date']
  chunk.to_csv('big_data111.csv', mode='a',header=False,index = None)
 except Exception as e:
  break

這里我把數據分成了小塊，每塊數據有560W行，分11次加載就能全部加載完了，速度也很快，總共花了5分鐘左右。

注意，get_chunk()里面的參數表示文件的行數，而非字節(jié)數。

以上這篇python 快速把超大txt文件轉存為csv的實例就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

python中bytes和str類型的區(qū)別
這篇文章主要介紹了python中bytes和str類型的區(qū)別,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2019-10-10
Python隨機值生成的常用方法總結
這篇文章主要為大家詳細介紹了Python中隨機值生成的一些常用方法，文中的示例代碼講解詳細，對我們學習Python有一定幫助，需要的可以了解一下
2022-10-10
Anaconda環(huán)境變量的配置圖文詳解
Anaconda指的是一個開源的Python發(fā)行版本,其包含了conda、Python等180多個科學包及其依賴項,下面這篇文章主要給大家介紹了關于Anaconda環(huán)境變量配置的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
2022-08-08
Django通過自定義認證后端實現多種登錄方式驗證
Django提供了用戶認證系統(tǒng)，那么如何在項目中進行應用呢？在本文中小編將給大家介紹如何使用用戶認證系統(tǒng)，實現我們業(yè)務場景中常見的多種登錄方式驗證。感興趣的小伙伴可以了解一下
2021-12-12
python的turtle庫使用詳解
在本篇文章里小編給大家分享了關于python的turtle庫相關知識點以及使用方法，需要的朋友們跟著學習下。
2019-05-05
利用Python如何批量更新服務器文件
這篇文章主要給大家介紹了關于利用Python如何批量更新服務器文件的相關資料，文中通過示例代碼介紹的非常詳細，對大家學習或者使用python具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2018-07-07
Python?Flask?JinJa2?語法使用示例詳解
這篇文章主要為大家介紹了Python?Flask?JinJa2?語法示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2023-03-03
Python實現字符串匹配的KMP算法
KMP算法的關鍵是利用匹配失敗后的信息，盡量減少模式串與主串的匹配次數以達到快速匹配的目的。這篇文章主要介紹了Python實現字符串匹配的KMP算法,需要的朋友可以參考下
2019-04-04
python實現獲取單向鏈表倒數第k個結點的值示例
這篇文章主要介紹了python實現獲取單向鏈表倒數第k個結點的值,結合實例形式分析了Python針對單向鏈表的定義、遍歷、傳值、判斷等相關操作技巧,需要的朋友可以參考下
2019-10-10
python釘釘機器人運維腳本監(jiān)控實例
今天小編就為大家分享一篇python釘釘機器人運維腳本監(jiān)控實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-02-02