快捷導(dǎo)航

Python拆分大型CSV文件代碼實(shí)例

更新時(shí)間：2019年10月07日 08:36:02 作者：匹諾曹云

這篇文章主要介紹了Python拆分大型CSV文件代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
# @FileName :Test.py
# @Software PyCharm

import os
import pandas as pd

# filename為文件路徑，file_num為拆分后的文件行數(shù)
# 根據(jù)是否有表頭執(zhí)行不同程序，默認(rèn)有表頭的
def Data_split(filename,file_num,header=True):
  if header:
    # 設(shè)置每個(gè)文件需要有的行數(shù),初始化為1000W
    chunksize=10000
    data1=pd.read_table(filename,chunksize=chunksize,sep=',',encoding='gbk')
    # print(data1)
    # num表示總行數(shù)
    num=0
    for chunk in data1:
      num+=len(chunk)
    # print(num)
    # chunksize表示每個(gè)文件需要分配到的行數(shù)
    chunksize=round(num/file_num+1)
    # print(chunksize)
    # 分離文件名與擴(kuò)展名os.path.split(filename)
    head,tail=os.path.split(filename)
    data2=pd.read_table(filename,chunksize=chunksize,sep=',',encoding='gbk')
    i=0
    for chunk in data2:
      chunk.to_csv('{0}_{1}{2}'.format(head,i,tail),header=None,index=False)
      print('保存第{0}個(gè)數(shù)據(jù)'.format(i))
      i+=1
  else:
    # 獲得每個(gè)文件需要的行數(shù)
    chunksize=10000
    data1=pd.read_table(filename,chunksize=chunksize,header=None,sep=',')
    num=0
    for chunk in data1:
      num+=len(chunk)
      chunksize=round(num/file_num+1)

      head,tail=os.path.split(filename)
      data2=pd.read_table(filename,chunksize=chunksize,header=None,sep=',')
      i=0
      for chunk in data2:
        chunk.to_csv('{0}_{1}{2}'.foemat(head,i,tail),header=None,index=False)
        print('保存第{0}個(gè)數(shù)據(jù)'.format(i))
        i+=1

filename='文件路徑'
#num為拆分為的文件個(gè)數(shù)
Data_split(filename,num,header=True)

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

在PyTorch中實(shí)現(xiàn)可解釋的神經(jīng)網(wǎng)絡(luò)模型的方法詳解
這篇文章主要為大家介紹在PyTorch如何中實(shí)現(xiàn)可解釋的神經(jīng)網(wǎng)絡(luò)模型，并為您提供使用簡單的 PyTorch 接口實(shí)現(xiàn)最先進(jìn)的基于概念的模型的工具,需要的朋友可以參考下
2023-06-06
selenium+python自動(dòng)化測試之頁面元素定位
這篇文章主要介紹了selenium+python自動(dòng)化測試之頁面元素定位，小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2019-01-01
Python學(xué)習(xí)之Django的管理界面代碼示例
這篇文章主要介紹了Python學(xué)習(xí)之Django的管理界面代碼示例，分享了相關(guān)代碼示例，小編覺得還是挺不錯(cuò)的，具有一定借鑒價(jià)值，需要的朋友可以參考下
2018-02-02
Python實(shí)現(xiàn)批量分割PDF文件
這篇文章主要為大家詳細(xì)介紹了使用Python進(jìn)行批量分割PDF文件的相關(guān)方法,我們將從架構(gòu)設(shè)計(jì)入手,逐步講解代碼實(shí)現(xiàn)的過程,希望對大家有所幫助
2023-11-11
將python字符串轉(zhuǎn)化成長表達(dá)式的函數(shù)eval實(shí)例
這篇文章主要介紹了將python字符串轉(zhuǎn)化成長表達(dá)式的函數(shù)eval實(shí)例，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
Python通過正則表達(dá)式選取callback的方法
這篇文章主要介紹了Python通過正則表達(dá)式選取callback的方法,涉及Python正則表達(dá)式及回調(diào)函數(shù)的使用技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下
2015-07-07
python求質(zhì)數(shù)列表的例子
今天小編就為大家分享一篇python求質(zhì)數(shù)列表的例子，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-11-11
python 爬取B站原視頻的實(shí)例代碼
這篇文章主要介紹了python 爬取B站原視頻的實(shí)例代碼，幫助大家更好的理解和使用python 爬蟲,感興趣的朋友可以了解下
2020-09-09
python爬蟲之爬取筆趣閣小說
這篇文章主要介紹了python爬蟲之爬取筆趣閣小說,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python爬蟲的小伙伴們有很好地幫助,需要的朋友可以參考下
2021-04-04
Python中用append()連接后多出一列Unnamed的解決
Python中用append()連接后多出一列Unnamed的解決方案，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2023-01-01