對(duì)python數(shù)據(jù)切割歸并算法的實(shí)例講解
當(dāng)一個(gè) .txt 文件的數(shù)據(jù)過于龐大,此時(shí)想要對(duì)數(shù)據(jù)進(jìn)行排序就需要先將數(shù)據(jù)進(jìn)行切割,然后通過歸并排序,最終實(shí)現(xiàn)對(duì)整體數(shù)據(jù)的排序。要實(shí)現(xiàn)這個(gè)過程我們需要進(jìn)行以下幾步:獲取總數(shù)據(jù)行數(shù);根據(jù)行數(shù)按照自己的需要對(duì)數(shù)據(jù)進(jìn)行切割;對(duì)每組數(shù)據(jù)進(jìn)行排序 最后對(duì)所有數(shù)據(jù)進(jìn)行歸并排序。
下面我們就來實(shí)現(xiàn)這整個(gè)過程:
一:獲取總數(shù)據(jù)的行
def get_file_lines(file_path): # 目標(biāo)文件的路徑 file_path = str(file_path) with open(file_path, 'rb') as file: # 定義行數(shù) i = 0 while True: # 一次讀取一行數(shù)據(jù) line = file.readline() if not line : break else: # 每讀一行,行數(shù)加一 i += 1 #設(shè)置進(jìn)度條,每當(dāng)i讀取1000000行時(shí)打印一次i # 每當(dāng)讀取1000000的整數(shù)倍行時(shí),打印行數(shù)(進(jìn)度條) if i % 1000000 == 0: print(i) # 打印總行數(shù) print(i) return i
二:對(duì)數(shù)據(jù)進(jìn)行切割
# 定義均等切割函數(shù),num是待切割的文件的行數(shù)的值,n為切割份數(shù),file_path是待切割的文件,file_dir是切割好的文件寫入的目錄 def evg_split(num, n, file_path, file_dir): last_list = [] # 如果樣本剛好可以整除為n份 if num % n == 0: for i in range(n): # 則直接將樣本分為n分沒份對(duì)應(yīng)num/n個(gè) last_list.append(num / n) # 如果不能整除 if num % n != 0: # 如果不能整除,則先將num整除n-1并取n-1份,余下的單獨(dú)做一份 evg = (num - num % n) // (n - 1) for i in range(n): last_list.append(evg) last_list.append(num % (n - 1)) print(last_list) # return last_list # 對(duì)應(yīng)于切割后的每一份數(shù)據(jù) with open(file_path, 'rb') as path: for i in range(n): # 創(chuàng)建臨時(shí)文件 tmp_file = file_dir + str(i) + '.txt' # 打開臨時(shí)文件,將內(nèi)容一條一條的寫入 file = open(tmp_file, 'wb') for j in range(int(last_list[i])): line = path.readline() file.write(line) print(line) print('------------') file.close()
三:對(duì)每組數(shù)據(jù)進(jìn)行排序的內(nèi)容由讀者根據(jù)自身數(shù)據(jù)需要進(jìn)行排序,下面直接介紹歸并排序
四:歸并排序
def merge( mylist1, mylist2, file1): while len(mylist1) > 0 and len(mylist2) > 0: if mylist1[0]<mylist2[0]: with open(file1,'a') as file: file.write(str(mylist1[0])) del mylist1[0] elif mylist1[0] > mylist2[0]: with open(file1,'a') as file: file.write(str(mylist2[0])) del mylist2[0] else: with open(file1,'a') as file: file.write(str(mylist1[0])) file.write(str(mylist2[0])) del mylist1[0] del mylist2[0] with open(file1, 'a') as file: for i in mylist1: file.write(str(i)) for i in mylist2: file.write(str(i))
總結(jié):對(duì)于一個(gè)大型數(shù)據(jù)文件,我們可以將其切割成若干個(gè)小型的數(shù)據(jù)文件,然后分別的這些小型的數(shù)據(jù)文件進(jìn)行排序,最后使用歸并排序?qū)⑦@些數(shù)據(jù)文件寫入到一個(gè)總體文件中,從而實(shí)現(xiàn)了對(duì)這個(gè)大型數(shù)據(jù)文件的排序。
以上這篇對(duì)python數(shù)據(jù)切割歸并算法的實(shí)例講解就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- python實(shí)現(xiàn)數(shù)據(jù)預(yù)處理之填充缺失值的示例
- python數(shù)據(jù)預(yù)處理之將類別數(shù)據(jù)轉(zhuǎn)換為數(shù)值的方法
- Python實(shí)現(xiàn)的拉格朗日插值法示例
- Python實(shí)現(xiàn)的線性回歸算法示例【附csv文件下載】
- Python實(shí)現(xiàn)的邏輯回歸算法示例【附測(cè)試csv文件下載】
- Python基于聚類算法實(shí)現(xiàn)密度聚類(DBSCAN)計(jì)算【測(cè)試可用】
- Python機(jī)器學(xué)習(xí)之scikit-learn庫(kù)中KNN算法的封裝與使用方法
- Python實(shí)現(xiàn)的各種常見分布算法示例
- python實(shí)現(xiàn)樸素貝葉斯算法
- python 遞歸深度優(yōu)先搜索與廣度優(yōu)先搜索算法模擬實(shí)現(xiàn)
- Python實(shí)現(xiàn)Dijkstra算法
- Python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)范化(歸一化)示例
相關(guān)文章
Python Loguru輕松靈活的日志管理庫(kù)基本用法探索
Loguru是一個(gè)用于Python的高性能、簡(jiǎn)潔且靈活的日志庫(kù),它的目標(biāo)是提供一種簡(jiǎn)單的方式來記錄應(yīng)用程序的運(yùn)行情況,同時(shí)保持代碼的簡(jiǎn)潔性和可讀性,本文將探索loguru的基本用法2024-01-01CoordConv實(shí)現(xiàn)卷積加上坐標(biāo)實(shí)例詳解
這篇文章主要介紹了CoordConv實(shí)現(xiàn)卷積加上坐標(biāo)實(shí)例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-03-03python多個(gè)模塊py文件的數(shù)據(jù)共享實(shí)例
今天小編就為大家分享一篇python多個(gè)模塊py文件的數(shù)據(jù)共享實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-01-01python3 實(shí)現(xiàn)一行輸入,空格隔開的示例
今天小編就為大家分享一篇python3 實(shí)現(xiàn)一行輸入,空格隔開的示例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-11-11利用Tkinter(python3.6)實(shí)現(xiàn)一個(gè)簡(jiǎn)單計(jì)算器
這篇文章主要給大家介紹了關(guān)于利用Tkinter(python3.6)實(shí)現(xiàn)一個(gè)簡(jiǎn)單計(jì)算器的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。2017-12-12python操作mongodb根據(jù)_id查詢數(shù)據(jù)的實(shí)現(xiàn)方法
這篇文章主要介紹了python操作mongodb根據(jù)_id查詢數(shù)據(jù)的實(shí)現(xiàn)方法,實(shí)例分析了Python根據(jù)pymongo不同版本操作ObjectId的技巧,需要的朋友可以參考下2015-05-05