Python對Excel不同的行分別復制不同的次數(shù)

更新時間：2023年07月18日 11:26:10 作者：瘋狂學習GIS

這篇文章主要介紹了如何利用Python實現(xiàn)讀取Excel表格文件數(shù)據(jù)，并將其中符合我們特定要求的那一行加以復制指定的次數(shù)，感興趣的小伙伴可以學習一下

本文介紹基于Python語言，讀取Excel表格文件數(shù)據(jù)，并將其中符合我們特定要求的那一行加以復制指定的次數(shù)，而不符合要求的那一行則不復制；并將所得結果保存為新的Excel表格文件的方法。

這里需要說明，在我們之前的文章Python讀取Excel文件并復制指定的數(shù)據(jù)行中，也介紹過實現(xiàn)類似需求的另一種Python代碼，大家如果有需要可以查看上述文章；而上述文章中的代碼，由于用到了DataFrame.append()這一個在最新版本pandas庫中取消的方法，因此有的時候可能會出現(xiàn)報錯的情況；且本文中的需求較之上述文章有進一步的提升，因此大家主要參考本文即可。

首先，我們來明確一下本文的具體需求?，F(xiàn)有一個Excel表格文件，在本文中我們就以.csv格式的文件為例；其中，如下圖所示，這一文件中有一列（也就是inf_dif這一列）數(shù)據(jù)比較關鍵，我們希望對這一列數(shù)據(jù)加以處理——對于每一行，如果這一行的這一列數(shù)據(jù)的值在指定的范圍內，那么就將這一行復制指定的次數(shù)（復制的意思相當于就是，新生成一個和當前行一摸一樣數(shù)據(jù)的新行）；而對于符合我們要求的行，其具體要復制的次數(shù)也不是固定的，也要根據(jù)這一行的這一列數(shù)據(jù)的值來判斷——比如如果這個數(shù)據(jù)在某一個值域內，那么這一行就復制10次；而如果在另一個值域內，這一行就復制50次等。

知道了需求，我們就可以開始代碼的書寫。其中，本文用到的具體代碼如下所示。

# -*- coding: utf-8 -*-
"""
Created on Thu Jul  6 22:04:48 2023

@author: fkxxgis
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

original_file_path = "E:/01_Reflectivity/99_Model/02_Extract_Data/26_Train_Model_New/Train_Model_0715.csv"
result_file_path = "E:/01_Reflectivity/99_Model/02_Extract_Data/26_Train_Model_New/Train_Model_0715_Over_NIR_0717_2.csv"

df = pd.read_csv(original_file_path)
duplicated_num_0 = 70
duplicated_num_1 = 35
duplicated_num_2 = 7
duplicated_num_3 = 2

num = [duplicated_num_0 if (value <= -0.12 or value >= 0.12) else duplicated_num_1 if (value <= -0.1 or value >= 0.1) \
else duplicated_num_2 if (value <= -0.07 or value >= 0.07) else duplicated_num_3 if (value <= -0.03 or value >= 0.03) \
else 1 for value in df.inf_dif]
duplicated_df = df.loc[np.repeat(df.index.values, num)]

plt.figure(0)
plt.hist(df["inf_dif"], bins = 50)
plt.figure(1)
plt.hist(duplicated_df["inf_dif"], bins = 50)

duplicated_df.to_csv(result_file_path, index=False)

其中，上述代碼的具體含義如下。

首先，我們需要導入所需的庫，包括numpy、pandas和matplotlib.pyplot等，用于后續(xù)的數(shù)據(jù)處理和繪圖操作。接下來，即可開始讀取原始數(shù)據(jù)，我們使用pd.read_csv()函數(shù)讀取文件，并將其存儲在一個DataFrame對象df中；這里的原始文件路徑由original_file_path變量指定。

隨后，我們開始設置重復次數(shù)。在這里，我們根據(jù)特定的條件，為每個值設定重復的次數(shù)。根據(jù)inf_dif列的值，將相應的重復次數(shù)存儲在num列表中。根據(jù)不同的條件，使用條件表達式（if-else語句）分別設定了不同的重復次數(shù)。

接下來，我們使用loc函數(shù)和np.repeat()函數(shù)，將數(shù)據(jù)按照重復次數(shù)復制，并將結果存儲在duplicated_df中。

最后，為了對比我們數(shù)據(jù)重復的效果，可以繪制直方圖。在這里，我們使用matplotlib.pyplot庫中的hist()函數(shù)繪制了兩個直方圖；其中，第一個直方圖是原始數(shù)據(jù)集df中inf_dif列的直方圖，第二個直方圖是復制后的數(shù)據(jù)集duplicated_df中inf_dif列的直方圖。通過指定bins參數(shù)，將數(shù)據(jù)分成50個區(qū)間。

完成上述操作后，我們即可保存數(shù)據(jù)。將復制后的數(shù)據(jù)集duplicated_df保存為.csv格式文件，路徑由result_file_path變量指定。

執(zhí)行上述代碼，我們將獲得如下所示的兩個直方圖；其中，第一個直方圖是原始數(shù)據(jù)集df中inf_dif列的直方圖，也就是還未進行數(shù)據(jù)復制的直方圖。