欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Pandas操作兩個(gè)Excel實(shí)現(xiàn)數(shù)據(jù)對應(yīng)行的合并

 更新時(shí)間:2023年01月17日 10:04:05   作者:zorchp  
本文主要介紹了Pandas操作兩個(gè)Excel實(shí)現(xiàn)數(shù)據(jù)對應(yīng)行的合并,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

寫在前面

最近有朋友問我怎么把一個(gè)Excel工作表中的數(shù)據(jù)按照對應(yīng)的匹配規(guī)則放到另外一個(gè)表中, 要求是兩個(gè)對應(yīng)的列要相同, 具體來看就是sheet1中數(shù)據(jù)比較多, sheet2中只含有兩列, 這兩列包含了年份和行業(yè)信息, 這兩個(gè)表的header(pandas中的術(shù)語, 表示表頭或者列名)都是相同的, 所以關(guān)鍵點(diǎn)就是讓表1中的數(shù)據(jù)與表2中的數(shù)據(jù)建立對應(yīng)即可, 然后注意一下選取過的數(shù)據(jù)就不能選了這個(gè)條件.

當(dāng)然可能會有直接使用Pandas內(nèi)置高級函數(shù)的方法來做, 但是畢竟不是主要研究數(shù)據(jù)分析了, 能用就行…

為了數(shù)據(jù)安全, 這里就不放截圖了.

主要思路

因?yàn)橐畛浔?, 那么當(dāng)然要遍歷表二的每一行, 針對這每一行給出的列標(biāo)信息, 然后遍歷表1中滿足條件的行, 填入表二之后break即可, 因?yàn)榭赡軙霈F(xiàn)重復(fù)遍歷, 這里用到了哈希表的方法, 并且哈希表也有兩種實(shí)現(xiàn),

一種是給表1新添加一個(gè)列, 這個(gè)列可以是布爾值或者全0列, 表示沒有遍歷過(unused), 然后在滿足條件的行添加到表二之后, 將對應(yīng)值設(shè)置為1即可, 這樣可以在之后的遍歷過程中忽略掉已添加的數(shù)據(jù).
另一種方法就是使用哈希表存儲表一中遍歷過的行的索引, 思路跟上面是一樣的, 但是不會對原始數(shù)據(jù)進(jìn)行增刪.

代碼

代碼部分我給出了兩個(gè)版本, 一種是我首先想到的, 不借助pandas內(nèi)置函數(shù), 將數(shù)據(jù)轉(zhuǎn)換為列表來完成, 這樣雖然好想當(dāng)然之后還要手動處理表頭, 比較麻煩, 代碼如下:

import pandas as pd

df1 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0).values.tolist()
df2 = pd.read_excel('data.xlsx', sheet_name='Sheet2', header=0).values.tolist()
for i in range(len(df1)):
? ? df1[i].append(0)

for i, item in enumerate(df2):
? ? for j in range(len(df1)):
? ? ? ? if df1[j][-1] == 0 and df1[j][0] == item[0] and df1[j][2] == item[2]:
? ? ? ? ? ? df2[i] = df1[j]
? ? ? ? ? ? df1[j][-1] = 1
? ? ? ? ? ? break
df2 = pd.DataFrame(df2)
print(df2)

with pd.ExcelWriter("data.xlsx", mode='a', engine='openpyxl') as writer:
? ? df2.to_excel(writer, sheet_name="Sheet3")

另一種用到了pandas內(nèi)置的行遍歷方法和索引等方法, 對Dataframe這種pandas內(nèi)置的原生數(shù)據(jù)結(jié)構(gòu)支持比較好, 但是不用的話就總忘…

import pandas as pd
# pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

df1 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0)
df2 = pd.read_excel('data.xlsx', sheet_name='Sheet2', header=0)
# 標(biāo)記是否匹配過
used = set()

for idx2, row2 in df2.iterrows():
? ? tmp = df1[(df1['所屬行業(yè)'] == row2['所屬行業(yè)']) & (df1['新年份'] == row2['新年份'])]
? ? for idx1, row1 in tmp.iterrows():
? ? ? ? if idx1 not in used:
? ? ? ? ? ? df2.iloc[idx2, :] = row1
? ? ? ? ? ? used.add(idx1)
? ? ? ? ? ? break

df2.set_index('所屬行業(yè)', inplace=True)
print(df2)

with pd.ExcelWriter("data.xlsx", mode='a', engine='openpyxl') as writer:
? ? df2.to_excel(writer, sheet_name="Sheet4")

到此這篇關(guān)于Pandas操作兩個(gè)Excel實(shí)現(xiàn)數(shù)據(jù)對應(yīng)行的合并的文章就介紹到這了,更多相關(guān)Pandas Excel行合并內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python中實(shí)現(xiàn)精確的浮點(diǎn)數(shù)運(yùn)算詳解

    python中實(shí)現(xiàn)精確的浮點(diǎn)數(shù)運(yùn)算詳解

    計(jì)算機(jī)智能處理可數(shù)集合的運(yùn)算,但是全體實(shí)數(shù)是不可數(shù)的,所以計(jì)算機(jī)只能用一些奇怪的方法來擬合他,于是就產(chǎn)生了浮點(diǎn)數(shù)。下面這篇文章主要給大家介紹了關(guān)于python中實(shí)現(xiàn)精確浮點(diǎn)數(shù)運(yùn)算的相關(guān)資料,需要的朋友可以參考借鑒,下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。
    2017-11-11
  • 對Python中l(wèi)ist的倒序索引和切片實(shí)例講解

    對Python中l(wèi)ist的倒序索引和切片實(shí)例講解

    今天小編就為大家分享一篇對Python中l(wèi)ist的倒序索引和切片實(shí)例講解,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-11-11
  • python中視頻音頻的剪輯與處理實(shí)現(xiàn)

    python中視頻音頻的剪輯與處理實(shí)現(xiàn)

    Python中輕松實(shí)現(xiàn)各種視頻處理操作,包括剪輯、合并、添加音頻、文本、特效等多種功能,主要介紹了python中視頻音頻的剪輯與處理實(shí)現(xiàn),具有一定的參考價(jià)值,感興趣的可以了解一下
    2024-06-06
  • Python計(jì)算指定日期是今年的第幾天(三種方法)

    Python計(jì)算指定日期是今年的第幾天(三種方法)

    這篇文章主要介紹了Python三種方法計(jì)算指定日期是今年的第幾天,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-03-03
  • Python使用JDAudioCrawler將下載的音頻存儲到本地

    Python使用JDAudioCrawler將下載的音頻存儲到本地

    在當(dāng)今數(shù)字化時(shí)代,音頻數(shù)據(jù)的獲取和處理變得越來越重要,本文將訪問網(wǎng)易云音樂為案例,介紹如何使用JDAudioCrawler這個(gè)強(qiáng)大的工具,將音頻數(shù)據(jù)存儲下載到本地存儲中,需要的可以了解下
    2023-10-10
  • python實(shí)現(xiàn)BackPropagation算法

    python實(shí)現(xiàn)BackPropagation算法

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)BackPropagation算法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-12-12
  • windows下安裝Python虛擬環(huán)境virtualenvwrapper-win

    windows下安裝Python虛擬環(huán)境virtualenvwrapper-win

    這篇文章主要介紹了windows下安裝Python虛擬環(huán)境virtualenvwrapper-win,內(nèi)容超簡單,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-06-06
  • scrapy爬蟲遇到j(luò)s動態(tài)渲染問題

    scrapy爬蟲遇到j(luò)s動態(tài)渲染問題

    本文主要介紹了scrapy爬蟲遇到j(luò)s動態(tài)渲染問題,通過js渲染出來的動態(tài)網(wǎng)頁的內(nèi)容與網(wǎng)頁文件內(nèi)容是不一樣的,本文就來解決一下這些問題,感興趣的可以了解一下
    2022-05-05
  • Python random模塊使用詳解

    Python random模塊使用詳解

    random模塊是Python標(biāo)準(zhǔn)庫的一部分,主要用于生成偽隨機(jī)數(shù),它提供了眾多函數(shù),如random.randint、random.choice等,用于生成不同類型的隨機(jī)數(shù)據(jù),適用于各種需要隨機(jī)性的場景,此模塊生成的雖是偽隨機(jī)數(shù),但對大多數(shù)應(yīng)用已足夠,此外,還介紹了secrets模塊,適合處理敏感信息
    2024-10-10
  • Python實(shí)現(xiàn)九宮格式的朋友圈功能內(nèi)附“馬云”朋友圈

    Python實(shí)現(xiàn)九宮格式的朋友圈功能內(nèi)附“馬云”朋友圈

    PIL(Python Imaging Library)是一個(gè)非常強(qiáng)大的Python庫,但是它支持Python2.X, 在Python3中則使用的是Pillow庫,它是從PIL中fork出來的一個(gè)分支。這篇文章主要介紹了用Python搞定九宮格式的朋友圈功能內(nèi)附“馬云”朋友圈 ,需要的朋友可以參考下
    2019-05-05

最新評論