python批量查詢、漢字去重處理CSV文件
CSV文件用記事本打開后一般為由逗號隔開的字符串,其處理方法用Python的代碼如下。為方便各種程度的人閱讀在代碼中有非常詳細(xì)的注釋。
1.查詢指定列,并保存到新的csv文件。
# -*- coding: utf-8 -*-
'''''
Author: Good_Night
Time: 2018/1/30 03:50
Edition: 1.0
'''
# 導(dǎo)入必須的csv庫
import csv
# 創(chuàng)建臨時文件temp.csv找出所需要的列
temp_file = open("temp.csv", "w", newline='') # 如果不指定newline='',則每寫入一行將有一空行被寫入
temp_csv_writer = csv.writer(temp_file, dialect="excel")
# 讀取input.csv文件,此時只有指定的一列數(shù)據(jù)
with open('input.csv') as file:
temp_readcsv = csv.reader(file, delimiter=',')
for row in temp_readcsv: # 取出input.csv所有列數(shù)據(jù)
temp = [row[3]] # 得到指定列數(shù)據(jù)
# print(row[3]) #print()打印input.csv文件中第3列所有數(shù)據(jù)
temp_csv_writer.writerow(temp) # 第3列每行數(shù)據(jù)循環(huán)寫入temp.csv文件中
temp_file.close()
2.查詢指定列中,每行數(shù)據(jù)出現(xiàn)在所有行數(shù)據(jù)的次數(shù),并保存到新的csv文件。
# -*- coding: utf-8 -*-
'''''
Author: Good_Night
Time: 2018/1/30 03:50
Edition: 1.0
'''
# 導(dǎo)入必須的csv庫
import csv
# 創(chuàng)建臨時文件temp.csv找出所需要的列
temp_file = open("temp.csv", "w", newline='') # 如果不指定newline='',則每寫入一行將有一空行被寫入
temp_csv_writer = csv.writer(temp_file, dialect="excel")
# 讀取input.csv文件,此時只有指定的一列數(shù)據(jù)
with open('input.csv') as file:
temp_readcsv = csv.reader(file, delimiter=',')
for row in temp_readcsv: # 取出input.csv所有列數(shù)據(jù)
temp = [row[3]] # 得到指定列數(shù)據(jù)
# print(row[3]) #print()打印input.csv文件中第3列所有數(shù)據(jù)
temp_csv_writer.writerow(temp) # 第3列每行數(shù)據(jù)循環(huán)寫入temp.csv文件中
temp_file.close()
# 在臨時文件基礎(chǔ)上匹配所要找的數(shù)據(jù),計算出次數(shù)生成out.csv文件
flag = 0 # 臨時變量
out1 = [] # 新建數(shù)組來保存指定列的每行數(shù)據(jù)
time = [] # 新建數(shù)組來保存指定列的每行數(shù)據(jù)出現(xiàn)的次數(shù)
out_file = open("out.csv", "w", newline='') # 如果不指定newline='',則每寫入一行將有一空行被寫入
out_csv_writer = csv.writer(out_file, dialect="excel")
out_csv_writer.writerow(["TIMES"])
# 讀取temp.csv文件,此時只有指定的一列數(shù)據(jù)
with open('temp.csv') as file2:
out_readcsv = csv.reader(file2, delimiter=',')
for St in out_readcsv: # 循環(huán)取出列的每行數(shù)據(jù)
out1.append(St) # append()將列的每行數(shù)據(jù)變?yōu)閛ut1鏈表(list)的后續(xù)增加的元素,即將列數(shù)據(jù)變?yōu)橐痪S數(shù)組。
# print(out1[1]) # 打印out1[n]的第n個元素,即原列的第n行元素
for i in range(len(out1)): # len()獲得out1鏈表(list)中元素的個數(shù),便于判斷循環(huán)次數(shù)。
# print(out1[i]) # 打印out1鏈表所有元素,檢驗循環(huán)是否出錯
flag = out1.count(out1[i]) # count()獲得out1鏈表中第i個元素在所有元素中出現(xiàn)的次數(shù)。
time.append(flag) # 將獲得的某元素出現(xiàn)的次數(shù)按順序保存至time[]數(shù)組里
# print(time) # 打印顯示所有元素出現(xiàn)的次數(shù),判斷是否出錯
for j in range(len(out1)): # len()得到out1鏈表元素個數(shù),依此作為time[]查找下標(biāo)
times = [time[j]] # 取出元素對應(yīng)出現(xiàn)的次數(shù)
out_csv_writer.writerow(times) # 寫入out.csv文件里
print(times) # 打印顯示次數(shù)
out_file.close()
因為是批量處理嘛~所以寫的是所有數(shù)據(jù)重復(fù)出現(xiàn)的次數(shù)(但這個有點BUG,可能看完代碼就知道了,沒有去重?。?!舉個例子說a出現(xiàn)在第一行和第三行共2次,結(jié)果出來后就是第一行出現(xiàn)a,對應(yīng)次數(shù)為2,第三行又出現(xiàn)a,對應(yīng)次數(shù)也是2....這就是沒有去重的麻煩之處,重復(fù)的數(shù)據(jù)會再次顯示。)。但稍微修改一下可實現(xiàn)搜索某一數(shù)據(jù)出現(xiàn)的次數(shù)啦~
3.查詢指定列中,每行數(shù)據(jù)出現(xiàn)在所有行數(shù)據(jù)的次數(shù),去重處理后,并保存到新的csv文件。
一般去重都是數(shù)字或者字符去重,可以直接調(diào)用相應(yīng)函數(shù),而漢字去重就比只能循環(huán)比較了。所以這個算是包容性相當(dāng)大的一種方式。
# -*- coding: utf-8 -*-
'''''
Author: Good Night
Time: 2018/2/7 18:50
Edition: 2.0
'''
# 導(dǎo)入必須的csv庫
import csv
# 創(chuàng)建臨時文件temp.csv找出所需要的列
temp_file = open("temp.csv", "w", newline='') # 如果不指定newline='',則每寫入一行將有一空行被寫入
temp_csv_writer = csv.writer(temp_file, dialect="excel")
# 讀取input.csv文件,此時只有指定的一列數(shù)據(jù)
with open('input.csv') as file:
temp_readcsv = csv.reader(file, delimiter=',')
for row in temp_readcsv: # 取出input.csv所有列數(shù)據(jù)
temp = [row[3]] # 得到指定列數(shù)據(jù)
# print(row[3]) #print()打印input.csv文件中第3列所有數(shù)據(jù)
temp_csv_writer.writerow(temp) # 第3列每行數(shù)據(jù)循環(huán)寫入temp.csv文件中
temp_file.close()
# 在臨時文件基礎(chǔ)上匹配所要找的數(shù)據(jù),計算出次數(shù)生成out.csv文件
out1 = [] # 新建數(shù)組來保存指定列的每行數(shù)據(jù)
out_time = [] # 新建數(shù)組來保存指定列的每行數(shù)據(jù)出現(xiàn)的次數(shù)
out_file = open("out.csv", "w", newline='') # 如果不指定newline='',則每寫入一行將有一空行被寫入
out_csv_writer = csv.writer(out_file, dialect="excel")
out_csv_writer.writerow(["ID", "TIMES"]) # 寫入標(biāo)題 數(shù)據(jù),出現(xiàn)次數(shù)
# 讀取temp.csv文件,此時只有指定的一列數(shù)據(jù)
with open('temp.csv') as file2:
out_readcsv = csv.reader(file2, delimiter=',')
for St in out_readcsv: # 循環(huán)取出列的每行數(shù)據(jù)
out1.append(St) # append()將列的每行數(shù)據(jù)變?yōu)閛ut1鏈表(list)的后續(xù)增加的元素,即將列數(shù)據(jù)變?yōu)橐痪S數(shù)組。
print(out1) # 打印out1[n]的第n個元素,即原列的第n行元素
# list的迭代其實是以list中項的序列號來遍歷的,不會因為list的的改變而改變,
# 永遠(yuǎn)都是按照序號的0,1,2...遍歷。當(dāng)刪除其中某一項時,它之后的每一項的序列號各往前移一項.
# 當(dāng)遍歷list時,若發(fā)現(xiàn)0項是重復(fù)項(因為內(nèi)嵌函數(shù)均處理第一個發(fā)現(xiàn)項),于是將其移除。當(dāng)移除0項時,
# 原來的1項變?yōu)?項,以此類推。此時list迭代由1開始(0項已過),但此時的1項是原list的2項,這樣子就漏掉原list的1項!
# 可以將list反轉(zhuǎn)來進(jìn)行刪除操作,其本質(zhì)就是放當(dāng)發(fā)現(xiàn)某項具有重復(fù)項時,就從后往前刪除。
# 比如迭代0項發(fā)現(xiàn)1項是它的重復(fù)項,那么就刪除1項,刪除1項后2項變1項,而此時list迭代正則到了1項。
# 從原始list的角度上來說,就跳過了1項。但是它卻不影響去重,因為它跳過的是重復(fù)項。
# list的不重復(fù)迭代反而使去重效率更高且不會漏掉不重復(fù)項。因此原始list直接去重的核心問題不是迭代的漏項,而是迭代不能漏掉不重復(fù)項。
for i in out1:
a = out1.count(i) # 取元素
out_time.append(a) # 得到出現(xiàn)的次數(shù)
# print(i, a)
if a > 1:
out1.reverse() # 將list反轉(zhuǎn)來進(jìn)行刪除操作
for k in range(1, a):
out1.remove(i) # 從后往前刪除直到最前面的第一個為止,這樣即刪除了后面的,又保留了第一個!
out1.reverse() # 將list再反轉(zhuǎn)回來,保證下次循環(huán)又是從原始順序來刪除
print(out1) # 此時out1鏈表(list)即去重后的list
print(out_time) # 元素出現(xiàn)的次數(shù)
for j in range(len(out1)): # len()得到out1鏈表元素個數(shù),依此作為time[]查找下標(biāo)
out_row = [out1[j], out_time[j]] # 取元素和對應(yīng)的次數(shù)
out_csv_writer.writerow(out_row) # 寫入out.csv文件里
out_file.close()
劃重點!這個代碼是經(jīng)過了去重處理后的,完全不用擔(dān)心會有重復(fù)數(shù)據(jù)顯示啦~
Python處理此類數(shù)據(jù)相當(dāng)快,大概一萬行數(shù)據(jù)只需要1秒.......
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
一文教你用python編寫Dijkstra算法進(jìn)行機器人路徑規(guī)劃
迪杰斯特拉(Dijkstra)算法是典型最短路徑算法,用于計算一個節(jié)點到其他節(jié)點的最短路徑,這篇文章主要給大家介紹了關(guān)于利用python編寫Dijkstra算法進(jìn)行機器人路徑規(guī)劃的相關(guān)資料,需要的朋友可以參考下2021-08-08
Python標(biāo)準(zhǔn)庫itertools的使用方法
本文匯總整理了Python標(biāo)準(zhǔn)庫itertools的使用方法,并提供簡單應(yīng)用示例;如果還不能滿足你的要求,歡迎加入補充2020-01-01
Python實現(xiàn)機器學(xué)習(xí)算法的分類
今天給大家整理了Python實現(xiàn)機器學(xué)習(xí)算法的分類的文章,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)的小伙伴們很有幫助,需要的朋友可以參考下2021-06-06
python獲取指定時間段內(nèi)特定規(guī)律的日期列表
這篇文章主要介紹了python獲取指定時間段內(nèi)特定規(guī)律的日期列表,本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-04-04

