腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

Python 列表篩選數(shù)據(jù)詳解

更新時(shí)間：2021年11月18日 08:49:29 作者：陳年椰子

這篇文章主要為大家介紹了Python 列表篩選數(shù)據(jù)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助

# 構(gòu)造篩選目標(biāo)列表,確保KEY不重復(fù)
n1 = 30000
n1_set = set([random.randint(1,n1)  for n in range(n1)])
n1 = len(n1_set)
list1 = [['1108{:0>6d}27'.format(n), "".join(random.sample('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz',10))] for n in n1_set]
# 構(gòu)造待篩選數(shù)據(jù)列表,確保KEY不重復(fù)
n2 = 100000
n2_set = set([random.randint(1,n2)  for n in range(n2)])
n2= len(n2_set)
list2 = [['1108{:0>6d}27'.format(n), "".join(random.sample('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz',5)),n ] for n in n2_set]

比較遍歷、列表生成式+filter 、pandas 的 merge 三種方法效率。

篩選目標(biāo)18971條, 待處理數(shù)據(jù)63275條
遍歷生成數(shù)據(jù) 耗時(shí)11.591秒 獲得數(shù)據(jù)量 12024
['11080000427', 'eArVD', 4]
filter 耗時(shí)11.5秒 獲得數(shù)據(jù)量 12024
['11080000427', 'eArVD', 4]
merge 耗時(shí)0.058秒 獲得數(shù)據(jù)量 12024
['11080000427', 'eArVD', 4]

篩選目標(biāo)189733條, 待處理數(shù)據(jù)632363條
遍歷生成數(shù)據(jù) 耗時(shí)1597.4296秒 獲得數(shù)據(jù)量 120180
['1108000000227', 'NkoEQ', 2]
filter 耗時(shí)1575.0432秒 獲得數(shù)據(jù)量 120180
['1108000000227', 'NkoEQ', 2]
merge 耗時(shí)0.64秒 獲得數(shù)據(jù)量 120180
['1108000000227', 'NkoEQ', 2]

經(jīng)過比較，直接遍歷生成和列表生成式+filter的效率基本一致， pandas 的merge 效率最高。適合大批量數(shù)據(jù)處理。

上代碼

print("篩選目標(biāo){}條, 待處理數(shù)據(jù){}條".format(n1,n2))
# 直接遍歷生成數(shù)據(jù)，計(jì)時(shí)
t1 = time.time()
list_temp = [n[0] for n in list1]
list3 = []
for n in list2:
    if n[0] in list_temp:
        list3.append(n)
t2 = time.time()
print("遍歷生成數(shù)據(jù) 耗時(shí){}秒".format(round(t2 - t1, 4)), "獲得數(shù)據(jù)量", len(list3))
print(list3[0])
# 用filter篩選數(shù)據(jù)，計(jì)時(shí)
t1 = time.time()
list_temp = [n[0] for n in list1]
list3 = [n for n in filter(lambda x: x[0] in list_temp, list2)]
t2 = time.time()
print("filter 耗時(shí){}秒".format(round(t2 - t1,4)), "獲得數(shù)據(jù)量", len(list3))
print(list3[0])
# 用pd.merge 篩選數(shù)據(jù)，計(jì)時(shí)
t1 = time.time()
df1 = pd.DataFrame(list1, columns=['k1','m1'])
df2 = pd.DataFrame(list2, columns=['k1','m2','n2'])
df3 = pd.merge(df1[['k1']], df2, how='inner', on='k1')
t2 = time.time()
print("merge 耗時(shí){}秒".format(round(t2 - t1,4)), "獲得數(shù)據(jù)量", len(df3))
print(list(df3.iloc[0]))

總結(jié)

本篇文章就到這里了，希望能夠給你帶來幫助，也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!

您可能感興趣的文章:

相關(guān)文章

python 協(xié)程中的迭代器，生成器原理及應(yīng)用實(shí)例詳解
這篇文章主要介紹了python 協(xié)程中的迭代器，生成器原理及應(yīng)用,結(jié)合具體實(shí)例形式詳細(xì)分析了Python協(xié)程中的迭代器，生成器概念、原理及應(yīng)用操作技巧,需要的朋友可以參考下
2019-10-10
python和shell獲取文本內(nèi)容的方法
今天小編就為大家分享一篇python和shell獲取文本內(nèi)容的方法，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-06-06
pytorch DataLoader的num_workers參數(shù)與設(shè)置大小詳解
這篇文章主要介紹了pytorch DataLoader的num_workers參數(shù)與設(shè)置大小詳解，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2021-05-05
Django使用AJAX調(diào)用自己寫的API接口的方法
這篇文章主要介紹了Django使用AJAX調(diào)用自己寫的API接口的方法，小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2019-03-03
python中字典取最大值的應(yīng)用方式
這篇文章主要介紹了python中字典取最大值的應(yīng)用方式,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
2024-02-02
使用Python的Scrapy框架十分鐘爬取美女圖
Scrapy是一個(gè)使用Python編寫的，輕量級的，簡單輕巧，并且使用起來非常的方便。使用Scrapy可以很方便的完成網(wǎng)上數(shù)據(jù)的采集工作，它為我們完成了大量的工作，而不需要自己費(fèi)大力氣去開發(fā)。本文介紹了使用Python的Scrapy框架十分鐘爬取美女圖,需要的朋友可以參考下
2016-12-12
Python元類基礎(chǔ)知識示例深度剖析
這篇文章主要為大家介紹了Python元類基礎(chǔ)知識深度剖析，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪
2023-06-06
在Django框架中設(shè)置語言偏好的教程
這篇文章主要介紹了在Django框架中設(shè)置語言偏好的教程,Django是最具人氣的Python框架,需要的朋友可以參考下
2015-07-07
下面小編就為大家?guī)硪黄猵ython 隨機(jī)數(shù)使用方法,推導(dǎo)以及字符串,雙色球小程序?qū)嵗?。小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-09-09