Pandas?多進程處理數據提高速度

更新時間：2022年04月06日 08:40:24 作者：Python學習與數據挖掘

這篇文章主要介紹了Pandas?多進程處理數據提高速度，Pandas多進程的方法，pandarallel?庫，下面具體的測試方法,需要的朋友可以參考一下，希望對你的學習有所幫助

1、單進程

在交互式環(huán)境中輸入如下命令：

'''單進程'''
import jieba
import re
import time
import pandas as pd

def filter_emoji(desstr, restr=''):
? ? if (desstr is None) or str(desstr) == 'nan':
? ? ? ? return ''
? ? # 過濾表情
? ? try:
? ? ? ? co = re.compile(u'[\U00010000-\U0010ffff]')
? ? except:
? ? ? ? co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
? ? return co.sub(restr, desstr)

if __name__ == '__main__':
? ? start = time.time()
? ? data = pd.read_csv('feike.csv',encoding='gbk')
? ? data['comment'] = data['comment'].map(filter_emoji)
? ? data['title'] = data['title'].map(filter_emoji)
? ? data['comment'] = data['comment'].map(lambda s: jieba.lcut(s))
? ? data['title'] = data['title'].map(lambda s: jieba.lcut(s))
? ? end = time.time()
? ? print(end - start)

輸出：

在單進程的情況下，可以看到用時 294s，接近 5min 了。

2、多進程

multiprocessing多進程寫法，這種寫法網上一搜一大把，代碼沒有錯，多進程任務可以執(zhí)行。

例如run_task 函數中的任務是爬蟲代碼時，沒有什么問題，但如果是數據清洗的代碼，我測試就很久都跑不出來：

接下來換成Pandas多進程 pandarallel 的寫法就可以：

'''pandarallel 多進程'''
import jieba
import re
import time
import pandas as pd
from pandarallel import pandarallel
pandarallel.initialize(nb_workers=4)

def filter_emoji(desstr, restr=''):
? ? if (desstr is None) or str(desstr) == 'nan':
? ? ? ? return ''
? ? # 過濾表情
? ? try:
? ? ? ? co = re.compile(u'[\U00010000-\U0010ffff]')
? ? except:
? ? ? ? co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
? ? return co.sub(restr, desstr)

if __name__ == '__main__':
? ? start = time.time()
? ? data = data = pd.read_csv('feike.csv',encoding='gbk')?
? ? data['comment'] = data['comment'].parallel_apply(filter_emoji)
? ? data['title'] = data['title'].parallel_apply(filter_emoji)
? ? data['comment'] = data['comment'].parallel_apply(lambda s: jieba.lcut(s))
? ? data['title'] = data['title'].parallel_apply(lambda s: jieba.lcut(s))
? ? end = time.time()
? ? print(end - start)

輸出：