分享python數(shù)據(jù)統(tǒng)計的一些小技巧
最近在用python做數(shù)據(jù)統(tǒng)計,這里總結(jié)了一些最近使用時查找和總結(jié)的一些小技巧,希望能幫助在做這方面時的一些童鞋。有些技巧是很平常的用法,平時我們沒有注意,但是在特定場景,這些小方法還是能帶來很大的幫助。
1.在字典中將鍵映射到多個值上面
{'b': [4, 5, 6], 'a': [1, 2, 3]}
有時候我們在統(tǒng)計相同key值的時候,希望把所有相同key的條目添加到以key為鍵的一個字典中,然后再進行各種操作,這時候我們就可以使用下面的代碼進行操作:
from collections import defaultdict d = defaultdict(list) print(d) d['a'].append(1) d['a'].append(2) d['a'].append(3) d['b'].append(4) d['b'].append(5) d['b'].append(6) print(d) print(d.get("a")) print(d.keys()) print([d.get(i) for i in d])
這里是使用了collections中的方法,這里面還擁有很多有用的方法,我們有時間在繼續(xù)進行深入了解。
上面代碼運行結(jié)果:
defaultdict(, {}) defaultdict(, {'b': [4, 5, 6], 'a': [1, 2, 3]}) [1, 2, 3] dict_keys(['b', 'a']) [[4, 5, 6], [1, 2, 3]]
我們將數(shù)據(jù)填入之后,相當于進行快速分組,然后遍歷每個組就可以統(tǒng)計一些我們需要的數(shù)據(jù)。
2.迅速轉(zhuǎn)換字典鍵值對
data = {...} zip(data.values(), data.keys())
data是我們的格式數(shù)據(jù),使用zip后進行快速鍵值轉(zhuǎn)換,然后可以使用max,min之類函數(shù)進行數(shù)據(jù)操作。
3.通過公共鍵對字典進行排序
from operator import itemgetter data = [ {'name': "bran", "uid": 101}, {'name': "xisi", "uid": 102}, {'name': "land", "uid": 103} ] print(sorted(data, key=itemgetter("name"))) print(sorted(data, key=itemgetter("uid")))
數(shù)據(jù)格式就是data,我們想要對name或者uid進行排序我們就是用代碼中的方法。
運行結(jié)果:
[{'name': 'bran', 'uid': 101}, {'name': 'land', 'uid': 103}, {'name': 'xisi', 'uid': 102}] [{'name': 'bran', 'uid': 101}, {'name': 'xisi', 'uid': 102}, {'name': 'land', 'uid': 103}]
正如我們期望中的一樣
4.對列表中的多個字典根據(jù)某一字段進行分組
注意注意,在進行分組前要首先對數(shù)據(jù)進行排序處理,排序字段根據(jù)實際要求來選擇
即將處理的數(shù)據(jù):
rows = [ {'name': "bran", "uid": 101, "class": 13}, {'name': "xisi", "uid": 101, "class": 11}, {'name': "land", "uid": 103, "class": 10} ]
期望處理結(jié)果:
{ 101: [{'name': 'xisi', 'class': 11, 'uid': 101},{'name': 'bran', 'class': 13, 'uid': 101}], 103: [{'name': 'land', 'class': 10, 'uid': 103}] }
我們按照uid進行分組,這里只是演示,uid一般也不會重復。
這個比較復雜一點,我們一部一步來分解
some = [('a', [1, 2, 3]), ('b', [4, 5, 6])] print(dict(some))
結(jié)果:
{'b': [4, 5, 6], 'a': [1, 2, 3]}
這里我們的目的是將元組轉(zhuǎn)換成字典,這個很簡單,應該都能看懂。接著我們來下一步對待處理數(shù)據(jù)進行排序:
data_one = sorted(rows, key=itemgetter("class")) print(data_one) data_two = sorted(rows, key=lambda x: (x["uid"], x["class"])) print(data_two)
這里我們提供兩種排序方式原理相同,只是樣式稍有區(qū)別,第一種data_one是直接使用itemgetter,按照我們前面使用過得,直接按照某一字段進行排序,可是有時候我們會有另一種要求:
先按照某一字段排序,當?shù)谝蛔侄沃貜蜁r,再按照另一字段排序。
這時我們就用第二種方法,進行多字段值排序。
排序結(jié)果如下:
[{'name': 'land', 'class': 10, 'uid': 103}, {'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}] [{'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}, {'name': 'land', 'class': 10, 'uid': 103}]
結(jié)果大家慢慢看一下,還是略有差別。
接下來就進行最后一步了,將我們剛才講的兩種方式結(jié)合起來使用:
data = dict([(g, list(k)) for g, k in groupby(data_two, key=lambda x: x["uid"])]) print(data)
我們對排序好的數(shù)據(jù)進行分組,然后生成元組列表,最后將其轉(zhuǎn)換成字典,這里大功告成,我們成功將數(shù)據(jù)進行分組。
python數(shù)據(jù)統(tǒng)計的一些小技巧就分享到這,有需要的可以參考學習。
相關(guān)文章
certifi輕松地管理Python證書信任鏈保障網(wǎng)絡(luò)安全
在使用Python進行網(wǎng)絡(luò)通信時,我們通常需要使用第三方庫來處理HTTPS連接,其中,certifi庫是一個非常實用的庫,可以幫助我們輕松地管理Python的證書信任鏈2024-01-01vscode 與pycharm 配置 autopep8自動格式化代碼
autopep8是一個可以將Python代碼自動排版為PEP8風格第三方包,使用它可以輕松地排版出格式優(yōu)美整齊的代碼,這里就為大家分享一下具體的方法2023-09-09使用實現(xiàn)python連接hive數(shù)倉的示例代碼
這篇文章主要為大家詳細介紹了使用實現(xiàn)python連接hive數(shù)倉的相關(guān)知識,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起學習一下2024-03-03