欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python3使用tracemalloc實(shí)現(xiàn)追蹤mmap內(nèi)存變化

 更新時(shí)間:2023年03月14日 11:11:58   作者:DECHIN  
這篇文章主要為大家詳細(xì)介紹了在Python3中如何使用tracemalloc實(shí)現(xiàn)追蹤mmap內(nèi)存變化,文中的示例代碼講解詳細(xì),感興趣的可以了解一下

技術(shù)背景

在前面一篇博客中我們介紹了一些用python3處理表格數(shù)據(jù)的方法,其中重點(diǎn)包含了vaex這樣一個(gè)大規(guī)模數(shù)據(jù)處理的方案。這個(gè)數(shù)據(jù)處理的方案是基于內(nèi)存映射(memory map)的技術(shù),通過創(chuàng)建內(nèi)存映射文件來避免在內(nèi)存中直接加載源數(shù)據(jù)而導(dǎo)致的大規(guī)模內(nèi)存占用問題,這使得我們可以在本地電腦內(nèi)存規(guī)模并不是很大的條件下對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行處理。python3中提供了mmap這樣一個(gè)倉(cāng)庫(kù),可以直接創(chuàng)建內(nèi)存映射文件。

用tracemalloc跟蹤python程序內(nèi)存占用

這里我們希望能夠?qū)Ρ葍?nèi)存映射技術(shù)的實(shí)際內(nèi)存占用,因此我們需要引入一個(gè)基于python的內(nèi)存追蹤工具:tracemalloc。我們先看一個(gè)簡(jiǎn)單的案例,創(chuàng)建一個(gè)隨機(jī)數(shù)組,觀察這個(gè)數(shù)組的內(nèi)存占用大小:

# tracem.py
 
import tracemalloc
import numpy as np
tracemalloc.start()
 
length=10000
test_array=np.random.randn(length) # 分配一個(gè)定長(zhǎng)隨機(jī)數(shù)組
snapshot=tracemalloc.take_snapshot() # 內(nèi)存攝像
top_stats=snapshot.statistics('lineno') # 內(nèi)存占用數(shù)據(jù)獲取
 
print ('[Top 10]')
for stat in top_stats[:10]: # 打印占用內(nèi)存最大的10個(gè)子進(jìn)程
    print (stat)

輸出結(jié)果如下:

[dechin@dechin-manjaro mmap]$ python3 tracem.py 
[Top 10]
tracem.py:8: size=78.2 KiB, count=2, average=39.1 KiB

假如我們是使用top指令來直接檢測(cè)內(nèi)存的話,毫無疑問占比內(nèi)存最高的還是谷歌瀏覽器:

top - 10:04:08 up 6 days, 15:18,  5 users,  load average: 0.23, 0.33, 0.27
任務(wù): 309 total,   1 running, 264 sleeping,  23 stopped,  21 zombie
%Cpu(s):  0.6 us,  0.2 sy,  0.0 ni, 99.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
MiB Mem :  39913.6 total,  25450.8 free,   1875.7 used,  12587.1 buff/cache
MiB Swap:  16384.0 total,  16384.0 free,      0.0 used.  36775.8 avail Mem 
 
 進(jìn)程號(hào) USER      PR  NI    VIRT    RES    SHR    %CPU  %MEM     TIME+ COMMAND               
 286734 dechin    20   0   36.6g 175832 117544 S   4.0   0.4   1:02.32 chromium 

因此根據(jù)進(jìn)程號(hào)來追蹤子進(jìn)程的內(nèi)存占用才是使用tracemalloc的一個(gè)重點(diǎn),這里我們發(fā)現(xiàn)一個(gè)10000大小的numpy矢量的內(nèi)存占用約為39.1 KiB,這其實(shí)是符合我們的預(yù)期的:

In [3]: 39.1*1024/4
Out[3]: 10009.6

因?yàn)檫@幾乎就是10000個(gè)float32浮點(diǎn)數(shù)的內(nèi)存占用大小,這表明所有的元素都已經(jīng)存儲(chǔ)在內(nèi)存中。

用tracemalloc追蹤內(nèi)存變化

在上面一個(gè)章節(jié)中我們介紹了snapshot內(nèi)存快照的使用方法,那么我們很容易可以想到,通過“拍攝”兩張內(nèi)存快照,然后對(duì)比一下快照中的變化,不就可以得到內(nèi)存變化的大小么?接下來做一個(gè)簡(jiǎn)單嘗試:

# comp_tracem.py
 
import tracemalloc
import numpy as np
tracemalloc.start()
 
snapshot0=tracemalloc.take_snapshot() # 第一張快照
length=10000
test_array=np.random.randn(length)
snapshot1=tracemalloc.take_snapshot() # 第二張快照
top_stats=snapshot1.compare_to(snapshot0,'lineno') # 快照對(duì)比
 
print ('[Top 10 differences]')
for stat in top_stats[:10]:
    print (stat)

執(zhí)行結(jié)果如下:

[dechin@dechin-manjaro mmap]$ python3 comp_tracem.py 
[Top 10 differences]
comp_tracem.py:9: size=78.2 KiB (+78.2 KiB), count=2 (+2), average=39.1 KiB

可以看到這個(gè)快照前后的平均內(nèi)存大小差異就是在39.1 KiB,假如我們把矢量的維度改為1000000:

length=1000000

再執(zhí)行一遍看看效果:

[dechin@dechin-manjaro mmap]$ python3 comp_tracem.py  
[Top 10 differences]
comp_tracem.py:9: size=7813 KiB (+7813 KiB), count=2 (+2), average=3906 KiB

我們發(fā)現(xiàn)結(jié)果是3906,相當(dāng)于被放大了100倍,是比較符合預(yù)期的。當(dāng)然如果我們仔細(xì)去算一下:

In [4]: 3906*1024/4
Out[4]: 999936.0

我們發(fā)現(xiàn)這里面并不完全是float32的類型,相比于完全的float32類型缺失了一部分內(nèi)存大小,這里懷疑是否是中間產(chǎn)生了一些0,被自動(dòng)的壓縮了大???不過這個(gè)問題并不是我們所要重點(diǎn)關(guān)注的,我們繼續(xù)向下測(cè)試內(nèi)存的變化曲線。

內(nèi)存占用曲線

延續(xù)前面兩個(gè)章節(jié)的內(nèi)容,我們主要測(cè)試一下不同維度的隨機(jī)數(shù)組所需要占用的內(nèi)存空間,在上述代碼模塊的基礎(chǔ)上增加了一個(gè)for循環(huán):

# comp_tracem.py
 
import tracemalloc
import numpy as np
tracemalloc.start()
 
x=[]
y=[]
multiplier={'B':1,'KiB':1024,'MiB':1048576}
snapshot0=tracemalloc.take_snapshot()
for length in range(1,1000000,100000):
    np.random.seed(1)
    test_array=np.random.randn(length)
    snapshot1=tracemalloc.take_snapshot()
    top_stats=snapshot1.compare_to(snapshot0,'lineno')
    for stat in top_stats[:10]:
        if 'comp_tracem.py' in str(stat): # 判斷是否屬于當(dāng)前文件所產(chǎn)生的內(nèi)存占用
            x.append(length)
            mem=str(stat).split('average=')[1].split(' ')
            y.append(float(m曲線em[0])*multiplier[mem[1]])
            break
 
import matplotlib.pyplot as plt
plt.figure()
plt.plot(x,y,'D',color='black',label='Experiment')
plt.plot(x,np.dot(x,4),color='red',label='Expect') # float32的預(yù)期占用空間
plt.title('Memery Difference vs Array Length')
plt.xlabel('Number Array Length')
plt.ylabel('Memory Difference')
plt.legend()
plt.savefig('comp_mem.png')

畫出來的效果圖如下所示:

這里我們又發(fā)現(xiàn),雖然大部分情況下是符合內(nèi)存占用預(yù)期的,但有很多個(gè)點(diǎn)比預(yù)期占用的要少,我們懷疑是因?yàn)榇嬖?元素,因此稍微修改了一下代碼,在原代碼的基礎(chǔ)上增加了一個(gè)操作來盡可能的避免0的出現(xiàn):

# comp_tracem.py
 
import tracemalloc
import numpy as np
tracemalloc.start()
 
x=[]
y=[]
multiplier={'B':1,'KiB':1024,'MiB':1048576}
snapshot0=tracemalloc.take_snapshot()
for length in range(1,1000000,100000):
    np.random.seed(1)
    test_array=np.random.randn(length)
    test_array+=np.ones(length)*np.pi # 在原數(shù)組基礎(chǔ)上加一個(gè)圓周率,內(nèi)存不變
    snapshot1=tracemalloc.take_snapshot()
    top_stats=snapshot1.compare_to(snapshot0,'lineno')
    for stat in top_stats[:10]:
        if 'comp_tracem.py' in str(stat):
            x.append(length)
            mem=str(stat).split('average=')[1].split(' ')
            y.append(float(mem[0])*multiplier[mem[1]])
            break
 
import matplotlib.pyplot as plt
plt.figure()
plt.plot(x,y,'D',color='black',label='Experiment')
plt.plot(x,np.dot(x,4),color='red',label='Expect')
plt.title('Memery Difference vs Array Length')
plt.xlabel('Number Array Length')
plt.ylabel('Memory Difference')
plt.legend()
plt.savefig('comp_mem.png')

經(jīng)過更新后,得到的結(jié)果圖如下所示:

雖然不符合預(yù)期的點(diǎn)數(shù)少了,但是這里還是有兩個(gè)點(diǎn)不符合預(yù)期的內(nèi)存占用大小,疑似數(shù)據(jù)被壓縮了。

mmap內(nèi)存占用測(cè)試

在上面幾個(gè)章節(jié)之后,我們已經(jīng)基本掌握了內(nèi)存追蹤技術(shù)的使用,這里我們將其應(yīng)用在mmap內(nèi)存映射技術(shù)上,看看有什么樣的效果。

將numpy數(shù)組寫入txt文件

因?yàn)閮?nèi)存映射本質(zhì)上是一個(gè)對(duì)系統(tǒng)文件的讀寫操作,因此這里我們首先將前面用到的numpy數(shù)組存儲(chǔ)到txt文件中:

# write_array.py
 
import numpy as np
 
x=[]
y=[]
for length in range(1,1000000,100000):
    np.random.seed(1)
    test_array=np.random.randn(length)
    test_array+=np.ones(length)*np.pi
    np.savetxt('numpy_array_length_'+str(length)+'.txt',test_array)

寫入完成后,在當(dāng)前目錄下會(huì)生成一系列的txt文件:

-rw-r--r-- 1 dechin dechin  2500119  4月 12 10:09 numpy_array_length_100001.txt
-rw-r--r-- 1 dechin dechin       25  4月 12 10:09 numpy_array_length_1.txt
-rw-r--r-- 1 dechin dechin  5000203  4月 12 10:09 numpy_array_length_200001.txt
-rw-r--r-- 1 dechin dechin  7500290  4月 12 10:09 numpy_array_length_300001.txt
-rw-r--r-- 1 dechin dechin 10000356  4月 12 10:09 numpy_array_length_400001.txt
-rw-r--r-- 1 dechin dechin 12500443  4月 12 10:09 numpy_array_length_500001.txt
-rw-r--r-- 1 dechin dechin 15000526  4月 12 10:09 numpy_array_length_600001.txt
-rw-r--r-- 1 dechin dechin 17500606  4月 12 10:09 numpy_array_length_700001.txt
-rw-r--r-- 1 dechin dechin 20000685  4月 12 10:09 numpy_array_length_800001.txt
-rw-r--r-- 1 dechin dechin 22500788  4月 12 10:09 numpy_array_length_900001.txt

我們可以用head或者tail查看前n個(gè)或者后n個(gè)的元素:

[dechin@dechin-manjaro mmap]$ head -n 5 numpy_array_length_100001.txt 
4.765938017253034786e+00
2.529836239939717846e+00
2.613420901326337642e+00
2.068624031433622612e+00
4.007000282914471967e+00

numpy文件讀取測(cè)試

前面幾個(gè)測(cè)試我們是直接在內(nèi)存中生成的numpy的數(shù)組并進(jìn)行內(nèi)存監(jiān)測(cè),這里我們?yōu)榱藝?yán)格對(duì)比,統(tǒng)一采用文件讀取的方式,首先我們需要看一下numpy的文件讀取的內(nèi)存曲線如何:

# npopen_tracem.py
 
import tracemalloc
import numpy as np
tracemalloc.start()
 
x=[]
y=[]
multiplier={'B':1,'KiB':1024,'MiB':1048576}
snapshot0=tracemalloc.take_snapshot()
for length in range(1,1000000,100000):
    test_array=np.loadtxt('numpy_array_length_'+str(length)+'.txt',delimiter=',')
    snapshot1=tracemalloc.take_snapshot()
    top_stats=snapshot1.compare_to(snapshot0,'lineno')
    for stat in top_stats[:10]:
        if '/home/dechin/anaconda3/lib/python3.8/site-packages/numpy/lib/npyio.py:1153' in str(stat):
            x.append(length)
            mem=str(stat).split('average=')[1].split(' ')
            y.append(float(mem[0])*multiplier[mem[1]])
            break
 
import matplotlib.pyplot as plt
plt.figure()
plt.plot(x,y,'D',color='black',label='Experiment')
plt.plot(x,np.dot(x,8),color='red',label='Expect')
plt.title('Memery Difference vs Array Length')
plt.xlabel('Number Array Length')
plt.ylabel('Memory Difference')
plt.legend()
plt.savefig('open_mem.png')

需要注意的一點(diǎn)是,這里雖然還是使用numpy對(duì)文件進(jìn)行讀取,但是內(nèi)存占用已經(jīng)不是名為npopen_tracem.py的源文件了,而是被保存在了npyio.py:1153這個(gè)文件中,因此我們?cè)谶M(jìn)行內(nèi)存跟蹤的時(shí)候,需要調(diào)整一下對(duì)應(yīng)的統(tǒng)計(jì)位置。最后的輸出結(jié)果如下:

由于讀入之后是默認(rèn)以float64來讀取的,因此預(yù)期的內(nèi)存占用大小是元素?cái)?shù)量×8,這里讀入的數(shù)據(jù)內(nèi)存占用是幾乎完全符合預(yù)期的。

mmap內(nèi)存占用測(cè)試

伏筆了一大篇幅的文章,最后終于到了內(nèi)存映射技術(shù)的測(cè)試,其實(shí)內(nèi)存映射模塊mmap的使用方式倒也不難,就是配合os模塊進(jìn)行文件讀取,基本上就是一行的代碼:

# mmap_tracem.py
 
import tracemalloc
import numpy as np
import mmap
import os
tracemalloc.start()
 
x=[]
y=[]
multiplier={'B':1,'KiB':1024,'MiB':1048576}
snapshot0=tracemalloc.take_snapshot()
for length in range(1,1000000,100000):
    test_array=mmap.mmap(os.open('numpy_array_length_'+str(length)+'.txt',os.O_RDWR),0) # 創(chuàng)建內(nèi)存映射文件
    snapshot1=tracemalloc.take_snapshot()
    top_stats=snapshot1.compare_to(snapshot0,'lineno')
    for stat in top_stats[:10]:
        print (stat)
        if 'mmap_tracem.py' in str(stat):
            x.append(length)
            mem=str(stat).split('average=')[1].split(' ')
            y.append(float(mem[0])*multiplier[mem[1]])
            break
 
import matplotlib.pyplot as plt
plt.figure()
plt.plot(x,y,'D',color='black',label='Experiment')
plt.title('Memery Difference vs Array Length')
plt.xlabel('Number Array Length')
plt.ylabel('Memory Difference')
plt.legend()
plt.savefig('mmap.png')

運(yùn)行結(jié)果如下:

我們可以看到內(nèi)存上是幾乎沒有波動(dòng)的,因?yàn)槲覀儾⑽窗颜麄€(gè)數(shù)組加載到內(nèi)存中,而是在內(nèi)存中加載了其內(nèi)存映射的文件。使得我們可以讀取文件中的任何一個(gè)位置的byte,但是不用耗費(fèi)太大的內(nèi)存資源。當(dāng)我們?nèi)バ薷膶懭胛募臅r(shí)候需要額外的小心,因?yàn)閷?duì)于內(nèi)存映射技術(shù)來說,byte數(shù)量是需要保持不變的,否則內(nèi)存映射就會(huì)發(fā)生錯(cuò)誤。

總結(jié)概要

本文介紹了用tracemalloc來進(jìn)行python程序的內(nèi)存追蹤的技術(shù),以及簡(jiǎn)單的文件映射技術(shù)mmap的使用方法介紹和演示。通過這些案例,我們了解到,對(duì)于小規(guī)模的計(jì)算場(chǎng)景,可以將整個(gè)的需要計(jì)算的元素包含在內(nèi)存中,這比較方便也比較快速。而對(duì)于大規(guī)模的文件場(chǎng)景,還是使用內(nèi)存映射技術(shù)更加的快速,這個(gè)速度在本文中介紹的幾個(gè)案例的運(yùn)行中也能夠體會(huì)到。內(nèi)存映射技術(shù)已經(jīng)有很多應(yīng)用場(chǎng)景,比如前面介紹過的vaex就是得益于內(nèi)存映射技術(shù)。

到此這篇關(guān)于Python3使用tracemalloc實(shí)現(xiàn)追蹤mmap內(nèi)存變化的文章就介紹到這了,更多相關(guān)Python tracemalloc追蹤mmap內(nèi)存變化內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Qt Quick QML-500行代碼實(shí)現(xiàn)合成大西瓜游戲

    Qt Quick QML-500行代碼實(shí)現(xiàn)合成大西瓜游戲

    合成大西瓜游戲是前段時(shí)間比較火的小游戲,最近小編閑來無事,通過研究小球碰撞原理親自寫碰撞算法實(shí)現(xiàn)一個(gè)合成大西瓜游戲,下面小編把我的實(shí)現(xiàn)思路及核心代碼分析出來,供大家參考
    2021-05-05
  • Python中常用的高階函數(shù)實(shí)例詳解

    Python中常用的高階函數(shù)實(shí)例詳解

    高階函數(shù)指的是能接收函數(shù)作為參數(shù)的函數(shù)或類,這篇文章主要介紹了Python中常用的高階函數(shù),通過實(shí)例文字解釋相結(jié)合給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2020-02-02
  • python中從for循環(huán)延申到推導(dǎo)式的具體使用

    python中從for循環(huán)延申到推導(dǎo)式的具體使用

    這篇文章主要介紹了python中從for循環(huán)延申到推導(dǎo)式的具體使用,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-11-11
  • Python求最小公倍數(shù)4種方法總結(jié)

    Python求最小公倍數(shù)4種方法總結(jié)

    這篇文章主要給大家介紹了關(guān)于Python求最小公倍數(shù)4種方法的相關(guān)資料,最小公倍數(shù)不可以像最大公約數(shù)那樣直接利用輾轉(zhuǎn)相除法求出,但可以借助輾轉(zhuǎn)相除法求得的最大公約數(shù)來求最小公倍數(shù),需要的朋友可以參考下
    2023-10-10
  • Python中日志模塊logging的使用技巧和應(yīng)用詳解

    Python中日志模塊logging的使用技巧和應(yīng)用詳解

    在Python開發(fā)中,日志記錄是一個(gè)非常重要的環(huán)節(jié),它不僅有助于開發(fā)者追蹤程序的執(zhí)行流程,還能在出現(xiàn)問題時(shí)提供關(guān)鍵信息,幫助快速定位并解決問題,本文將結(jié)合實(shí)際案例,詳細(xì)介紹logging模塊的基礎(chǔ)用法和高級(jí)特性,需要的朋友可以參考下
    2024-08-08
  • 如何利用pandas工具輸出每行的索引值、及其對(duì)應(yīng)的行數(shù)據(jù)

    如何利用pandas工具輸出每行的索引值、及其對(duì)應(yīng)的行數(shù)據(jù)

    這篇文章主要介紹了如何利用pandas工具輸出每行的索引值、及其對(duì)應(yīng)的行數(shù)據(jù),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-03-03
  • 關(guān)于文件Permission denied解決方案(pip)

    關(guān)于文件Permission denied解決方案(pip)

    這篇文章主要介紹了文件Permission denied解決方案(pip),具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • python-opencv獲取二值圖像輪廓及中心點(diǎn)坐標(biāo)的代碼

    python-opencv獲取二值圖像輪廓及中心點(diǎn)坐標(biāo)的代碼

    今天小編就為大家分享一篇python-opencv獲取二值圖像輪廓及中心點(diǎn)坐標(biāo)的代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08
  • 啟動(dòng)targetcli時(shí)遇到錯(cuò)誤解決辦法

    啟動(dòng)targetcli時(shí)遇到錯(cuò)誤解決辦法

    這篇文章主要介紹了啟動(dòng)targetcli時(shí)遇到錯(cuò)誤解決辦法的相關(guān)資料,希望通過本文能幫助到大家,讓大家遇到這樣的錯(cuò)誤解決,需要的朋友可以參考下
    2017-10-10
  • Django rest framework實(shí)現(xiàn)分頁(yè)的示例

    Django rest framework實(shí)現(xiàn)分頁(yè)的示例

    這篇文章主要介紹了Django rest framework實(shí)現(xiàn)分頁(yè)的示例,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2018-05-05

最新評(píng)論