淺談Python實(shí)時(shí)檢測(cè)CPU和GPU的功耗

更新時(shí)間：2023年01月28日 09:40:53 作者：小鋒學(xué)長(zhǎng)生活大爆炸

本文主要介紹了淺談Python實(shí)時(shí)檢測(cè)CPU和GPU的功耗，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

前言

相關(guān)一些檢測(cè)工具挺多的，比如powertop、powerstat、s-tui等。但如何通過代碼的方式來實(shí)時(shí)檢測(cè)，是個(gè)麻煩的問題。通過許久的搜索和自己的摸索，發(fā)現(xiàn)了可以檢測(cè)CPU和GPU功耗的方法。如果有什么不對(duì)，或有更好的方法，歡迎評(píng)論留言！

文末附完整功耗分析的示例代碼！

GPU功耗檢測(cè)方法

如果是常規(guī)的工具，可以使用官方的NVML。但這里需要Python控制，所以使用了對(duì)應(yīng)的封裝：pynvml。

先安裝：

pip install pynvml

關(guān)于這個(gè)庫(kù)，網(wǎng)上的使用教程挺多的。這里直接給出簡(jiǎn)單的示例代碼：

import pynvml
pynvml.nvmlInit()
 
handle = pynvml.nvmlDeviceGetHandleByIndex(0)
powerusage = pynvml.nvmlDeviceGetPowerUsage(handle) / 1000

這個(gè)方法獲取的值，跟使用“nvidia-smi”指令得到的是一樣的。

附贈(zèng)一個(gè)來自網(wǎng)上的獲取更詳細(xì)信息的函數(shù)：

def get_sensor_values():
    """
    get Sensor values
    :return:
    """
    values = list()
    # get gpu driver version
    version = pynvml.nvmlSystemGetDriverVersion()
    values.append("GPU_device_driver_version:" + version.decode())
    gpucount = pynvml.nvmlDeviceGetCount()  # 顯示有幾塊GPU
    for gpu_id in range(gpucount):
        handle = pynvml.nvmlDeviceGetHandleByIndex(gpu_id)
        name = pynvml.nvmlDeviceGetName(handle).decode()
        meminfo = pynvml.nvmlDeviceGetMemoryInfo(handle)
        # print(meminfo.total)  # 顯卡總的顯存大小
        gpu_id = str(gpu_id)
        values.append("GPU " + gpu_id + " " + name + " 總共顯存大小:" + str(common.bytes2human(meminfo.total)))
        # print(meminfo.used)  # 顯存使用大小
        values.append("GPU " + gpu_id + " " + name + " 顯存使用大小:" + str(common.bytes2human(meminfo.used)))
        # print(meminfo.free)  # 顯卡剩余顯存大小
        values.append("GPU " + gpu_id + " " + name + " 剩余顯存大小:" + str(common.bytes2human(meminfo.free)))
        values.append("GPU " + gpu_id + " " + name + " 剩余顯存比例:" + str(int((meminfo.free / meminfo.total) * 100)))
 
        utilization = pynvml.nvmlDeviceGetUtilizationRates(handle)
        # print(utilization.gpu)  # gpu利用率
        values.append("GPU " + gpu_id + " " + name + " GPU利用率:" + str(utilization.gpu))
 
        powerusage = pynvml.nvmlDeviceGetPowerUsage(handle)
        # print(powerusage / 1000) # 當(dāng)前功耗, 原始單位是mWa
        values.append("GPU " + gpu_id + " " + name + " 當(dāng)前功耗(W):" + str(powerusage / 1000))
 
        # 當(dāng)前gpu power capacity
        # pynvml.nvmlDeviceGetEnforcedPowerLimit(handle)
 
        # 通過以下方法可以獲取到gpu的溫度，暫時(shí)采用ipmi sdr獲取gpu的溫度，此處暫不處理
        # temp = pynvml.nvmlDeviceGetTemperature(handle,0)
    print('\n'.join(values))
    return values

CPU功耗檢測(cè)方法

這個(gè)沒有找到開源可以直接用的庫(kù)。但經(jīng)過搜索，發(fā)現(xiàn)大家都在用的s-tui工具是開源的！通過查看源碼，發(fā)現(xiàn)他是有獲取CPU功耗部分的代碼，所以就參考他的源碼寫了一下。

先安裝：

sudo apt install s-tui
pip install s-tui

先直接運(yùn)行工具看一下效果(不使用sudo是不會(huì)出來Power的)：

sudo s-tui

說明這個(gè)工具確實(shí)能獲取到CPU的功耗。其中package就是2個(gè)CPU，dram是內(nèi)存條功耗(一般不準(zhǔn)，可以不用)。

直接給出簡(jiǎn)單的示例代碼：

from s_tui.sources.rapl_power_source import RaplPowerSource
 
source.update()
summary = dict(source.get_sensors_summary())
 
cpu_power_total = str(sum(list(map(float, [summary[key] for key in summary.keys() if key.startswith('package')]))))

不過注意！由于需要sudo權(quán)限，所以運(yùn)行這個(gè)py文件時(shí)候，也需要sudo方式，比如：

sudo python demo.py

sudo的困擾與解決

上面提到，由于必須要sudo方式，但sudo python就換了運(yùn)行腳本的環(huán)境了呀，這個(gè)比較棘手。后來想了個(gè)方法，曲線救國(guó)一下。通過sudo運(yùn)行一個(gè)腳本，并開啟socket監(jiān)聽；而我們自己真正的腳本，在需要獲取CPU功耗時(shí)候，連接一下socket就行。

為什么這里使用socket而不是http呢？因?yàn)閟ocket更高效一點(diǎn)！

我們寫一個(gè)“power_listener.py”來監(jiān)聽：

from s_tui.sources.rapl_power_source import RaplPowerSource
import socket
import json
 
def output_to_terminal(source):
    results = {}
    if source.get_is_available():
        source.update()
        source_name = source.get_source_name()
        results[source_name] = source.get_sensors_summary()
    for key, value in results.items():
        print(str(key) + ": ")
        for skey, svalue in value.items():
            print(str(skey) + ": " + str(svalue) + ", ")
 
 
source = RaplPowerSource()
# output_to_terminal(source)
 
s = socket.socket()
host = socket.gethostname()
port = 8888
s.bind((host, port))
s.listen(5)
print("等待客戶端連接...")
while True:
    c, addr = s.accept()
    source.update()
    summary = dict(source.get_sensors_summary())
    #msg = json.dumps(summary)
    # package表示CPU，dram表示內(nèi)存(一般不準(zhǔn))
    power_total = str(sum(list(map(float, [summary[key] for key in summary.keys() if key.startswith('package')]))))
    print(f'發(fā)送給{addr}：{power_total}')
    c.send(power_total.encode('utf-8'))
    c.close()                # 關(guān)閉連接

因此，在需要獲取CPU功耗時(shí)候，只需要：

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
host = socket.gethostname()
port = 8888
s.connect((host, port))
msg = s.recv(1024)
s.close()
power_usage_cpu = float(msg.decode('utf-8'))

完整功耗分析示例代碼

提供一個(gè)我自己編寫和使用的功耗分析代碼，僅供參考。（注意上面的power_listener.py需要運(yùn)行著）

import cv2
import socket
import sys
import threading
import json
import statistics
from psutil import _common as common
import pynvml
pynvml.nvmlInit()
 
class Timer: 
    def __init__(self, name = '', is_verbose = False):
        self._name = name 
        self._is_verbose = is_verbose
        self._is_paused = False 
        self._start_time = None 
        self._accumulated = 0 
        self._elapsed = 0         
        self.start()
 
    def start(self):
        self._accumulated = 0         
        self._start_time = cv2.getTickCount()
 
    def pause(self): 
        now_time = cv2.getTickCount()
        self._accumulated += (now_time - self._start_time)/cv2.getTickFrequency() 
        self._is_paused = True   
 
    def resume(self): 
        if self._is_paused: # considered only if paused 
            self._start_time = cv2.getTickCount()
            self._is_paused = False                      
 
    def elapsed(self):
        if self._is_paused:
            self._elapsed = self._accumulated
        else:
            now = cv2.getTickCount()
            self._elapsed = self._accumulated + (now - self._start_time)/cv2.getTickFrequency()        
        if self._is_verbose is True:      
            name =  self._name
            if self._is_paused:
                name += ' [paused]'
            message = 'Timer::' + name + ' - elapsed: ' + str(self._elapsed) 
            timer_print(message)
        return self._elapsed   
 
class PowerUsage:
    '''
    demo:
        power_usage = PowerUsage()
        power_usage.analyze_start()
        time.sleep(2)
        time_used, power_usage_gpu, power_usage_cpu = power_usage.analyze_end()
        print(time_used)
        print(power_usage_gpu)
        print(power_usage_cpu)
    '''
    def __init__(self):
        self.start_analyze = False
        self.power_usage_gpu_values = list()
        self.power_usage_cpu_values = list()
        self.thread = None
        self.timer = Timer(name='GpuPowerUsage', is_verbose=False)
 
    def analyze_start(self, gpu_id=0, delay=0.1):
        handle = pynvml.nvmlDeviceGetHandleByIndex(gpu_id)
        def start():
            self.power_usage_gpu_values.clear()
            self.power_usage_cpu_values.clear()
            self.start_analyze = True
            self.timer.start()
            while self.start_analyze:
                powerusage = pynvml.nvmlDeviceGetPowerUsage(handle)
                self.power_usage_gpu_values.append(powerusage/1000)
 
                s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
                host = socket.gethostname()
                port = 8888
                s.connect((host, port))
                msg = s.recv(1024)
                s.close()
                self.power_usage_cpu_values.append(float(msg.decode('utf-8')))
 
                time.sleep(delay)
        self.thread = threading.Thread(target=start, daemon=True)
        self.thread.start()
 
    def analyze_end(self, mean=True):
        self.start_analyze = False
        while self.thread and self.thread.isAlive():
            time.sleep(0.01)
        time_used = self.timer.elapsed()
        self.thread = None
        power_usage_gpu = statistics.mean(self.power_usage_gpu_values) if mean else self.power_usage_gpu_values
        power_usage_cpu = statistics.mean(self.power_usage_cpu_values) if mean else self.power_usage_cpu_values
        return time_used, power_usage_gpu, power_usage_cpu
 
 
power_usage = PowerUsage()
def power_usage_api(func, note=''):
    @wraps(func)
    def wrapper(*args, **kwargs):
        power_usage.analyze_start()
        result = func(*args, **kwargs)
        print(f'{note}{power_usage.analyze_end()}')
        return result
    return wrapper
 
def power_usage_api2(note=''):
    def decorator(func):
        @wraps(func)
        def wrapper(*args, **kwargs):
            power_usage.analyze_start()
            result = func(*args, **kwargs)
            print(f'{note}{power_usage.analyze_end()}')
            return result
        return wrapper
    return decorator

用法示例：

power_usage = PowerUsage()
power_usage.analyze_start()
# ----------------------
# xxx 某一段待分析的代碼
# 這里以sleep表示運(yùn)行時(shí)長(zhǎng)
time.sleep(2)
# ----------------------
time_used, power_usage_gpu, power_usage_cpu = power_usage.analyze_end()
print(f'time_used: {time_used}')
print(f'power_usage_gpu: {power_usage_gpu}')
print(f'power_usage_cpu: {power_usage_cpu}')