快捷導(dǎo)航

DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的過程

更新時(shí)間：2025年02月15日 13:52:55 作者：程序員Rocky

文章介紹了如何在GPU主機(jī)上部署DeepSeek大模型,并使用GPU資源加速推理計(jì)算,通過監(jiān)控主機(jī)GPU的顯存使用情況等指標(biāo),可以更好地進(jìn)行運(yùn)維和優(yōu)化,感興趣的朋友跟隨小編一起看看吧

一、背景

上一篇文章介紹了在GPU主機(jī)部署DeepSeek大模型。并且DeepSeek使用到了GPU資源來進(jìn)行推理和計(jì)算的過程，加速我們模型的回答速度。

由此，我們必須要關(guān)注主機(jī)GPU的監(jiān)控指標(biāo)情況，例如總的顯卡顯存大小、占用的顯存大小、顯卡的版本信息、驅(qū)動(dòng)信息等等，才能對CPU運(yùn)行情況、利用率等做到心中有數(shù)，便于后期的運(yùn)維、高可用性等。

二、部署nvidia_gpu_exporter

1、nvidia_gpu_exporter介紹

地址: GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary

我們可以使用nvidia_gpu_exporter本質(zhì)原理是用過nvidia-smi指令采集GPU的信息，然后轉(zhuǎn)換為prometheus metric。

所以部署nvidia_gpu_exporter之前，需要正常安裝號nvidia-smi，并且安裝好了nvidia驅(qū)動(dòng)、CUDA驅(qū)動(dòng)等。

正常執(zhí)行nvidia-smi如下:

nvidia-smi

2、docker部署,測試/metrics是否正常

執(zhí)行docker命令:

docker run -d --gpus=all -p 32768:9835 utkuozdemir/nvidia_gpu_exporter:1.3.0-amd64

通過curl訪問主機(jī)的32768(端口可以自己做映射)，訪問/metrics接口看是否可以正常拿到指標(biāo)數(shù)據(jù):

curl -s localhost:32768/metrics | grep 'nvidia'

三、配置prometheus+Grafana

1、配置prometheus進(jìn)行采集

配置promethues.yml文件:

查看promethues的target是否正常能采集到數(shù)據(jù):

搜索指標(biāo)是否已經(jīng)入庫:

2、Grafana面板搜索并且導(dǎo)入面板

搜索gpu關(guān)鍵詞，查詢到面板ID:

3、導(dǎo)入Grafana面板ID，查看效果

面板可以看到GPU的型號是RTX 4090、顯存的使用情況等指標(biāo)，此時(shí)我正在服務(wù)器運(yùn)行deepseek-r1:1.5b的模型，所以看到GPU的相關(guān)使用。如果將模型停止運(yùn)行，則GPU基本上無占用

四、總結(jié)

AI人工智能、大模型等理論知識我們都能多少了解點(diǎn)，但是今天看了一些大佬的教程，稍微深入了一下使用PyTorch進(jìn)行了一些基礎(chǔ)、簡單模型的訓(xùn)練以及部署運(yùn)行，發(fā)現(xiàn)從零開始去嘗試做機(jī)器學(xué)習(xí)的相關(guān)開發(fā)工作簡直是天方夜談，涉及到的就是各種概率學(xué)、統(tǒng)計(jì)學(xué)、線性代數(shù)、算法等等，門檻是相當(dāng)高。

既然無法做開發(fā)，那么從運(yùn)維工程師的角度出發(fā)，了解PyTorch、tensorflow等深度學(xué)習(xí)框架的部署、模型的運(yùn)行等等，繼續(xù)在運(yùn)維路上前進(jìn)，揚(yáng)長避短，才能發(fā)揮自我優(yōu)勢！

到此這篇關(guān)于DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的文章就介紹到這了,更多相關(guān)DeepSeek GPU接入Prometheus內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: