DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的過程
一、背景
上一篇文章介紹了在GPU主機部署DeepSeek大模型。并且DeepSeek使用到了GPU資源來進行推理和計算的過程,加速我們模型的回答速度。
由此,我們必須要關(guān)注主機GPU的監(jiān)控指標(biāo)情況,例如總的顯卡顯存大小、占用的顯存大小、顯卡的版本信息、驅(qū)動信息等等,才能對CPU運行情況、利用率等做到心中有數(shù),便于后期的運維、高可用性等。
二、部署nvidia_gpu_exporter
1、nvidia_gpu_exporter介紹
地址: GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary
我們可以使用nvidia_gpu_exporter本質(zhì)原理是用過nvidia-smi指令采集GPU的信息,然后轉(zhuǎn)換為prometheus metric。
所以部署nvidia_gpu_exporter之前,需要正常安裝號nvidia-smi,并且安裝好了nvidia驅(qū)動、CUDA驅(qū)動等。
正常執(zhí)行nvidia-smi如下:
nvidia-smi
2、docker部署,測試/metrics是否正常
執(zhí)行docker命令:
docker run -d --gpus=all -p 32768:9835 utkuozdemir/nvidia_gpu_exporter:1.3.0-amd64
通過curl訪問主機的32768(端口可以自己做映射), 訪問/metrics接口看是否可以正常拿到指標(biāo)數(shù)據(jù):
curl -s localhost:32768/metrics | grep 'nvidia'
三、配置prometheus+Grafana
1、配置prometheus進行采集
配置promethues.yml文件:
查看promethues的target是否正常能采集到數(shù)據(jù):
搜索指標(biāo)是否已經(jīng)入庫:
2、Grafana面板搜索并且導(dǎo)入面板
搜索gpu關(guān)鍵詞,查詢到面板ID:
3、導(dǎo)入Grafana面板ID,查看效果
面板可以看到GPU的型號是RTX 4090、顯存的使用情況等指標(biāo), 此時我正在服務(wù)器運行deepseek-r1:1.5b的模型,所以看到GPU的相關(guān)使用。如果將模型停止運行,則GPU基本上無占用
四、總結(jié)
AI人工智能、大模型等理論知識我們都能多少了解點,但是今天看了一些大佬的教程,稍微深入了一下使用PyTorch進行了一些基礎(chǔ)、簡單模型的訓(xùn)練以及部署運行, 發(fā)現(xiàn)從零開始去嘗試做機器學(xué)習(xí)的相關(guān)開發(fā)工作簡直是天方夜談,涉及到的就是各種概率學(xué)、統(tǒng)計學(xué)、線性代數(shù)、算法等等,門檻是相當(dāng)高。
既然無法做開發(fā),那么從運維工程師的角度出發(fā),了解PyTorch、tensorflow等深度學(xué)習(xí)框架的部署、模型的運行等等,繼續(xù)在運維路上前進,揚長避短,才能發(fā)揮自我優(yōu)勢!
到此這篇關(guān)于DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的文章就介紹到這了,更多相關(guān)DeepSeek GPU接入Prometheus內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
curl和wget檢測網(wǎng)頁狀態(tài)的區(qū)別
curl和Wget在linux日常使用中非常常見,它們都可以向服務(wù)器發(fā)出請求,curl和Wget的一個最明顯的區(qū)別是:默認(rèn)情況下Wget將查詢的網(wǎng)頁保存到系統(tǒng),而?curl將其顯示在終端輸出中但不保存它,curl的使用率比Wget多得多2025-04-04使用roolup構(gòu)建你的lib(實現(xiàn)步驟)
大家都知道Rollup更加適合用于構(gòu)建lib 而 Webpack, Precel 更加適合開發(fā)應(yīng)用。本文,將結(jié)合一個簡單的例子說說如何使用Rollup構(gòu)建自己的lib,感興趣的朋友一起看看吧2021-08-080基礎(chǔ)租個硬件玩deepseek,藍耘元生代智算云|本地部署DeepSeek?R1模型的操作流程
DeepSeek?R1?模型憑借其強大的自然語言處理能力,在未來具有廣闊的應(yīng)用前景,有望在多個領(lǐng)域發(fā)揮重要作用,推動各行業(yè)的智能化發(fā)展,文章介紹了如何使用藍耘元生代智算云在本地部署DeepSeekR1模型,感興趣的朋友一起看看吧2025-02-02chatgpt成功解決Access denied 1020錯誤問題(最新推薦)
從前兩天網(wǎng)上開始一直開著的chatgpt網(wǎng)頁突然打不開了,提示1020錯誤,嘗試換了不同代理軟件或者代理地點仍然無法解決,這篇文章主要介紹了chatgpt成功解決Access denied 1020錯誤,需要的朋友可以參考下2023-05-05每個程序員都應(yīng)該學(xué)習(xí)使用Python或Ruby
在這篇文章里,我將會告訴你,為什么你一定要學(xué)習(xí)Python或Ruby語言2016-07-07