欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的過程

 更新時間:2025年02月15日 13:52:55   作者:程序員Rocky  
文章介紹了如何在GPU主機上部署DeepSeek大模型,并使用GPU資源加速推理計算,通過監(jiān)控主機GPU的顯存使用情況等指標(biāo),可以更好地進行運維和優(yōu)化,感興趣的朋友跟隨小編一起看看吧

一、背景

        上一篇文章介紹了在GPU主機部署DeepSeek大模型。并且DeepSeek使用到了GPU資源來進行推理和計算的過程,加速我們模型的回答速度。

        由此,我們必須要關(guān)注主機GPU的監(jiān)控指標(biāo)情況,例如總的顯卡顯存大小、占用的顯存大小、顯卡的版本信息、驅(qū)動信息等等,才能對CPU運行情況、利用率等做到心中有數(shù),便于后期的運維、高可用性等。

二、部署nvidia_gpu_exporter

1、nvidia_gpu_exporter介紹

        地址: GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary

        我們可以使用nvidia_gpu_exporter本質(zhì)原理是用過nvidia-smi指令采集GPU的信息,然后轉(zhuǎn)換為prometheus metric。

        所以部署nvidia_gpu_exporter之前,需要正常安裝號nvidia-smi,并且安裝好了nvidia驅(qū)動、CUDA驅(qū)動等。

        正常執(zhí)行nvidia-smi如下:

nvidia-smi

2、docker部署,測試/metrics是否正常

執(zhí)行docker命令:

docker run -d --gpus=all -p 32768:9835 utkuozdemir/nvidia_gpu_exporter:1.3.0-amd64

通過curl訪問主機的32768(端口可以自己做映射), 訪問/metrics接口看是否可以正常拿到指標(biāo)數(shù)據(jù):

curl -s localhost:32768/metrics | grep 'nvidia'

三、配置prometheus+Grafana

1、配置prometheus進行采集

配置promethues.yml文件:

查看promethues的target是否正常能采集到數(shù)據(jù):

搜索指標(biāo)是否已經(jīng)入庫:

2、Grafana面板搜索并且導(dǎo)入面板

搜索gpu關(guān)鍵詞,查詢到面板ID:

3、導(dǎo)入Grafana面板ID,查看效果

        面板可以看到GPU的型號是RTX 4090、顯存的使用情況等指標(biāo), 此時我正在服務(wù)器運行deepseek-r1:1.5b的模型,所以看到GPU的相關(guān)使用。如果將模型停止運行,則GPU基本上無占用

四、總結(jié)

        AI人工智能、大模型等理論知識我們都能多少了解點,但是今天看了一些大佬的教程,稍微深入了一下使用PyTorch進行了一些基礎(chǔ)、簡單模型的訓(xùn)練以及部署運行, 發(fā)現(xiàn)從零開始去嘗試做機器學(xué)習(xí)的相關(guān)開發(fā)工作簡直是天方夜談,涉及到的就是各種概率學(xué)、統(tǒng)計學(xué)、線性代數(shù)、算法等等,門檻是相當(dāng)高。

         既然無法做開發(fā),那么從運維工程師的角度出發(fā),了解PyTorch、tensorflow等深度學(xué)習(xí)框架的部署、模型的運行等等,繼續(xù)在運維路上前進,揚長避短,才能發(fā)揮自我優(yōu)勢!

到此這篇關(guān)于DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的文章就介紹到這了,更多相關(guān)DeepSeek GPU接入Prometheus內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 最新idea2021最新激活超詳細(xì)教程

    最新idea2021最新激活超詳細(xì)教程

    最近有朋友向小編反應(yīng)idea激活碼失效的問題,今天小編給大家推薦使用通過無限重置試用期持續(xù)激活,需要的朋友參考下吧
    2020-09-09
  • 詳解git commit --amend 用法

    詳解git commit --amend 用法

    這篇文章主要介紹了詳解git commit --amend 用法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-08-08
  • curl和wget檢測網(wǎng)頁狀態(tài)的區(qū)別

    curl和wget檢測網(wǎng)頁狀態(tài)的區(qū)別

    curl和Wget在linux日常使用中非常常見,它們都可以向服務(wù)器發(fā)出請求,curl和Wget的一個最明顯的區(qū)別是:默認(rèn)情況下Wget將查詢的網(wǎng)頁保存到系統(tǒng),而?curl將其顯示在終端輸出中但不保存它,curl的使用率比Wget多得多
    2025-04-04
  • 測試框架JUnit VS TestNG對比分析

    測試框架JUnit VS TestNG對比分析

    這篇文章主要為大家介紹了測試框架JUnit VS TestNG對比分析詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-07-07
  • MobaXterm使用指南(常用功能)

    MobaXterm使用指南(常用功能)

    MobaXterm就是一款SSH客戶端,它幫助我們在Windows操作系統(tǒng)下去連接并操作Linux服務(wù)器,這篇文章主要介紹了MobaXterm使用指南,需要的朋友可以參考下
    2023-05-05
  • git中cherry-pick命令的使用教程

    git中cherry-pick命令的使用教程

    這篇文章介紹了git中cherry-pick命令的使用方法,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2022-06-06
  • 使用roolup構(gòu)建你的lib(實現(xiàn)步驟)

    使用roolup構(gòu)建你的lib(實現(xiàn)步驟)

    大家都知道Rollup更加適合用于構(gòu)建lib 而 Webpack, Precel 更加適合開發(fā)應(yīng)用。本文,將結(jié)合一個簡單的例子說說如何使用Rollup構(gòu)建自己的lib,感興趣的朋友一起看看吧
    2021-08-08
  • 0基礎(chǔ)租個硬件玩deepseek,藍耘元生代智算云|本地部署DeepSeek?R1模型的操作流程

    0基礎(chǔ)租個硬件玩deepseek,藍耘元生代智算云|本地部署DeepSeek?R1模型的操作流程

    DeepSeek?R1?模型憑借其強大的自然語言處理能力,在未來具有廣闊的應(yīng)用前景,有望在多個領(lǐng)域發(fā)揮重要作用,推動各行業(yè)的智能化發(fā)展,文章介紹了如何使用藍耘元生代智算云在本地部署DeepSeekR1模型,感興趣的朋友一起看看吧
    2025-02-02
  • chatgpt成功解決Access denied 1020錯誤問題(最新推薦)

    chatgpt成功解決Access denied 1020錯誤問題(最新推薦)

    從前兩天網(wǎng)上開始一直開著的chatgpt網(wǎng)頁突然打不開了,提示1020錯誤,嘗試換了不同代理軟件或者代理地點仍然無法解決,這篇文章主要介紹了chatgpt成功解決Access denied 1020錯誤,需要的朋友可以參考下
    2023-05-05
  • 每個程序員都應(yīng)該學(xué)習(xí)使用Python或Ruby

    每個程序員都應(yīng)該學(xué)習(xí)使用Python或Ruby

    在這篇文章里,我將會告訴你,為什么你一定要學(xué)習(xí)Python或Ruby語言
    2016-07-07

最新評論