亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的過(guò)程

 更新時(shí)間:2025年02月15日 13:52:55   作者:程序員Rocky  
文章介紹了如何在GPU主機(jī)上部署DeepSeek大模型,并使用GPU資源加速推理計(jì)算,通過(guò)監(jiān)控主機(jī)GPU的顯存使用情況等指標(biāo),可以更好地進(jìn)行運(yùn)維和優(yōu)化,感興趣的朋友跟隨小編一起看看吧

一、背景

        上一篇文章介紹了在GPU主機(jī)部署DeepSeek大模型。并且DeepSeek使用到了GPU資源來(lái)進(jìn)行推理和計(jì)算的過(guò)程,加速我們模型的回答速度。

        由此,我們必須要關(guān)注主機(jī)GPU的監(jiān)控指標(biāo)情況,例如總的顯卡顯存大小、占用的顯存大小、顯卡的版本信息、驅(qū)動(dòng)信息等等,才能對(duì)CPU運(yùn)行情況、利用率等做到心中有數(shù),便于后期的運(yùn)維、高可用性等。

二、部署nvidia_gpu_exporter

1、nvidia_gpu_exporter介紹

        地址: GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary

        我們可以使用nvidia_gpu_exporter本質(zhì)原理是用過(guò)nvidia-smi指令采集GPU的信息,然后轉(zhuǎn)換為prometheus metric。

        所以部署nvidia_gpu_exporter之前,需要正常安裝號(hào)nvidia-smi,并且安裝好了nvidia驅(qū)動(dòng)、CUDA驅(qū)動(dòng)等。

        正常執(zhí)行nvidia-smi如下:

nvidia-smi

2、docker部署,測(cè)試/metrics是否正常

執(zhí)行docker命令:

docker run -d --gpus=all -p 32768:9835 utkuozdemir/nvidia_gpu_exporter:1.3.0-amd64

通過(guò)curl訪問(wèn)主機(jī)的32768(端口可以自己做映射), 訪問(wèn)/metrics接口看是否可以正常拿到指標(biāo)數(shù)據(jù):

curl -s localhost:32768/metrics | grep 'nvidia'

三、配置prometheus+Grafana

1、配置prometheus進(jìn)行采集

配置promethues.yml文件:

查看promethues的target是否正常能采集到數(shù)據(jù):

搜索指標(biāo)是否已經(jīng)入庫(kù):

2、Grafana面板搜索并且導(dǎo)入面板

搜索gpu關(guān)鍵詞,查詢到面板ID:

3、導(dǎo)入Grafana面板ID,查看效果

        面板可以看到GPU的型號(hào)是RTX 4090、顯存的使用情況等指標(biāo), 此時(shí)我正在服務(wù)器運(yùn)行deepseek-r1:1.5b的模型,所以看到GPU的相關(guān)使用。如果將模型停止運(yùn)行,則GPU基本上無(wú)占用

四、總結(jié)

        AI人工智能、大模型等理論知識(shí)我們都能多少了解點(diǎn),但是今天看了一些大佬的教程,稍微深入了一下使用PyTorch進(jìn)行了一些基礎(chǔ)、簡(jiǎn)單模型的訓(xùn)練以及部署運(yùn)行, 發(fā)現(xiàn)從零開(kāi)始去嘗試做機(jī)器學(xué)習(xí)的相關(guān)開(kāi)發(fā)工作簡(jiǎn)直是天方夜談,涉及到的就是各種概率學(xué)、統(tǒng)計(jì)學(xué)、線性代數(shù)、算法等等,門(mén)檻是相當(dāng)高。

         既然無(wú)法做開(kāi)發(fā),那么從運(yùn)維工程師的角度出發(fā),了解PyTorch、tensorflow等深度學(xué)習(xí)框架的部署、模型的運(yùn)行等等,繼續(xù)在運(yùn)維路上前進(jìn),揚(yáng)長(zhǎng)避短,才能發(fā)揮自我優(yōu)勢(shì)!

到此這篇關(guān)于DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的文章就介紹到這了,更多相關(guān)DeepSeek GPU接入Prometheus內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 最新idea2021最新激活超詳細(xì)教程

    最新idea2021最新激活超詳細(xì)教程

    最近有朋友向小編反應(yīng)idea激活碼失效的問(wèn)題,今天小編給大家推薦使用通過(guò)無(wú)限重置試用期持續(xù)激活,需要的朋友參考下吧
    2020-09-09
  • 詳解git commit --amend 用法

    詳解git commit --amend 用法

    這篇文章主要介紹了詳解git commit --amend 用法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-08-08
  • curl和wget檢測(cè)網(wǎng)頁(yè)狀態(tài)的區(qū)別

    curl和wget檢測(cè)網(wǎng)頁(yè)狀態(tài)的區(qū)別

    curl和Wget在linux日常使用中非常常見(jiàn),它們都可以向服務(wù)器發(fā)出請(qǐng)求,curl和Wget的一個(gè)最明顯的區(qū)別是:默認(rèn)情況下Wget將查詢的網(wǎng)頁(yè)保存到系統(tǒng),而?curl將其顯示在終端輸出中但不保存它,curl的使用率比Wget多得多
    2025-04-04
  • 測(cè)試框架JUnit VS TestNG對(duì)比分析

    測(cè)試框架JUnit VS TestNG對(duì)比分析

    這篇文章主要為大家介紹了測(cè)試框架JUnit VS TestNG對(duì)比分析詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-07-07
  • MobaXterm使用指南(常用功能)

    MobaXterm使用指南(常用功能)

    MobaXterm就是一款SSH客戶端,它幫助我們?cè)赪indows操作系統(tǒng)下去連接并操作Linux服務(wù)器,這篇文章主要介紹了MobaXterm使用指南,需要的朋友可以參考下
    2023-05-05
  • git中cherry-pick命令的使用教程

    git中cherry-pick命令的使用教程

    這篇文章介紹了git中cherry-pick命令的使用方法,對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2022-06-06
  • 使用roolup構(gòu)建你的lib(實(shí)現(xiàn)步驟)

    使用roolup構(gòu)建你的lib(實(shí)現(xiàn)步驟)

    大家都知道Rollup更加適合用于構(gòu)建lib 而 Webpack, Precel 更加適合開(kāi)發(fā)應(yīng)用。本文,將結(jié)合一個(gè)簡(jiǎn)單的例子說(shuō)說(shuō)如何使用Rollup構(gòu)建自己的lib,感興趣的朋友一起看看吧
    2021-08-08
  • 0基礎(chǔ)租個(gè)硬件玩deepseek,藍(lán)耘元生代智算云|本地部署DeepSeek?R1模型的操作流程

    0基礎(chǔ)租個(gè)硬件玩deepseek,藍(lán)耘元生代智算云|本地部署DeepSeek?R1模型的操作流程

    DeepSeek?R1?模型憑借其強(qiáng)大的自然語(yǔ)言處理能力,在未來(lái)具有廣闊的應(yīng)用前景,有望在多個(gè)領(lǐng)域發(fā)揮重要作用,推動(dòng)各行業(yè)的智能化發(fā)展,文章介紹了如何使用藍(lán)耘元生代智算云在本地部署DeepSeekR1模型,感興趣的朋友一起看看吧
    2025-02-02
  • chatgpt成功解決Access denied 1020錯(cuò)誤問(wèn)題(最新推薦)

    chatgpt成功解決Access denied 1020錯(cuò)誤問(wèn)題(最新推薦)

    從前兩天網(wǎng)上開(kāi)始一直開(kāi)著的chatgpt網(wǎng)頁(yè)突然打不開(kāi)了,提示1020錯(cuò)誤,嘗試換了不同代理軟件或者代理地點(diǎn)仍然無(wú)法解決,這篇文章主要介紹了chatgpt成功解決Access denied 1020錯(cuò)誤,需要的朋友可以參考下
    2023-05-05
  • 每個(gè)程序員都應(yīng)該學(xué)習(xí)使用Python或Ruby

    每個(gè)程序員都應(yīng)該學(xué)習(xí)使用Python或Ruby

    在這篇文章里,我將會(huì)告訴你,為什么你一定要學(xué)習(xí)Python或Ruby語(yǔ)言
    2016-07-07

最新評(píng)論