DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的過(guò)程
一、背景
上一篇文章介紹了在GPU主機(jī)部署DeepSeek大模型。并且DeepSeek使用到了GPU資源來(lái)進(jìn)行推理和計(jì)算的過(guò)程,加速我們模型的回答速度。
由此,我們必須要關(guān)注主機(jī)GPU的監(jiān)控指標(biāo)情況,例如總的顯卡顯存大小、占用的顯存大小、顯卡的版本信息、驅(qū)動(dòng)信息等等,才能對(duì)CPU運(yùn)行情況、利用率等做到心中有數(shù),便于后期的運(yùn)維、高可用性等。
二、部署nvidia_gpu_exporter
1、nvidia_gpu_exporter介紹
地址: GitHub - utkuozdemir/nvidia_gpu_exporter: Nvidia GPU exporter for prometheus using nvidia-smi binary
我們可以使用nvidia_gpu_exporter本質(zhì)原理是用過(guò)nvidia-smi指令采集GPU的信息,然后轉(zhuǎn)換為prometheus metric。
所以部署nvidia_gpu_exporter之前,需要正常安裝號(hào)nvidia-smi,并且安裝好了nvidia驅(qū)動(dòng)、CUDA驅(qū)動(dòng)等。
正常執(zhí)行nvidia-smi如下:
nvidia-smi
2、docker部署,測(cè)試/metrics是否正常
執(zhí)行docker命令:
docker run -d --gpus=all -p 32768:9835 utkuozdemir/nvidia_gpu_exporter:1.3.0-amd64
通過(guò)curl訪問(wèn)主機(jī)的32768(端口可以自己做映射), 訪問(wèn)/metrics接口看是否可以正常拿到指標(biāo)數(shù)據(jù):
curl -s localhost:32768/metrics | grep 'nvidia'
三、配置prometheus+Grafana
1、配置prometheus進(jìn)行采集
配置promethues.yml文件:
查看promethues的target是否正常能采集到數(shù)據(jù):
搜索指標(biāo)是否已經(jīng)入庫(kù):
2、Grafana面板搜索并且導(dǎo)入面板
搜索gpu關(guān)鍵詞,查詢到面板ID:
3、導(dǎo)入Grafana面板ID,查看效果
面板可以看到GPU的型號(hào)是RTX 4090、顯存的使用情況等指標(biāo), 此時(shí)我正在服務(wù)器運(yùn)行deepseek-r1:1.5b的模型,所以看到GPU的相關(guān)使用。如果將模型停止運(yùn)行,則GPU基本上無(wú)占用
四、總結(jié)
AI人工智能、大模型等理論知識(shí)我們都能多少了解點(diǎn),但是今天看了一些大佬的教程,稍微深入了一下使用PyTorch進(jìn)行了一些基礎(chǔ)、簡(jiǎn)單模型的訓(xùn)練以及部署運(yùn)行, 發(fā)現(xiàn)從零開(kāi)始去嘗試做機(jī)器學(xué)習(xí)的相關(guān)開(kāi)發(fā)工作簡(jiǎn)直是天方夜談,涉及到的就是各種概率學(xué)、統(tǒng)計(jì)學(xué)、線性代數(shù)、算法等等,門(mén)檻是相當(dāng)高。
既然無(wú)法做開(kāi)發(fā),那么從運(yùn)維工程師的角度出發(fā),了解PyTorch、tensorflow等深度學(xué)習(xí)框架的部署、模型的運(yùn)行等等,繼續(xù)在運(yùn)維路上前進(jìn),揚(yáng)長(zhǎng)避短,才能發(fā)揮自我優(yōu)勢(shì)!
到此這篇關(guān)于DeepSeek部署之GPU監(jiān)控指標(biāo)接入Prometheus的文章就介紹到這了,更多相關(guān)DeepSeek GPU接入Prometheus內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
curl和wget檢測(cè)網(wǎng)頁(yè)狀態(tài)的區(qū)別
curl和Wget在linux日常使用中非常常見(jiàn),它們都可以向服務(wù)器發(fā)出請(qǐng)求,curl和Wget的一個(gè)最明顯的區(qū)別是:默認(rèn)情況下Wget將查詢的網(wǎng)頁(yè)保存到系統(tǒng),而?curl將其顯示在終端輸出中但不保存它,curl的使用率比Wget多得多2025-04-04測(cè)試框架JUnit VS TestNG對(duì)比分析
這篇文章主要為大家介紹了測(cè)試框架JUnit VS TestNG對(duì)比分析詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-07-07使用roolup構(gòu)建你的lib(實(shí)現(xiàn)步驟)
大家都知道Rollup更加適合用于構(gòu)建lib 而 Webpack, Precel 更加適合開(kāi)發(fā)應(yīng)用。本文,將結(jié)合一個(gè)簡(jiǎn)單的例子說(shuō)說(shuō)如何使用Rollup構(gòu)建自己的lib,感興趣的朋友一起看看吧2021-08-080基礎(chǔ)租個(gè)硬件玩deepseek,藍(lán)耘元生代智算云|本地部署DeepSeek?R1模型的操作流程
DeepSeek?R1?模型憑借其強(qiáng)大的自然語(yǔ)言處理能力,在未來(lái)具有廣闊的應(yīng)用前景,有望在多個(gè)領(lǐng)域發(fā)揮重要作用,推動(dòng)各行業(yè)的智能化發(fā)展,文章介紹了如何使用藍(lán)耘元生代智算云在本地部署DeepSeekR1模型,感興趣的朋友一起看看吧2025-02-02chatgpt成功解決Access denied 1020錯(cuò)誤問(wèn)題(最新推薦)
從前兩天網(wǎng)上開(kāi)始一直開(kāi)著的chatgpt網(wǎng)頁(yè)突然打不開(kāi)了,提示1020錯(cuò)誤,嘗試換了不同代理軟件或者代理地點(diǎn)仍然無(wú)法解決,這篇文章主要介紹了chatgpt成功解決Access denied 1020錯(cuò)誤,需要的朋友可以參考下2023-05-05每個(gè)程序員都應(yīng)該學(xué)習(xí)使用Python或Ruby
在這篇文章里,我將會(huì)告訴你,為什么你一定要學(xué)習(xí)Python或Ruby語(yǔ)言2016-07-07