常用PC服務(wù)器陣列卡、硬盤(pán)健康監(jiān)控 葉金榮

通常,我們使用的DELL/HP/IBM三家的機(jī)架式PC級(jí)服務(wù)器陣列卡是從LSI的卡OEM出來(lái)的,DELL和IBM兩家的陣列卡原生程度較高,沒(méi)有做太多封裝,可以用原廠提供的陣列卡管理工具進(jìn)行監(jiān)控;而HP的陣列卡一般都做過(guò)封裝了,因此需要使用自身特有的管理工具來(lái)監(jiān)控。
本文以幾種常用的陣列卡為例,展示其陣列卡及硬盤(pán)監(jiān)控的方法。
DELL SAS 6/iR卡,全稱LSI Logic SAS1068E,只支持RAID 0, RAID 1, RAID 1+0, 不支持RAID 5等高級(jí)RAID特性,不支持陣列卡電池。
DELL PERC PERC H700卡,全稱LSI Logic MegaRAID SAS 2108,支持各種RAID級(jí)別及高級(jí)特性,可選配陣列卡電池。
DELL PERC H310 Mini卡 ,全稱LSI Logic / Symbios Logic MegaRAID SAS 2008,支持常見(jiàn)RAID級(jí)別,不支持高級(jí)RAID特性,不支持陣列卡電池。
IBM ServeRAID M5014 SAS/SATA Controller卡,全稱LSI Logic / Symbios Logic MegaRAID SAS 2108,支持各種RAID級(jí)別及高級(jí)特性,可選配陣列卡電池。
IBM ServeRAID-MR10i SAS/SATA Controller卡,全稱LSI Logic / Symbios Logic MegaRAID SAS 1078,支持常見(jiàn)RAID級(jí)別,不支持高級(jí)RAID特性,可選配陣列卡電池,這個(gè)卡其實(shí)和DELL的PERC 6/i卡是一樣的,都是基于LSI MegaRAID SAS 1078基礎(chǔ)上OEM出來(lái)的。
上面是幾種常見(jiàn)的陣列卡型號(hào),更多的可以自行查看官方的技術(shù)手冊(cè)。
下面我們要繼續(xù)的是,這些陣列卡以及硬盤(pán)如何監(jiān)控,陣列卡的管理也請(qǐng)查看官方技術(shù)手冊(cè),不在本文討論范疇,或者查看作者的一個(gè)分享PPT:PC服務(wù)器陣列卡管理簡(jiǎn)易手冊(cè)。
一般地,支持RAID 5的卡,我們稱其為陣列卡,都可以使用LSI官方提供的MegaCli工具來(lái)管理,而不支持RAID 5的卡,我們稱其為SAS卡,使用lsiutil工具來(lái)管理。HP的服務(wù)器使用其特有的hpacucli工具來(lái)管理。
1、MegaCli工具
a) MegaCli -adpallinfo -aall — 查看陣列卡信息
-a 參數(shù)指定陣列卡的編號(hào),一般服務(wù)器上只會(huì)配一個(gè)陣列卡,因此我們通常指定為 -a0(陣列卡適配器編號(hào),從0開(kāi)始) 即可,主要關(guān)注下面幾個(gè)信息:
狀態(tài)值 | 對(duì)應(yīng)含義 |
Product Name : PERC H710 Mini | 陣列卡名稱 |
FW Package Build: 21.2.0-0007 | 陣列卡firmware版本號(hào),版本如果太低,建議升級(jí)以提高穩(wěn)定性及性能 |
BBU : Present | 是否有配BBU電池 |
b) MegaCli -cfgdsply -aall — 查看陣列配置
狀態(tài)值 | 對(duì)應(yīng)含義 |
Memory: 512MB | 陣列卡cache大小,2的N次方,如果不是,說(shuō)明陣列卡有異常 |
Number of dedicated Hotspares: 0 | 陣列是否有專用/獨(dú)享熱備盤(pán)(如果有多個(gè)邏輯磁盤(pán)組/disk group,則可以指定一個(gè)硬盤(pán)用于全局熱備,那么該disk group上的專用熱備盤(pán)數(shù)量為0也不用擔(dān)心),除了RAID 1/RAID 1+0一般不指定熱備盤(pán)以外,其他幾個(gè)陣列級(jí)別建議都要指定熱備盤(pán) |
State : Optimal | 陣列狀態(tài),如果不是 Optimal 就要關(guān)注了 |
Current Cache Policy: WriteBack, ReadAheadNone, Direct, Write Cache OK if Bad BBU | 陣列讀寫(xiě)cache策略,建議寫(xiě)策略設(shè)置為FORCE WB,最起碼是WB,預(yù)讀策略可以關(guān)掉,意義不大,幾乎沒(méi)影響 |
Disk Cache Policy : Disabled | 硬盤(pán)cache策略,建議關(guān)閉,防止意外時(shí)數(shù)據(jù)丟失 |
Current Power Savings Policy: None | 節(jié)電策略,建議關(guān)閉 |
Media Error Count: 0 | 三個(gè)錯(cuò)誤計(jì)數(shù)器,任何一個(gè)值大于100就要立刻引起關(guān)注,尤其要關(guān)注起增長(zhǎng)速度。1T以上SATA盤(pán),計(jì)數(shù)值不夠精確,可能所有盤(pán)上該值都會(huì)大于0,一般重啟就會(huì)重新清0,如果重啟后還是大于0的話,趕緊報(bào)修吧。SAS盤(pán)的計(jì)數(shù)值則比較準(zhǔn)確。 |
Other Error Count: 0 | |
Predictive Failure Count: 0 | |
Firmware state: Online, Spun Up | 查看硬盤(pán)狀態(tài),如果是unconfigured表示該硬盤(pán)未分配加入到陣列中;如果是 unconfigured(bad)表示該盤(pán)不但是未分配,而且還壞了,正是“出師未捷身先死”;如果是failed,表示該盤(pán)故障無(wú)法識(shí)別;如果是rebuilding,表示該盤(pán)正在重建數(shù)據(jù) |
c) MegaCli -adpbbucmd -aall — 查看陣列卡電池信息
狀態(tài)值 | 對(duì)應(yīng)含義 |
Temperature: 39 C | 查看電池溫度,如果相比上一次查看高出不少,就需要關(guān)注了,或者可以根據(jù)經(jīng)驗(yàn)設(shè)置一個(gè)基線值 |
Battery State: Optimal | 電池狀態(tài),如果不是為Optimal,就需要關(guān)注了 |
Charger Status: Complete | 電池充放電狀態(tài) |
isSOHGood: Yes | 電池狀態(tài),如果不是為Yes,需要關(guān)注 |
Relative State of Charge: 93 % | 當(dāng)前電量,當(dāng)電量低于15%,或者電池壞掉時(shí),默認(rèn)都會(huì)將寫(xiě)策略從WB改成WT,除非設(shè)定為FORCE WB策略 |
Max Error = 0 % | 電池是否有錯(cuò)誤信息 |
Next Learn time: Tue Oct 14 22:06:50 2014 | 電池充放電時(shí)間,注意這是美國(guó)時(shí)間。另外,新的陣列卡電池很多改成電容式的了,也就不需要重復(fù)充放電了 |
d) MegaCli -fwtermlog -dsply -aALL 查看陣列卡日志,關(guān)注里面的error/fail/warn等多個(gè)關(guān)鍵字
2、lsiutil工具
lsiutil有交互和非交互兩種方式,作為監(jiān)控,我們肯定選擇非交互模式。想要使用交互模式的,可以根據(jù)非交互模式自行練習(xí)。
a) lsiutil -p 1 -a 20,12,0,0 — 查看硬盤(pán)計(jì)數(shù)器
Invalid DWord Count 2,563 — 任何一個(gè)值大于0,都需要引起關(guān)注
Running Disparity Error Count 2,366
Loss of DWord Synch Count 0
Phy Reset Problem Count 0
b) lsiutil -p 1 -a 21,1,0,0,0 — 查看邏輯卷狀態(tài)
狀態(tài)值 | 對(duì)應(yīng)含義 |
Volume State: optimal, enabled | 邏輯卷健康狀況 |
Volume draws from Hot Spare Pools: 0 | 是否有熱備 |
Volume Size 139392 MB, 2 Members | 由幾塊硬盤(pán)組成 |
Primary is PhysDisk 1 (Bus 0 Target 9) | 物理硬盤(pán)1 |
Secondary is PhysDisk 0 (Bus 0 Target 3) | 物理硬盤(pán)0 |
c) lsiutil -p 1 -a 21,2,0,0,0 — 查看物理硬盤(pán)狀態(tài)
狀態(tài)值 | 對(duì)應(yīng)含義 |
PhysDisk 0 is Bus 0 Target 3 | 編號(hào) |
PhysDisk State: online | 狀態(tài) |
Error Count 13, Last Error: Command = 28h, Key = 3, ASC/ASCQ = 11h/00h | 錯(cuò)誤計(jì)數(shù)器,大于0的話,就需要引起關(guān)注 |
3、hpacucli工具
hpacucli工具查看陣列、硬盤(pán)、電池信息,其實(shí)就只要一條指令:
hpacucli ctrl all show config detail — 查看陣列詳細(xì)信息、配置
狀態(tài)值 | 對(duì)應(yīng)含義 |
Controller Status: OK | 陣列卡狀態(tài) |
Firmware Version: 1.18 | firmware版本,太低了建議升級(jí),以提高穩(wěn)定性及性能 |
Cache Board Present: True | 是否配備了cache模塊 |
Cache Status: OK | cache模塊狀態(tài) |
Cache Ratio: 100% Read / 0% Write | cache策略,此處只有讀cache,不用于寫(xiě)cache,因?yàn)闆](méi)有bbu電池,見(jiàn)下方結(jié)果 |
Drive Write Cache: Disabled | 關(guān)閉磁盤(pán)cache |
Total Cache Size: 256 MB | cache大小 |
Total Cache Memory Available: 208 MB | 實(shí)際可用cache大小,和理論cache大小不一樣,說(shuō)明cache模塊可能有問(wèn)題 |
No-Battery Write Cache: Disabled | 關(guān)閉FORCEWB策略 |
Battery/Capacitor Count: 0 | 陣列卡BBU電池?cái)?shù)量為0,也就是沒(méi)有BBU模塊 |
Battery/Capacitor Status: Failed (Replace Batteries) | 陣列卡BBU電池狀態(tài),這里顯示是錯(cuò)誤狀態(tài),需要及時(shí)更換 |
Array: A | 第一個(gè)烏列陣列,編號(hào)從A開(kāi)始,依次是A、B、C |
Status: OK | 物理陣列狀態(tài) |
Logical Drive: 1 | 第一個(gè)邏輯卷,編號(hào)從1開(kāi)始 |
Fault Tolerance: RAID 5 | 第一個(gè)邏輯卷的陣列級(jí)別 |
Status: OK | 第一個(gè)邏輯卷狀態(tài) |
Caching: Enabled | 第一個(gè)邏輯卷是否啟用了cache策略 |
physicaldrive 1I:1:1 | 第一塊物理硬盤(pán),編號(hào)從1開(kāi)始 |
Status: OK | 第一塊物理硬盤(pán)狀態(tài) |
Firmware Revision: HPDA | 第一塊物理硬盤(pán)firmware,如果太低,也需要及時(shí)升級(jí),HP的硬盤(pán)每個(gè)批次都有不同的firmware |
延伸閱讀:
http://www.lsi.com/downloads/Public/Obsolete/Obsolete%20Common%20Files/mr_sas_stor_ug.pdf
http://www.hp.com/ctg/Manual/c00709035.pdf
http://www.wafl.co.uk/tag/sasadmin/
http://docs.oracle.com/cd/E19121-01/sf.x4200/819-1157-23/F_BIOS_RAID.html
相關(guān)文章
杜比視界和HDR10和HDR10+怎么選? HDR格式區(qū)別介紹
杜比視界和HDR10和HDR10+怎么選?今天我們就來(lái)看看三種 HDR 格式之間的區(qū)別,并提供如何在它們之間輕松做出明智選擇的建議,下面先來(lái)了解一下 HDR 技術(shù)是什么以及其作用2025-02-06sanag塞那S6S和華為Freeclip買哪個(gè)?華為Freeclip對(duì)比sanag塞那S6S評(píng)測(cè)
本文對(duì)比了SANAG塞那S6S和華為Freeclip兩款耳夾式耳機(jī),從音質(zhì)、舒適度、技術(shù)規(guī)格、設(shè)計(jì)、使用場(chǎng)景和價(jià)格等方面進(jìn)行分析,糾結(jié)sanag塞那S6S和華為Freeclip買哪個(gè)的朋友,需要2024-11-18什么是PCIe技術(shù)? PCI-Expres的作用和優(yōu)勢(shì)
PCI-Expres是一種高速串行計(jì)算機(jī)擴(kuò)展總線標(biāo)準(zhǔn),PCIe有廣泛的應(yīng)用,包括用于擴(kuò)展卡、顯卡、網(wǎng)卡等外部設(shè)備的連接,詳細(xì)請(qǐng)看下文介紹2024-10-21裸金屬和物理機(jī)是一回事嗎? 細(xì)聊裸金屬服務(wù)器和物理機(jī)的區(qū)別
很多用戶不理解裸金屬服務(wù)器和物理機(jī)有什么區(qū)別,簡(jiǎn)單來(lái)說(shuō),裸金屬服務(wù)器就是一個(gè)是虛擬化的云服務(wù),物理機(jī)是一個(gè)擁有實(shí)體主機(jī)的物理主機(jī),兩者具體區(qū)別可參考下文2024-10-16硬盤(pán)/顯卡/處理器無(wú)法安裝/啟動(dòng)/運(yùn)行黑悟空怎么辦? 黑悟空?qǐng)?bào)錯(cuò)排查指南
很多玩家下載黑悟空開(kāi)玩的時(shí)候,卻發(fā)現(xiàn)自己的電腦出現(xiàn)各種各樣的問(wèn)題,其中一些關(guān)系到顯卡以及處理器的問(wèn)題,事實(shí)上已經(jīng)很快得到了修復(fù),當(dāng)然如果您還在被這些問(wèn)題所困擾的2024-08-28艾肯聲卡和雅馬哈聲卡哪款好 艾肯聲卡和雅馬哈聲卡對(duì)比詳解
艾肯聲卡和雅馬哈聲卡哪款好?這兩款聲卡都有著各自的特點(diǎn),用戶需要根據(jù)自己的需求來(lái)決定哪款更好更合適,下面小編帶來(lái)艾肯聲卡和雅馬哈聲卡區(qū)別介紹,需要的朋友可以參考2024-04-01- 塔式服務(wù)器是一種服務(wù)器形狀,其外觀呈現(xiàn)垂直塔狀,類似于傳統(tǒng)的臺(tái)式電腦機(jī)箱,與機(jī)架式服務(wù)器和刀片服務(wù)器相比,塔式服務(wù)器更注重在中小型企業(yè)和辦公室環(huán)境中的應(yīng)用2024-02-11
usb3.0和usb3.2有什么區(qū)別 usb3.0和usb3.2對(duì)比介紹
這篇文章主要介紹了usb3.0和usb3.2有什么區(qū)別 usb3.0和usb3.2對(duì)比介紹的相關(guān)資料,需要的朋友可以參考下,希望對(duì)大家有所幫助2023-08-07- 這篇文章主要介紹了錄音筆哪個(gè)牌子錄音效果好 錄音筆選擇推薦的相關(guān)資料,需要的朋友可以參考下,希望對(duì)大家有所幫助2023-05-09
- 這篇文章主要介紹了音響哪個(gè)牌子的音質(zhì)最好 音響排行榜前十名的相關(guān)資料,需要的朋友可以參考下2023-04-27