Linux系統(tǒng)“死機(jī)”時(shí)解決方法
更新時(shí)間:2008年02月18日 22:07:20 作者:
Linux系統(tǒng)“死機(jī)”時(shí)解決方法
如果問(wèn)題能夠再現(xiàn),那么問(wèn)題已經(jīng)解決 80% 了。對(duì)于操作系統(tǒng)核心而言,如果有問(wèn)題的再現(xiàn)方法,那么可以說(shuō)是已經(jīng)解決 99% 了。經(jīng)常遇到的問(wèn)題是系統(tǒng)可以正常運(yùn)行一段時(shí)間,然后死機(jī)。如果不好再現(xiàn)問(wèn)題,那么只有根據(jù)死機(jī)現(xiàn)場(chǎng)遺留的東西來(lái)進(jìn)行分析了。
如果系統(tǒng)沒(méi)有死干凈,比如磁盤(pán)中斷和文件系統(tǒng)是好的,那么也許能有日志信息保留在文件中,不過(guò)這樣的好運(yùn)氣我是從來(lái)沒(méi)有遇到過(guò)的。如果鍵盤(pán)中斷還能響應(yīng) (按下Num Lock,可以看見(jiàn)鍵盤(pán)小燈亮滅),那么運(yùn)氣就算是足夠好了,這時(shí)可以祭出 sysrq 大法,同時(shí)按下 Alt-Sysrq-T 獲得進(jìn)程系統(tǒng)堆棧信息,按下 Alt-Sysrq-M 獲得內(nèi)存分配信息,按下 Alt-Sysrq-W 獲得當(dāng)前寄存器信息。
linux/Documentation/sysrq.txt。另外,最好關(guān)閉終端的自動(dòng) blank 功能,這樣系統(tǒng)死的時(shí)候至少能從屏幕上看到一些信息。設(shè)置方法是:
# echo 1 > /proc/sys/kernel/sysrq
# setterm -blank
這兩個(gè)設(shè)置最好加到系統(tǒng)啟動(dòng)腳本中 (比如 /etc/rc.d/rc.local),保證每次啟動(dòng)都能得到運(yùn)行。
如果很不幸,鍵盤(pán)也死悄悄了,(更為不幸的是,這種情況很常見(jiàn)),那么也不是只有等死一個(gè)辦法,這時(shí)可以用串口終端 (serial console)將系統(tǒng)信息發(fā)送
到另一臺(tái)系統(tǒng)上,這樣可以通過(guò)對(duì)這些信息分析來(lái)定位問(wèn)題。設(shè)置方法如下:
準(zhǔn)備工作
1. 一臺(tái)被監(jiān)視的服務(wù)器,一臺(tái)進(jìn)行監(jiān)視工作的PC。
2. 一根串口直連線。
配置
1. 在服務(wù)器上,加入一個(gè)新的 grub 項(xiàng)目,增加核心參數(shù) "console=ttyS0 console=tty1",如:
kernel /boot/vmlinuz-2.4.21-9.30AXsmp ro root=LABEL=/1 console=ttyS0
console=tty1
2. 在服務(wù)器上,修改 /etc/sysconfig/syslog,加入 klogd 選項(xiàng) "-c 7",保證更多內(nèi)核信息得到輸出。如:
KLOGD_OPTIONS="-x -c 7"
3. 重新啟動(dòng)服務(wù)器
4. 用串口直連線連接兩臺(tái)機(jī)器,測(cè)試:
1) 在PC上運(yùn)行 "cat /dev/ttyS0",在服務(wù)器上運(yùn)行 "echo hi > /dev/ttyS0",看在 PC 上是否有 "hi" 輸出。
2) 在PC上運(yùn)行 "cat /dev/ttyS0",在服務(wù)器上運(yùn)行 "echo w > /proc/sysrq-trigger",看 PC 上是否有相應(yīng)內(nèi)核信息輸出。
3) 在PC上運(yùn)行 "cat /dev/ttyS0",在服務(wù)器上運(yùn)行 "modprobe loop",看 PC 上是否有相應(yīng)內(nèi)核信息輸出。
5. 如果測(cè)試通過(guò),那么在 PC 上運(yùn)行:cat /dev/ttyS0 | tee /tmp/result
另外,也可以用 Windows 超級(jí)終端獲得串口信息。
that's it.
此外,一些核心支持 LKCD, netdump 等調(diào)試功能,也可以一試。
剩下的,就只有靠經(jīng)驗(yàn)和運(yùn)氣了,一般造成 Linux 系統(tǒng)死機(jī)的原因有:
系統(tǒng)硬件問(wèn)題 (SCSI 卡,主板,RAID 卡,網(wǎng)卡,硬盤(pán)...)
外圍硬件問(wèn)題 (終端切換器,網(wǎng)絡(luò)...)
軟件問(wèn)題
驅(qū)動(dòng) bug (去找更新的驅(qū)動(dòng)試試)
核心系統(tǒng) bug (去 LKML 上看看,或換個(gè)核心試試)
系統(tǒng)設(shè)置
最后,google一把。有時(shí)候你可以直接輸入 "Linux 系統(tǒng)死機(jī)怎么辦?"
PE6650 經(jīng)常死機(jī)",看有沒(méi)有人遇到過(guò)和你同樣的問(wèn)題。即使沒(méi)有找到,也是一個(gè)有助于分析問(wèn)題的信息,至少說(shuō)明你的系統(tǒng)可能有和其他人不同之處。
調(diào)查 Linux 系統(tǒng)死機(jī)問(wèn)題,這既是科學(xué)又是藝術(shù),牽扯到眾多的硬件軟件知識(shí)和經(jīng)驗(yàn),是一個(gè)不斷學(xué)習(xí)的過(guò)程
如果系統(tǒng)沒(méi)有死干凈,比如磁盤(pán)中斷和文件系統(tǒng)是好的,那么也許能有日志信息保留在文件中,不過(guò)這樣的好運(yùn)氣我是從來(lái)沒(méi)有遇到過(guò)的。如果鍵盤(pán)中斷還能響應(yīng) (按下Num Lock,可以看見(jiàn)鍵盤(pán)小燈亮滅),那么運(yùn)氣就算是足夠好了,這時(shí)可以祭出 sysrq 大法,同時(shí)按下 Alt-Sysrq-T 獲得進(jìn)程系統(tǒng)堆棧信息,按下 Alt-Sysrq-M 獲得內(nèi)存分配信息,按下 Alt-Sysrq-W 獲得當(dāng)前寄存器信息。
linux/Documentation/sysrq.txt。另外,最好關(guān)閉終端的自動(dòng) blank 功能,這樣系統(tǒng)死的時(shí)候至少能從屏幕上看到一些信息。設(shè)置方法是:
# echo 1 > /proc/sys/kernel/sysrq
# setterm -blank
這兩個(gè)設(shè)置最好加到系統(tǒng)啟動(dòng)腳本中 (比如 /etc/rc.d/rc.local),保證每次啟動(dòng)都能得到運(yùn)行。
如果很不幸,鍵盤(pán)也死悄悄了,(更為不幸的是,這種情況很常見(jiàn)),那么也不是只有等死一個(gè)辦法,這時(shí)可以用串口終端 (serial console)將系統(tǒng)信息發(fā)送
到另一臺(tái)系統(tǒng)上,這樣可以通過(guò)對(duì)這些信息分析來(lái)定位問(wèn)題。設(shè)置方法如下:
準(zhǔn)備工作
1. 一臺(tái)被監(jiān)視的服務(wù)器,一臺(tái)進(jìn)行監(jiān)視工作的PC。
2. 一根串口直連線。
配置
1. 在服務(wù)器上,加入一個(gè)新的 grub 項(xiàng)目,增加核心參數(shù) "console=ttyS0 console=tty1",如:
kernel /boot/vmlinuz-2.4.21-9.30AXsmp ro root=LABEL=/1 console=ttyS0
console=tty1
2. 在服務(wù)器上,修改 /etc/sysconfig/syslog,加入 klogd 選項(xiàng) "-c 7",保證更多內(nèi)核信息得到輸出。如:
KLOGD_OPTIONS="-x -c 7"
3. 重新啟動(dòng)服務(wù)器
4. 用串口直連線連接兩臺(tái)機(jī)器,測(cè)試:
1) 在PC上運(yùn)行 "cat /dev/ttyS0",在服務(wù)器上運(yùn)行 "echo hi > /dev/ttyS0",看在 PC 上是否有 "hi" 輸出。
2) 在PC上運(yùn)行 "cat /dev/ttyS0",在服務(wù)器上運(yùn)行 "echo w > /proc/sysrq-trigger",看 PC 上是否有相應(yīng)內(nèi)核信息輸出。
3) 在PC上運(yùn)行 "cat /dev/ttyS0",在服務(wù)器上運(yùn)行 "modprobe loop",看 PC 上是否有相應(yīng)內(nèi)核信息輸出。
5. 如果測(cè)試通過(guò),那么在 PC 上運(yùn)行:cat /dev/ttyS0 | tee /tmp/result
另外,也可以用 Windows 超級(jí)終端獲得串口信息。
that's it.
此外,一些核心支持 LKCD, netdump 等調(diào)試功能,也可以一試。
剩下的,就只有靠經(jīng)驗(yàn)和運(yùn)氣了,一般造成 Linux 系統(tǒng)死機(jī)的原因有:
系統(tǒng)硬件問(wèn)題 (SCSI 卡,主板,RAID 卡,網(wǎng)卡,硬盤(pán)...)
外圍硬件問(wèn)題 (終端切換器,網(wǎng)絡(luò)...)
軟件問(wèn)題
驅(qū)動(dòng) bug (去找更新的驅(qū)動(dòng)試試)
核心系統(tǒng) bug (去 LKML 上看看,或換個(gè)核心試試)
系統(tǒng)設(shè)置
最后,google一把。有時(shí)候你可以直接輸入 "Linux 系統(tǒng)死機(jī)怎么辦?"
PE6650 經(jīng)常死機(jī)",看有沒(méi)有人遇到過(guò)和你同樣的問(wèn)題。即使沒(méi)有找到,也是一個(gè)有助于分析問(wèn)題的信息,至少說(shuō)明你的系統(tǒng)可能有和其他人不同之處。
調(diào)查 Linux 系統(tǒng)死機(jī)問(wèn)題,這既是科學(xué)又是藝術(shù),牽扯到眾多的硬件軟件知識(shí)和經(jīng)驗(yàn),是一個(gè)不斷學(xué)習(xí)的過(guò)程
相關(guān)文章
在linux7.1上安裝jdk+tomcat+oracle9i筆記
在linux7.1上安裝jdk+tomcat+oracle9i筆記...2006-10-10解決ubuntu 16.04安裝mysql5.7.17后,登錄時(shí)出現(xiàn)ERROR 1045 (28000): Access
這篇文章主要介紹了解決ubuntu 16.04安裝mysql5.7.17后,登錄時(shí)出現(xiàn)ERROR 1045 (28000): Access denied for user 'root'@'localhost' 問(wèn)題,需要的朋友可以參考下2017-03-03linux系統(tǒng)啟動(dòng)自動(dòng)激活網(wǎng)卡的解決方法
linux系統(tǒng)啟動(dòng)自動(dòng)激活網(wǎng)卡的解決方法...2007-04-04