MySQL Slave 觸發(fā) oom-killer解決方法

更新時間：2016年07月16日 23:17:56 投稿：mdxy-dxy

這篇文章主要介紹了MySQL Slave 觸發(fā) oom-killer解決方法,需要的朋友可以參考下

最近經(jīng)常有收到MySQL實例類似內(nèi)存不足的報警信息，登陸到服務器上一看發(fā)現(xiàn)MySQL 吃掉了99%的內(nèi)存，God ！

有時候沒有及時處理，內(nèi)核就會自己幫我們重啟下MySQL，然后我們就可以看到 dmesg 信息有如下記錄：

Mar 9 11:29:16 xxxxxx kernel: mysqld invoked oom-killer: gfp_mask=0x201da, order=0, oom_adj=0, oom_score_adj=0
Mar 9 11:29:16 xxxxxx kernel: mysqld cpuset=/ mems_allowed=0
Mar 9 11:29:16 xxxxxx kernel: Pid: 99275, comm: mysqld Not tainted 2.6.32-431.el6.x86_64 #1
Mar 9 11:29:16 xxxxxx kernel: Call Trace:

現(xiàn)描述一下具體場景吧：

大前提：操作系統(tǒng)以及MySQL 版本：

OS ： CentOS release 6.5 (Final) Kernel : 2.6.32-431.el6.x86_64（物理機）
MySQL : Percona 5.6.23-72.1-log（單實例）

觸發(fā)場景：Slave 不管是否有其它鏈接進來都會出現(xiàn)內(nèi)存周期性的暴漲，觸發(fā)內(nèi)核oom-killer

據(jù)說這個問題都出現(xiàn)了1年多了，由于剛過來，老大就讓我再查查看能不能找到什么蛛絲馬跡，那么就開始Check 這個問題咯：

1. 懷疑給MySQL 分配的內(nèi)存不合理，那么我就去check 了一下 innodb_buffer_pool 的大小和物理內(nèi)存的大小，發(fā)現(xiàn)分配給BP的大小占物理內(nèi)存的60%左右，那么不是這個原因，排除掉，要是是這個問題它們也應該早就發(fā)現(xiàn)了～
2. 檢查操作系統(tǒng)各項參數(shù)配置。[vm.swappiness = 1 ; /proc/sys/vm/overcommit_memory ; oom_adj ] 在沒排查到問題前可以臨時設置一下 adj參數(shù) 給個－15 或者直接－17，這樣內(nèi)核就永遠不會kill 掉 mysql了，但是這樣做不能根本解決問題，而且存在一定的風險，會不會導致MySQL 需要內(nèi)存又分配不出來而hang住呢？這個辦法就想想算了吧。
3. 好吧，mysql初始化參數(shù)、操作系統(tǒng)參數(shù)看起來沒什么配置有不恰當?shù)牡胤?。那我們就來找找MySQL 本身的吧！

既然MySQL 內(nèi)存一直處于在飆升的狀態(tài)，那么，會不會是由于內(nèi)存分配的時候?qū)е碌哪?，那么根?jù)網(wǎng)上報了一個MySQL 內(nèi)存分配引起的一個Bug，我也來在我這個環(huán)境操作一把，一看究竟：1.記錄當前 MySQL 進程占用的內(nèi)存大小；2.記錄 show engine innodb status ; 3. 執(zhí)行 flush tables; 4.記錄 show engine innodb status; 5. 記錄 MySQL 進程占用大小;6 對這兩次結(jié)果進行對比，主要看看在執(zhí)行Flush table 前和 Flush Table 后MySQL 分配的內(nèi)存有沒有明顯的變化。好吧，這個bug 貌似不再我這里。

看了一下這個版本有個 innodb_buffer_pool_instances 參數(shù)，官網(wǎng)上也有關(guān)于innodb_buffer_pool_instances 和 innodb_buffer_pool_size設置不當導致MySQL OOM 的 bug ，大概的意思就是：我們可以給innodb_buffer_pool_size 設置的比我們實際物理內(nèi)存要大，比如我們物理內(nèi)存是：64GB，而我們設置 innodb_buffer_pool_size＝300GB，并且把 innodb_buffer_pool_instances > 5 ，我們就依舊可以把MySQL 拉起來。但是呢，這樣MySQL很容易OOM。詳細信息：http://bugs.mysql.com/bug.php?id=79850 這里看過來。

還有種情況，也報過BUG，就是 slave 設置過濾的時候，也會觸發(fā)OOM ，but 我這些個 Instance 沒有設置，所以就忽略這點咯。

既然不是MySQL內(nèi)存超售引起，也不是打開表的句柄導致。那么還有什么原因呢？

我們再想想，這個現(xiàn)象出現(xiàn)在Slave，Master 和Slave 配置一樣，只是Master 上跑了生產(chǎn)業(yè)務，Slave 上有些Instance 跑了查詢業(yè)務，有些Instance 根本就沒有跑任何任務，但是還是會出發(fā)OOM，那么這種情況很可能就是 Slave 引起的囖。

那我就找了個實例上去試了一把，不試不知道啊，一試嚇一跳。上去執(zhí)行了一下：stop slave;start slave;這個命令卡了大概3分鐘，再一看內(nèi)存使用情況，一下子釋放出來了20GB＋。到這里基本上算是定位到了問題所在了，但是Slave 我們都知道有兩個線程，到底是由于SQL Thread 還是 IO Thread 導致的呢？這個還的等待下次即將發(fā)生時在進一步排查了。

貼點內(nèi)存的監(jiān)控信息：

12:00:01 PM kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit
02:40:01 PM 566744 131479292 99.57 88744 618612 132384348 89.19
02:50:01 PM 553252 131492784 99.58 83216 615068 132406792 89.20
03:00:01 PM 39302700 92743336 70.24 95908 925860 132413308 89.21
03:10:01 PM 38906360 93139676 70.54 109264 1292908 132407836 89.21
03:20:01 PM 38639536 93406500 70.74 120676 1528272 132413136 89.21

我把稍微再具體點的東西記錄到了這里：https://bugs.launchpad.net/percona-server/+bug/1560304如果不能訪問可以訪問(http://chabaoo.cn/article/88729.htm)

最后稍微總結(jié)一下：

現(xiàn)象：Slave OOM
臨時解決辦法：重啟Slave
長期解決辦法：小版本升級 MySQL Server

更系統(tǒng)點的請看郭總寫的：
http://chabaoo.cn/article/88726.htm
http://chabaoo.cn/article/88727.htm

您可能感興趣的文章: