當(dāng)master down掉后,pt-heartbeat不斷重試會(huì)導(dǎo)致內(nèi)存緩慢增長(zhǎng)的原因及解決辦法
最近同事反映,在使用pt-heartbeat監(jiān)控主從復(fù)制延遲的過程中,如果master down掉了,則pt-heartbeat則會(huì)連接失敗,但會(huì)不斷重試。
重試本無可厚非,畢竟從使用者的角度來說,希望pt-heartbeat能不斷重試,直到重新連接上數(shù)據(jù)庫(kù)。但是,他們發(fā)現(xiàn),不斷的重試會(huì)帶來內(nèi)存的緩慢增長(zhǎng)。
重現(xiàn)
環(huán)境:
pt-heartbeat v2.2.19,MySQL社區(qū)版 v5.6.31,Perl v5.10.1,RHEL 6.7,內(nèi)存500M
為了避免數(shù)據(jù)庫(kù)啟停對(duì)pt-heartbeat內(nèi)存使用率的影響,故MySQL和pt-heartbeat分別運(yùn)行在不同的主機(jī)上。
運(yùn)行pt-heartbeat
# pt-heartbeat --update -h 192.168.244.10 -u monitor -p monitor123 -D test --create-table
監(jiān)控pt-heartbeat的內(nèi)存使用率
獲取pid
# ps -ef |grep pt-heartbeat root 1505 1471 0 19:13 pts/0 00:00:08 perl /usr/local/bin/pt-heartbeat --update -h 192.168.244.10 -u monitor -p monitor123 -D test --create-table root 1563 1545 2 19:50 pts/3 00:00:00 grep pt-heartbeat
查看該進(jìn)程的內(nèi)存使用率
# top -p 1505
運(yùn)行了0:15.00(TIME+列),MEM一直穩(wěn)定在3.3%
現(xiàn)關(guān)閉數(shù)據(jù)庫(kù)
# service mysqld stop
剛才的pt-heartbeat命令不斷輸出以下信息
同樣CPU時(shí)間后,MEM增長(zhǎng)到4.4%, 增長(zhǎng)了1%,考慮到內(nèi)存500M,該進(jìn)程的內(nèi)存占用增加了5M,雖然不是很多,但考慮到進(jìn)程的內(nèi)存增加并沒有停止的意思,這個(gè)現(xiàn)象還是要引起注意的。
同時(shí),通過pmap命令,發(fā)現(xiàn),0000000001331000地址的RSS和Dirry也會(huì)增長(zhǎng),增長(zhǎng)的速率是4k/s
后來研究pt-heartbeat的源碼,才發(fā)現(xiàn)代碼有點(diǎn)bug
my $tries = 2; while ( !$dbh && $tries-- ) { PTDEBUG && _d($cxn_string, ' ', $user, ' ', $pass, join(', ', map { "$_=>$defaults->{$_}" } keys %$defaults )); $dbh = eval { DBI->connect($cxn_string, $user, $pass, $defaults) }; if ( !$dbh && $EVAL_ERROR ) { if ( $EVAL_ERROR =~ m/locate DBD\/mysql/i ) { die "Cannot connect to MySQL because the Perl DBD::mysql module is " . "not installed or not found. Run 'perl -MDBD::mysql' to see " . "the directories that Perl searches for DBD::mysql. If " . "DBD::mysql is not installed, try:\n" . " Debian/Ubuntu apt-get install libdbd-mysql-perl\n" . " RHEL/CentOS yum install perl-DBD-MySQL\n" . " OpenSolaris pgk install pkg:/SUNWapu13dbd-mysql\n"; } elsif ( $EVAL_ERROR =~ m/not a compiled character set|character set utf8/ ) { PTDEBUG && _d('Going to try again without utf8 support'); delete $defaults->{mysql_enable_utf8}; } if ( !$tries ) { die $EVAL_ERROR; } } }
以上代碼摘自get_dbh函數(shù),用于獲取數(shù)據(jù)庫(kù)的連接,如果獲取失敗,則重試1次,然后通過die函數(shù)拋異常退出。
但是,通過設(shè)置如下斷點(diǎn),發(fā)現(xiàn)當(dāng)$tries為0時(shí),if函數(shù)里面的PTDEBUG && _d("$EVAL_ERROR")語(yǔ)句能執(zhí)行,但die函數(shù)就是沒有拋出異常,并退出腳本
PTDEBUG && _d($tries); if ( !$tries ) { PTDEBUG && _d("$EVAL_ERROR"); die $EVAL_ERROR; }
后來,將上述代碼的最后一個(gè)if函數(shù)修改如下:
if ( !$tries ) { die "test:$EVAL_ERROR"; }
再次測(cè)試
啟動(dòng)數(shù)據(jù)庫(kù)
# service mysqld start
執(zhí)行pt-heartbeat命令
# pt-heartbeat --update -h 192.168.244.10 -u monitor -p monitor123 -D test --create-table
停止數(shù)據(jù)庫(kù)
# service mysqld stop
剛才執(zhí)行的pt-heartbeat命令異常退出
“test:”就是加入的測(cè)試字符。
結(jié)論
很奇怪,只是單純的die $EVAL_ERROR不會(huì)拋出異常,并退出腳本,但修改后的die "test:$EVAL_ERROR"卻會(huì)退出腳本。
很顯然,這確實(shí)是個(gè)bug,不知道是不是與perl的版本有關(guān)。
很好奇,失敗的連接如何導(dǎo)致內(nèi)存的不斷增長(zhǎng)?
最后,給percona官方提了個(gè)bug
https://bugs.launchpad.net/percona-toolkit/+bug/1629164
以上所述是小編給大家介紹的當(dāng)master down掉后,pt-heartbeat不斷重試會(huì)導(dǎo)致內(nèi)存緩慢增長(zhǎng)的原因及解決辦法,希望對(duì)大家有所幫助,如果大家有任何疑問歡迎給我留言,小編會(huì)及時(shí)回復(fù)大家的!
相關(guān)文章
同一個(gè)sql語(yǔ)句 連接兩個(gè)數(shù)據(jù)庫(kù)服務(wù)器
在sqlserver查詢分析器中,一個(gè)sql語(yǔ)句連接兩個(gè)數(shù)據(jù)庫(kù)服務(wù)器的一種方法2009-08-08sql server 2000阻塞和死鎖問題的查看與解決方法
在實(shí)際引用當(dāng)中,數(shù)據(jù)庫(kù)阻塞和死鎖在程序開發(fā)過程經(jīng)常出現(xiàn),下面通過介紹數(shù)據(jù)庫(kù)阻塞和數(shù)據(jù)庫(kù)死鎖,并提供查看和解決阻塞和死鎖的方法2014-01-01利用SQL Server數(shù)據(jù)庫(kù)郵件服務(wù)實(shí)現(xiàn)監(jiān)控和預(yù)警
這篇文章主要介紹了利用數(shù)據(jù)庫(kù)郵件服務(wù)實(shí)現(xiàn)監(jiān)控和預(yù)警,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2016-10-10sqlserver中根據(jù)字符分割字符串的最好的寫法分享
因數(shù)據(jù)庫(kù)中保存的是以,號(hào)分隔的數(shù)據(jù),需要在界面上以表格的方式顯示出來。特想出以下方法2012-05-05sqlserver 千萬數(shù)量級(jí)分頁(yè)存儲(chǔ)過程代碼
千萬數(shù)量級(jí)分頁(yè)存儲(chǔ)過程,對(duì)于大數(shù)據(jù)量數(shù)據(jù)調(diào)用的朋友可以參考下。2010-07-07