亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Zabbix對Kafka?topic積壓數(shù)據(jù)監(jiān)控的解決方案

 更新時間:2022年07月01日 15:42:30   作者:木訥大叔愛運維  
這篇文章主要介紹了Zabbix對Kafka?topic積壓數(shù)據(jù)監(jiān)控的解決方案,它與Apache Storm和Spark非常好地集成,用于實時流式數(shù)據(jù)分析,需要的朋友跟隨小編一起看看吧

Kafka

Apache Kafka是一個分布式發(fā)布-訂閱消息系統(tǒng)和一個強大的隊列,可以處理大量的數(shù)據(jù),并使您能夠?qū)⑾囊粋€端點傳遞到另一個端點。

Kafka適合離線和在線消息消費。

Kafka消息保留在磁盤上,并在群集內(nèi)復(fù)制以防止數(shù)據(jù)丟失。Kafka構(gòu)建在ZooKeeper同步服務(wù)之上。它與Apache Storm和Spark非常好地集成,用于實時流式數(shù)據(jù)分析。

需求

雖然我們在生產(chǎn)環(huán)境中可以使用Kafka對業(yè)務(wù)進行解耦,但這并不意味著業(yè)務(wù)系統(tǒng)就高枕無憂了。消費者的消費速度是否能夠匹配生產(chǎn)速度、過多的消息積壓這些都可能影響業(yè)務(wù)系統(tǒng)的正常運行。

關(guān)于業(yè)務(wù)系統(tǒng)運行狀態(tài),雖然我們可以通過業(yè)務(wù)監(jiān)控來確定,但是業(yè)務(wù)監(jiān)控一般是要對數(shù)據(jù)進行聚合分析并達到一定的閾值才能觸發(fā)告警。因此業(yè)務(wù)監(jiān)控告警通知時,業(yè)務(wù)實際已經(jīng)有問題一段時間了。為應(yīng)對這種情況,我們一般需要和系統(tǒng)監(jiān)控進行互補。系統(tǒng)監(jiān)控會周期性的對硬件、網(wǎng)絡(luò)、服務(wù)器、應(yīng)用等不同維度進行監(jiān)控告警,一旦某個組件的狀態(tài)有問題,那么系統(tǒng)監(jiān)控會先預(yù)警,然后業(yè)務(wù)系統(tǒng)才可能進一步預(yù)警。經(jīng)過不同監(jiān)控系統(tǒng)的告警升級,才更能準(zhǔn)確的反映業(yè)務(wù)系統(tǒng)的運行狀態(tài)。

話說回來,對于上線后的Kafka集群,我們除了要對服務(wù)的可用性進行監(jiān)控外,還要對Topic的消費情況進一步監(jiān)控。

解決方案

1.監(jiān)控分析

Lag作為監(jiān)控指標(biāo),它直接反映了一個消費者的運行情況。一個正常工作的消費者,它的Lag值應(yīng)該很小,甚至是接近于0的,這表示該消費者能夠及時地消費生產(chǎn)者生產(chǎn)出來的消息,滯后程度很小。

因此我們將Topic作為我們的監(jiān)控項,當(dāng)相關(guān)的Topic Lag達到某一閾值時進行多渠道告警。

另經(jīng)過Kafka運行機制的我們知道:

  • 每個Topic內(nèi)部需要按照Partition進行再次分區(qū)
  • 同一個topic的partition只能由同一個消費者組(group)內(nèi)的一個consumer來消費,分區(qū)數(shù)決定了同組消費者個數(shù)的上限

通過以上“Topic-Partition-消費者組(group)”之間的關(guān)系,為了便于我們通過告警信息更快的定位故障點:

  • 監(jiān)控項命名規(guī)則:消費者組(Group)/Topic/Partition,三者組成唯一的監(jiān)控項;
  • 監(jiān)控項Lag值:獲取業(yè)務(wù)系統(tǒng)中某個消費者組的特定Topic所有分區(qū)的Lag值進行告警;

2.監(jiān)控思路

(1) 消費者組管理

通過Kafka自帶的kafka-consumer-groups.sh腳本,我們可以輕松獲取查看指定消費組 消費的所有Topic、及所在分區(qū)、最新消費offset、Log最新數(shù)據(jù)offset、Lag還未消費數(shù)量、消費者ID等等信息

# 查看消費者組的topic 消費狀態(tài)
bash kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9090 --describe --group test2_consumer_group
TOPIC PARTITION CURRENT-OFFSET LOG-END-OFFSET LAG CONSUMER-ID HOST CLIENT-ID
test 0 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1
test 1 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1
test 2 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1
test 3 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1

(2)分區(qū)自動發(fā)現(xiàn)

對于Kafka topic的監(jiān)控我們使用Zabbix監(jiān)控平臺,考慮到后續(xù)業(yè)務(wù)系統(tǒng)的持續(xù)性接入,我們通過Zabbix自動發(fā)現(xiàn)實現(xiàn)對特定消費者組(Group)和Topic下所有分區(qū)自動發(fā)現(xiàn):

# 自動發(fā)現(xiàn)
vim consumer-groups.conf
#按消費者組(Group)|Topic格式,寫入自動發(fā)現(xiàn)配置文件
test-group|test
# 執(zhí)行腳本自動發(fā)現(xiàn)指定消費者和topic的分區(qū)
bash consumer-groups.sh discovery
{
    "data": [
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
    ]
}

自動發(fā)現(xiàn)中的GROUP、TOPIC、PARTITION 這三個信息可以用于進一步過濾不同的分區(qū)的Lag值和監(jiān)控系統(tǒng)中的監(jiān)控項名稱:

  • test-group/test/分區(qū)0
  • test-group/test/分區(qū)1
  • test-group/test/分區(qū)2
  • test-group/test/分區(qū)3
  • 等其他 test-group/test相關(guān)的所有分區(qū)

(3)獲取監(jiān)控項“test-group/test/分區(qū)X”的Lag

# 獲取分區(qū)0 lag
bash consumer-groups.sh lag 0
# 獲取分區(qū)1 lag
bash consumer-groups.sh lag 1
# 獲取分區(qū)2 lag
bash consumer-groups.sh lag 2
# 獲取分區(qū)3 lag
bash consumer-groups.sh lag 3

(4)最終腳本

vim consumer-groups.sh
#!/bin/bash
#comment: 根據(jù)消費者組監(jiān)控topic lag,進行監(jiān)控告警
#配置文件說明
#消費者組|Topic
#test-group|test
#獲取topic 信息
cal_topic() {
    if [ $# -ne 2 ]; then
        echo "parameter num error, 讀取topic信息失敗"
        exit 1
    else
        /usr/local/kafka/bin/kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9092 --describe --group $1 |grep -w $2
    fi
}
#topic+分區(qū)自動發(fā)現(xiàn)
topic_discovery() {
    printf "{\n"
    printf "\t\"data\": [\n"
    for line in `cat /data/scripts/consumer-groups.conf`
    do
        group=`echo ${line} | awk -F'|' '{print $1}'`
        topic=`echo ${line} | awk -F'|' '{print $2}'`
        cal_topic $group $topic > /tmp/consumer-group-tmp
        count=`cat /tmp/consumer-group-tmp|wc -l`
        n=0
        while read line
        do
             n=`expr  $n + 1`
             #判斷最后一行
             if [ $n -eq $count ]; then
                 topicp=`echo $line | awk '{print $1}'`
                 partition=`echo $line  | awk '{print $2}'`
                 printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" }\n"
             else
                 topicp=`echo $line | awk '{print $1}'`
                 partition=`echo $line  | awk '{print $2}'`
                 printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" },\n"
             fi
        done < /tmp/consumer-group-tmp
    done
    printf "\t]\n"
    printf "}\n"
}


if [ $1 == "discovery" ]; then
    topic_discovery
elif [ $1 == "lag" ];then
    cat /tmp/consumer-group-tmp |awk -v p=$2 '{if($2==p){print $5}}'
else
    echo "Usage: /data/scripts/consumer-group.sh discovery | lag"
fi

3.Zabbix 自動發(fā)現(xiàn)配置

1.自動發(fā)現(xiàn)配置

2.監(jiān)控項原型 通過消費者組、Topic、Partition 組成監(jiān)控項名稱,告警信息中的名稱能夠幫助我們快定位故障點。

3.觸發(fā)器 我們lag的初始閾值設(shè)置為50,可根據(jù)時間情況進行調(diào)整。

4.告警信息

告警主機:Kafka_192.168.3.55
主機IP:192.168.3.55
主機組:Kafka
告警時間:2022.03.21 00:23:10
告警等級:Average
告警信息:test-group/test/分區(qū)1:數(shù)據(jù)積壓62
告警項目:topic_lag[test,1]
問題詳情:
test-group/test/1: 62

到此這篇關(guān)于Zabbix對Kafka topic積壓數(shù)據(jù)監(jiān)控的文章就介紹到這了,更多相關(guān)Zabbix Kafka 監(jiān)控內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Zabbix指定時間內(nèi)變化值設(shè)置方法詳解

    Zabbix指定時間內(nèi)變化值設(shè)置方法詳解

    這篇文章主要介紹了Zabbix指定時間內(nèi)變化值設(shè)置方法詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-08-08
  • zabbix監(jiān)控vmware exsi主機的圖文步驟

    zabbix監(jiān)控vmware exsi主機的圖文步驟

    zabbix怎么監(jiān)控vmware exsi主機呢?很多網(wǎng)友私聊小編,正好今天有空給大家制作一篇教程幫助大家快速學(xué)習(xí)zabbix監(jiān)控vmware exsi主機,感興趣的朋友跟隨小編一起看看吧
    2021-06-06
  • centos7.9安裝zabbix5.0.14及配置過程

    centos7.9安裝zabbix5.0.14及配置過程

    這篇文章主要介紹了centos7.9安裝zabbix5.0.14的詳細過程,本文給大家介紹了基礎(chǔ)環(huán)境配置方法及安裝zabbix相關(guān)組件的過程講解,需要的朋友可以參考下
    2021-08-08
  • zabbix 2.2安裝步驟詳細介紹

    zabbix 2.2安裝步驟詳細介紹

    這篇文章主要介紹了zabbix 2.2安裝步驟詳細介紹的相關(guān)資料,本文給大家介紹的非常詳細,具有參考借鑒價值,需要的朋友可以參考下
    2016-10-10
  • 史上最便捷搭建Zookeeper服務(wù)器的方法(推薦)

    史上最便捷搭建Zookeeper服務(wù)器的方法(推薦)

    由于 ZooKeeper 便捷的使用方式、卓越的性能和良好的穩(wěn)定性,被廣泛地應(yīng)用于諸如 Hadoop、HBase、Kafka 和 Dubbo 等大型分布式系統(tǒng)中。這篇文章主要介紹了史上最便捷搭建Zookeeper服務(wù)器的方法,需要的朋友可以參考下
    2020-06-06
  • zabbix實現(xiàn)郵件告警的方法

    zabbix實現(xiàn)郵件告警的方法

    今天小編就為大家分享一篇關(guān)于zabbix實現(xiàn)郵件告警的方法,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-02-02
  • Zabbix 配置釘釘告警功能的實現(xiàn)代碼

    Zabbix 配置釘釘告警功能的實現(xiàn)代碼

    這篇文章主要介紹了Zabbix 配置釘釘告警功能的實現(xiàn)代碼,本文通過實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-04-04
  • 分布式監(jiān)控系統(tǒng)之Zabbix 使用SNMP、JMX信道采集數(shù)據(jù)的原理解析

    分布式監(jiān)控系統(tǒng)之Zabbix 使用SNMP、JMX信道采集數(shù)據(jù)的原理解析

    這篇文章主要介紹了分布式監(jiān)控系統(tǒng)之Zabbix 使用SNMP、JMX信道采集數(shù)據(jù),本文給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作就有一定的參考借鑒價值,需要的朋友可以參考下
    2020-11-11
  • 關(guān)于Zabbix忘記admin登錄密碼重置密碼的問題

    關(guān)于Zabbix忘記admin登錄密碼重置密碼的問題

    這篇文章主要介紹了Zabbix忘記admin登錄密碼重置密碼,需要的朋友可以參考下
    2021-11-11
  • zabbix通過percona插件監(jiān)控mysql的方法

    zabbix通過percona插件監(jiān)控mysql的方法

    這篇文章主要介紹了zabbix通過percona插件監(jiān)控mysql的方法步驟詳解,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2018-06-06

最新評論