操作环境、软件版本等信息
prometheus-2.36.0.linux-amd64
alertmanager-0.24.0.linux-amd64
blackbox_exporter-0.21.0.linux-amd64
grafana-8.5.4
centos 7.9
相关配置
cat prometheus.yml 配置
cd /opt/kafka
bin/zookeeper-server-start.sh -daemon config/zookeeper.properties
先启动zookeeper 再启动kafka
netstat -antlup |grep 2181
tcp6 0 0 :::2181 :::* LISTEN 6205/java
daemon方式启动Kafka
cd /opt/kafka
bin/kafka-server-start.sh -daemon config/server.properties
ps -ef |grep server.properties
netstat -antlup |grep 9092
tcp6 0 0 :::9092 :::* LISTEN 8430/java
先创建topic
cd /opt/kafka/bin
cd /opt/kafka/bin
./kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic xxoo
./kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic xxo1
#再查topi能得到topic信息就说明是成功安装了
cd /opt/kafka/bin
./kafka-topics.sh --list --bootstrap-server localhost:9092
xxoo
xxo1
问题, grafana id: 7589 服务器 20.30.30.206 这个能看到详细的信息,但192.168.6.63
这个IP无法显示任何信息,如果删除file_config/kafka/20.30.30.206kafka.json 这个文件
192.168.6.63 连显示都显示不出来,请问是那个地方出了问题,两个服务器的prometheus.yml
基本一致,区别在于kafka的安装 20.30.30.206 这个是别人安装的无法做比较,请问应该怎么修改?
谢谢各位
补充
http://192.168.6.62:9090/ 搜索 kafka_brokers 是能够显示 192.168.6.63 这个服务器的信息
但画图却找不到任何数据
metrics 是否有数据
1.grafana 是否能ping通kafka主机以及prometheus主机,最好检查一下hosts文件是否都配置,有时候能ping通不代表能访问,kafka主机以及prometheus有可能是通过主机名或域名访问的
Prometheus 踩坑集锦
监控系统的历史悠久,是一个很成熟的方向,而 Prometheus 作为新生代的开源监控系统,慢慢成为了云原生体系的事实标准,也证明了其设计很受欢迎。本文主要分享在 Prometheus 实践中遇到的一些问题和思考,如果你对 Kubernetes 监控体系或 Prometheus 的设计还不太了解,可以先看下容器监控系列。
几点原则
监控是基础设施,目的是为了解决问题,不要只朝着大而全去做,尤其是不必要的指标采集,浪费人力和存储资源(To B商业产品例外)。
需要处理的告警才发出来,发出来的告警必须得到处理。
简单的架构就是最好的架构,业务系统都挂了,监控也不能挂。Google SRE 里面也说避免使用 Magic 系统,例如机器学习报警阈值、自动修复之类。这一点见仁见智吧,感觉很多公司都在搞智能 AI 运维。
Prometheus 的局限
Prometheus 是基于 Metric 的监控,不适用于日志(Logs)、事件(Event)、调用链(Tracing)。
Prometheus 默认是 Pull 模型,合理规划你的网络,尽量不要转发。
对于集群化和水平扩展,官方和社区都没有银弹,需要合理选择 Federate、Cortex、Thanos 等方案。
监控系统一般情况下可用性大于一致性,容忍部分副本数据丢失,保证查询请求成功。这个后面说 Thanos 去重的时候会提到。
Prometheus 不一定保证数据准确,这里的不准确一是指 rate、histogram_quantile 等函数会做统计和推断,产生一些反直觉的结果,这个后面会详细展开。二来查询范围过长要做降采样,势必会造成数据精度丢失,不过这是时序数据的特点,也是不同于日志系统的地方。
http://dockone.io/article/10034
数据都能采集,没有展示的话。从grafana上的数据接入那里再看看,再看一下普罗米休斯对应的数据点。