Openshift3-9上部署Prometheus+Grafana实现集群的监控与告警
Openshift从3.9版本开始官方支持Prometheus和Grafana
从官方部署脚本 openshift-ansible 中的目录playbooks下的列表 中可以看到相关部署脚本
openshift-prometheus
openshift-grafana
既然官方支持,部署安装就十分简单了。
部署安装Prometheus
/etc/ansible/hosts添加配置
1 | [OSEv3:vars] |
执行安装
1 | ansible-playbook playbooks/openshift-prometheus/config.yml |
打开宿主机的9100端口(kubernetes-nodes-exporter)
1 | ansible all -m shell -a 'iptables -A OS_FIREWALL_ALLOW -p tcp -m state --state NEW -m tcp --dport 9100 -j ACCEPT; service iptables save' |
完成
查看下资源状态
prometheus会默认部署在新创建的project中:openshift-metrics
1个statefulset资源:prometheus
1个DaemonSet资源:prometheus-node-exporter
4个Service资源:alertmanager 、alerts、prometheus、prometheus-node-exporter
3个route资源:alertmanager、alerts、prometheus
3个ServiceAccount:prometheus、prometheus-node-exporter、prometheus-reader
部署安装Grafana
注意,3.9-release分支下的grafana安装脚本有问题,请使用最新master分支下的脚本进行安装
检查节点的label
1 oc get node -l node-role.kubernetes.io/infra=true如果没有node-role.kubernetes.io/infra=true标签的Node节点的话,需要给Node配置标签
1 | oc label node nodename1 node-role.kubernetes.io/infra=true |
/etc/ansible/hosts添加配置
1 | [OSEv3:vars] |
执行安装
1 | ansible-playbook playbooks/openshift-grafana/config.yml |
完成
查看下资源状态
1个deployment:grafana
1个service: grafana
1个route: grafana
1个serviceaccount: grafana
1个configmap:grafana-config
最终效果图
补充:
grafana admin密码丢失,如何重置?
1 | $ grafana-cli admin reset-admin-password --homepath "/usr/share/grafana" admin |
prometheus中配置内存使用率(node_memory_requests_total是我自己写的exporter监控数据)
1 | sum(node_memory_requests_total) by(node_name) / sum(label_replace(machine_memory_bytes, 'node_name', "$1", "instance", "(.*)" )) by (node_name) |