监控Kubernetes集群证书过期时间的三种方案
创始人
2024-03-25 23:55:12

前言

Kubernetes 中大量用到了证书, 比如 ca证书、以及 kubelet、apiserver、proxy、etcd等组件,还有 kubeconfig 文件。

如果证书过期,轻则无法登录 Kubernetes 集群,重则整个集群异常。

为了解决证书过期的问题,一般有以下几种方式:

  1. 大幅延长证书有效期,短则 10年,长则 100 年;
  2. 证书快过期是自动轮换,如 Rancher 的 K3s,RKE2 就采用这种方式;
  3. 增加证书过期的监控,便于提早发现证书过期问题并人工介入

本次主要介绍关于 Kubernetes 集群证书过期的监控,这里提供 3 种监控方案:

  1. 使用 Blackbox Exporter 通过 Probe 监控 Kubernetes apiserver 证书过期时间;
  2. 使用 kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间;
  3. 使用 enix 的 x509-certificate-exporter监控集群所有node的 /etc/kubernetes/pki/var/lib/kubelet 下的证书以及 kubeconfig 文件

方案一: Blackbox Exporter 监控 Kubernetes apiserver 证书过期时间

Blackbox Exporter 用于探测 HTTPS、HTTP、TCP、DNS、ICMP 和 grpc 等 Endpoint。在你定义 Endpoint 后,Blackbox Exporter 会生成指标,可以使用 Grafana 等工具进行可视化。Blackbox Exporter 最重要的功能之一是测量 Endpoint 的可用性。

当然, Blackbox Exporter 探测 HTTPS 后就可以获取到证书的相关信息, 就是利用这种方式实现对 Kubernetes apiserver 证书过期时间的监控.

配置步骤

  1. 调整 Blackbox Exporter 的配置, 增加 insecure_tls_verify: true, 如下:
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0jGNeWG7-1670467610201)(https://pic-cdn.ewhisper.cn/img/2022/08/25/8efb2e4ec9b4185a7b9b3d514fad268b-clip_image002.jpg)]

  2. 重启 blackbox exporter: kubectl rollout restart deploy ...

  3. 增加对 Kubernetes APIServer 内部端点https://kubernetes.default.svc.cluster.local/readyz的监控.

    1. 如果你没有使用 Prometheus Operator, 使用的是原生的 Prometheus, 则需要修改 Prometheus 配置文件的 configmap 或 secret, 添加 scrape config, 示例如下:

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dt83M6s4-1670467610202)(https://pic-cdn.ewhisper.cn/img/2022/08/25/a809d3078ab45890b94e09e94b840f23-20220825165118.png)]

    2. 如果在使用 Prometheus Operator, 则可以增加如下 Probe CRD, Prometheus Operator 会自动将其转换并 merge 到 Prometheus 中.

apiVersion: monitoring.coreos.com/v1
kind: Probe
metadata:name: kubernetes-apiserver
spec:interval: 60smodule: http_2xxprober:path: /probeurl: monitor-prometheus-blackbox-exporter.default.svc.cluster.local:9115targets:staticConfig:static:- https://kubernetes.default.svc.cluster.local/readyz

最后, 可以增加 Prometheus 告警 Rule, 这里就直接用 Prometheus Operator 创建 PrometheusRule CRD 做示例了, 示例如下:

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:name: prometheus-blackbox-exporter
spec:groups:- name: prometheus-blackbox-exporterrules:- alert: BlackboxSslCertificateWillExpireSoonexpr: probe_ssl_earliest_cert_expiry - time() < 86400 * 30for: 0mlabels:severity: warning- alert: BlackboxSslCertificateWillExpireSoonexpr: probe_ssl_earliest_cert_expiry - time() < 86400 * 14for: 0mlabels:severity: critical- alert: BlackboxSslCertificateExpiredannotations:description: |-SSL certificate has expired alreadyVALUE = {{ $value }}LABELS = {{ $labels }}summary: SSL certificate expired (instance {{ $labels.instance }})expr: probe_ssl_earliest_cert_expiry - time() <= 0for: 0mlabels:severity: emergency

效果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0cF3IWph-1670467610203)(https://pic-cdn.ewhisper.cn/img/2022/08/25/f4a89d9e40b2d02cd92b1a159aac2884-20220825165659.png)]

方案二: kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控证书过期时间

这里可以参考我的文章:Prometheus Operator 与 kube-prometheus 之二 - 如何监控 1.23+ kubeadm 集群, 安装完成后, 开箱即用.

开箱即用内容包括:

  1. 抓取 apiserver 和 kubelet 指标;(即 serviceMonitor)
  2. 配置证书过期时间的相关告警; (即 PrometheusRule)

这里用到的指标有:

  1. apiserver
    1. apiserver_client_certificate_expiration_seconds_count
    2. apiserver_client_certificate_expiration_seconds_bucket
  2. kubelet
    1. kubelet_certificate_manager_client_expiration_renew_errors
    2. kubelet_server_expiration_renew_errors
    3. kubelet_certificate_manager_client_ttl_seconds
    4. kubelet_certificate_manager_server_ttl_seconds

监控效果

对应的 Prometheus 告警规则如下:

证书过期时间相关 PrometheusRule

方案三: 使用 enix 的 x509-certificate-exporter

监控手段

该 Exporter 是通过监控集群所有node的指定目录或 path 下的证书文件以及 kubeconfig 文件来获取证书信息.

如果是使用 kubeadm 搭建的 Kubernetes 集群, 则可以监控如下包含证书的文件和 kubeconfig:

watchFiles:
- /var/lib/kubelet/pki/kubelet-client-current.pem
- /etc/kubernetes/pki/apiserver.crt
- /etc/kubernetes/pki/apiserver-etcd-client.crt
- /etc/kubernetes/pki/apiserver-kubelet-client.crt
- /etc/kubernetes/pki/ca.crt
- /etc/kubernetes/pki/front-proxy-ca.crt
- /etc/kubernetes/pki/front-proxy-client.crt
- /etc/kubernetes/pki/etcd/ca.crt
- /etc/kubernetes/pki/etcd/healthcheck-client.crt
- /etc/kubernetes/pki/etcd/peer.crt
- /etc/kubernetes/pki/etcd/server.crt
watchKubeconfFiles:
- /etc/kubernetes/admin.conf
- /etc/kubernetes/controller-manager.conf
- /etc/kubernetes/scheduler.conf

安装配置

编辑 values.yaml:

kubeVersion: ''
extraLabels: {}
nameOverride: ''
fullnameOverride: ''
imagePullSecrets: []
image:registry: docker.iorepository: enix/x509-certificate-exportertag:pullPolicy: IfNotPresent
psp:create: false
rbac:create: truesecretsExporter:serviceAccountName:serviceAccountAnnotations: {}clusterRoleAnnotations: {}clusterRoleBindingAnnotations: {}hostPathsExporter:serviceAccountName:serviceAccountAnnotations: {}clusterRoleAnnotations: {}clusterRoleBindingAnnotations: {}
podExtraLabels: {}
podAnnotations: {}
exposePerCertificateErrorMetrics: false
exposeRelativeMetrics: false
metricLabelsFilterList: null
secretsExporter:enabled: truedebugMode: falsereplicas: 1restartPolicy: Alwaysstrategy: {}resources:limits:cpu: 200mmemory: 150Mirequests:cpu: 20mmemory: 20MinodeSelector: {}tolerations: []affinity: {}podExtraLabels: {}podAnnotations: {}podSecurityContext: {}securityContext:runAsUser: 65534runAsGroup: 65534readOnlyRootFilesystem: truecapabilities:drop:- ALLsecretTypes:- type: kubernetes.io/tlskey: tls.crtincludeNamespaces: []excludeNamespaces: []includeLabels: []excludeLabels: []cache:enabled: truemaxDuration: 300
hostPathsExporter:debugMode: falserestartPolicy: AlwaysupdateStrategy: {}resources:limits:cpu: 100mmemory: 40Mirequests:cpu: 10mmemory: 20MinodeSelector: {}tolerations: []affinity: {}podExtraLabels: {}podAnnotations: {}podSecurityContext: {}securityContext:runAsUser: 0runAsGroup: 0readOnlyRootFilesystem: truecapabilities:drop:- ALLwatchDirectories: []watchFiles: []watchKubeconfFiles: []daemonSets:cp:nodeSelector:node-role.kubernetes.io/master: ''tolerations:- effect: NoSchedulekey: node-role.kubernetes.io/masteroperator: ExistswatchFiles:- /var/lib/kubelet/pki/kubelet-client-current.pem- /etc/kubernetes/pki/apiserver.crt- /etc/kubernetes/pki/apiserver-etcd-client.crt- /etc/kubernetes/pki/apiserver-kubelet-client.crt- /etc/kubernetes/pki/ca.crt- /etc/kubernetes/pki/front-proxy-ca.crt- /etc/kubernetes/pki/front-proxy-client.crt- /etc/kubernetes/pki/etcd/ca.crt- /etc/kubernetes/pki/etcd/healthcheck-client.crt- /etc/kubernetes/pki/etcd/peer.crt- /etc/kubernetes/pki/etcd/server.crtwatchKubeconfFiles:- /etc/kubernetes/admin.conf- /etc/kubernetes/controller-manager.conf- /etc/kubernetes/scheduler.confnodes:watchFiles:- /var/lib/kubelet/pki/kubelet-client-current.pem- /etc/kubernetes/pki/ca.crt
rbacProxy:enabled: false
podListenPort: 9793
hostNetwork: false
service:create: trueport: 9793annotations: {}extraLabels: {}
prometheusServiceMonitor:create: truescrapeInterval: 60sscrapeTimeout: 30sextraLabels: {}relabelings: {}
prometheusPodMonitor:create: false
prometheusRules:create: truealertOnReadErrors: truereadErrorsSeverity: warningalertOnCertificateErrors: truecertificateErrorsSeverity: warningcertificateRenewalsSeverity: warningcertificateExpirationsSeverity: criticalwarningDaysLeft: 30criticalDaysLeft: 14extraLabels: {}alertExtraLabels: {}rulePrefix: ''disableBuiltinAlertGroup: falseextraAlertGroups: []
extraDeploy: []

通过 Helm Chart 安装:

helm repo add enix https://charts.enix.io
helm install x509-certificate-exporter enix/x509-certificate-exporter

通过这个 Helm Chart 也会自动安装:

  • ServiceMonitor
  • PrometheusRule

其监控指标为:

  • x509_cert_not_after

监控效果

该 Exporter 还提供了一个比较花哨的 Grafana Dashboard, 如下:

x509 Exporter Grafana Dashboard

Alert Rules 如下:

x509 Exporter Prometheus Rule

总结

为了监控 Kubernetes 集群的证书过期时间, 我们提供了 3 种方案, 各有优劣:

  1. 使用 Blackbox Exporter 通过 Probe 监控 Kubernetes apiserver 证书过期时间;
    1. 优势: 实现简单;
    2. 劣势: 只能监控 https 的证书;
  2. 使用 kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间;
    1. 优势: 开箱即用, 安装 kube-prometheus-stack 后无需额外安装其他 exporter
    2. 劣势: 只能监控 apiserver 和 kubelet 的证书;
  3. 使用 enix 的 x509-certificate-exporter监控集群所有node的 /etc/kubernetes/pki/var/lib/kubelet 下的证书以及 kubeconfig 文件
    1. 优势: 可以监控所有 node, 所有 kubeconfig 文件, 以及 所有 tls 格式的 secret 证书, 如果要监控 Kubernetes 集群以外的证书, 也可以如法炮制; 范围广而全;
    2. 需要额外安装: x509-certificate-exporter, 对应有 1 个 Deployment 和 多个 DaemonSet, 对 Kubernetes 集群的资源消耗不少.

可以根据您的实际情况灵活进行选择.

🎉🎉🎉

📚️参考文档

  • 如何使用 Blackbox Exporter 监控 URL? - 东风微鸣技术博客 (ewhisper.cn)
  • Prometheus Operator 与 kube-prometheus 之二 - 如何监控 1.23+ kubeadm 集群 - 东风微鸣技术博客 (ewhisper.cn)
  • x509-certificate-exporter/deploy/charts/x509-certificate-exporter at master · enix/x509-certificate-exporter (github.com)

相关内容

热门资讯

应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...