应用

  1. 部署

    镜像同步(UAT->PRO)
    应用部署配置

    New Project/New App
    环境变量
    cpu与内存资源限制
    健康检查
    复本数量
    创建router
    特殊Node节点绑定
    pod的亲和与互斥
    pod网速限速(特别是对外提供服务的pod)

    应用配置中心(gitlab)

  2. 更新

    镜像同步
    应用新版本部署

  3. 监控

    Pod EFK
    Registry与Router等重要服务的监控

物理层

  1. 创建资源

    负载均衡器
    NAS存储
    应用私有网络

  2. 监控

    vpc
    负载均衡器
    主机状态监控(CPU与内存)

集群层

  1. 备份

    etcd全量备份
    应用配置备份(Ark)
    应用备份(oc export)

  2. 集群版本管理

    集群升级(每个大版本升级)

  3. 日志归档与清理

    EFK日志清理
    hawkular-cassandra日志清理
    journal日志归档

    1
    journalctl --vacuum-time=3days或者journalctl --vacuum-size=200M或者在/etc/systemd/journald.conf中设置日志大小

    message日志归档

  4. Node节点管理

    ansible脚本扩容
    Node的隔离与恢复(关闭调度维护)

  5. 资源管理

    资源配置范围管理(LimitRange)
    资源的配额管理
    PV(Persistent Volumes)的创建
    项目间的网络隔离

  6. 监控告警

    Heapster + Influxdb + Grafana 集群监控
    统一的日志监控 EFK
    Pod监控Restart数
    Node节点资源使用情况(Limit + Request + Real)

  7. 权限控制

    管理员账号
    运维人员账号

  8. Harbor私有镜像仓库的运维

    镜像备份
    高可用
    可用性监控与告警

网络区域划分

核心区
DMZ区
互联网区

中间件层

  1. Redis
  2. RDB
  3. Rabbitmq
  4. FastDFS