AI Infra 训练营
总览
  • 总览
  • 完整安装
  • 核心 K8s
  • Cilium 网络
  • Longhorn 存储
  • 监控日志
  • CI / GitOps
  • 安全准入
  • Day 0 · 新手接管 Runbook
  • Day 1 · 集群起步 + CNI
  • Day 2 · 控制面 + etcd
  • Day 3 · CRD + Operator + Webhook
  • Day 4 · 存储深度
  • Day 5 · 卷扩容 + 安全
  • Day 6 · 调度 + 可观测
  • Day 7 · Harbor + ArgoCD + Mesh
  • Day 8 · AI Infra
  • Day 9 · Triton + GPU
  • Day 10 · MIG + HPA + 量化
  • Day 11 · AI Agent 端到端
  • Day 12 · 灾备
  • Day 13 · Operator + 联邦 + Mesh + RAG
  • Day 14 · CKA / CKS + 总结
  • LLM 训练手册
  • RAG + Agent 手册
  • 推理优化手册
  • 上下文工程手册
  • Agent 开发手册
  • 面试深度复盘
  • 训练 v2 深度手册
  • 心智模型
  • 看懂命令输出
  • 容器网络底层
  • K8s 网络深入
  • DNS 全套
  • 故障排查方法论
  • 心智模型
  • 容器挂载完整指南
  • K8s Volumes 大全
  • PV/PVC/CSI 深入
  • NFS 深入
  • 分布式存储概览
  • 故障排查 runbook
命令手册
HiHuo 主站
GitHub
总览
  • 总览
  • 完整安装
  • 核心 K8s
  • Cilium 网络
  • Longhorn 存储
  • 监控日志
  • CI / GitOps
  • 安全准入
  • Day 0 · 新手接管 Runbook
  • Day 1 · 集群起步 + CNI
  • Day 2 · 控制面 + etcd
  • Day 3 · CRD + Operator + Webhook
  • Day 4 · 存储深度
  • Day 5 · 卷扩容 + 安全
  • Day 6 · 调度 + 可观测
  • Day 7 · Harbor + ArgoCD + Mesh
  • Day 8 · AI Infra
  • Day 9 · Triton + GPU
  • Day 10 · MIG + HPA + 量化
  • Day 11 · AI Agent 端到端
  • Day 12 · 灾备
  • Day 13 · Operator + 联邦 + Mesh + RAG
  • Day 14 · CKA / CKS + 总结
  • LLM 训练手册
  • RAG + Agent 手册
  • 推理优化手册
  • 上下文工程手册
  • Agent 开发手册
  • 面试深度复盘
  • 训练 v2 深度手册
  • 心智模型
  • 看懂命令输出
  • 容器网络底层
  • K8s 网络深入
  • DNS 全套
  • 故障排查方法论
  • 心智模型
  • 容器挂载完整指南
  • K8s Volumes 大全
  • PV/PVC/CSI 深入
  • NFS 深入
  • 分布式存储概览
  • 故障排查 runbook
命令手册
HiHuo 主站
GitHub
  • 实操 Runbook

    • Runbook 总览:从零部署、查看、调试
    • 完整安装总 Runbook:5 台 Ubuntu 到可用平台
    • 核心 K8s Runbook:apiserver / etcd / kubelet / containerd / HAProxy
    • Cilium 网络 Runbook:安装、查看、调试
    • Longhorn 存储 Runbook:安装、查看、调试
    • 监控日志 Runbook:Prometheus / Grafana / Loki / Alertmanager
    • CI / GitOps Runbook:Harbor / Gitea / Jenkins / Kaniko / ArgoCD
    • 安全准入 Runbook:RBAC / PSA / Kyverno / ResourceQuota

Runbook 总览:从零部署、查看、调试

这组文档是给第一次接触 K8s 的人用的操作手册。它和 docs/days/ 的区别:

  • docs/days/ 是学习过程和真实踩坑记录。
  • docs/runbooks/ 是照着执行的安装、验收、排障手册。

先读这个目录,再回到 Day 文档看细节和背景。


阅读顺序

顺序文档解决的问题
1完整安装总 Runbook5 台空 Ubuntu 机器怎么装成当前平台
2核心 K8s Runbookkubeadm、apiserver、etcd、kubelet、containerd、HAProxy 怎么装和查
3Cilium 网络 RunbookCNI、Pod 网络、Service、DNS、Hubble 怎么装和排障
4Longhorn 存储 RunbookPVC、PV、CSI、Longhorn 卷、Multi-Attach 怎么查
5监控日志 RunbookPrometheus、Grafana、Loki、Alertmanager 怎么装和查
6CI / GitOps RunbookHarbor、Gitea、Jenkins、Kaniko、ArgoCD 怎么串起来
7安全准入 RunbookRBAC、PSA、Kyverno、Quota 为什么拦截以及怎么查

现场机器

节点公网 IP内网 IP角色
k8s-cp-1154.201.73.3110.0.24.31control plane
k8s-cp-2154.201.73.8110.0.24.29control plane
k8s-cp-345.205.31.21410.0.24.32control plane
k8s-w-145.205.31.18010.0.24.28worker
k8s-w-245.205.31.1010.0.24.30worker

默认从 k8s-cp-1 操作:

ssh root@154.201.73.31

每次改动后的固定验收

不管你刚改了哪个组件,都先跑这 6 条:

kubectl get nodes -o wide

kubectl get pods -A \
  --field-selector=status.phase!=Running,status.phase!=Succeeded \
  -o wide

kubectl get events -A --sort-by=.lastTimestamp | tail -50

helm list -A

cilium status --wait=false

kubectl get volumes.longhorn.io -n longhorn-system \
  -o custom-columns=NAME:.metadata.name,STATE:.status.state,ROBUSTNESS:.status.robustness,CURRENT:.status.currentNodeID

这 6 条分别回答:

  1. 节点活不活。
  2. 哪些 Pod 不正常。
  3. 最近 K8s 控制器在报什么事件。
  4. 哪些大组件由 Helm 管。
  5. 网络插件是否正常。
  6. 存储卷是否健康。

基本排障顺序

排障不要从删 Pod 开始。按这个顺序看:

入口打不开
  -> curl NodePort
  -> kubectl get svc,endpoints
  -> kubectl get pod -o wide
  -> kubectl logs / describe pod
  -> 查 Cilium / DNS / NetworkPolicy

Pod 起不来
  -> kubectl describe pod 看 Events
  -> kubectl logs 看应用日志
  -> kubectl get pvc 看卷
  -> kubectl describe node 看资源/污点
  -> journalctl -u kubelet 看节点侧错误

节点 NotReady
  -> journalctl -u kubelet
  -> systemctl status containerd kubelet
  -> crictl info
  -> getent hosts k8s-api
  -> ss -tlnp | grep 16443

先看事实,再动手改配置。

在 GitHub 上编辑此页
Next
完整安装总 Runbook:5 台 Ubuntu 到可用平台