K8s + 平台 + AI Infra 两周深度笔记 — 总纲

14 天系统过 K8s 内核 + 周边基础设施 + AI Infra,覆盖集群运维 / CNI / 存储 / Operator / 网络与服务网格 / 安全 / 可观测 / 制品 / GitOps / GPU 调度 / 推理 / 训练 / 灾备 / 多集群。 关键原则：真实手感 + 真实踩坑 + 真实排查 > 背书 / 抄文档 / 看视频。

0. 学完后能讲什么(面试 anchor)

主题	学完能拍胸脯讲的话
K8s 集群运维	"我亲手 kubeadm 起过 3 CP HA 集群,etcd raft 选主/quorum 损坏恢复都跑过 chaos drill"
CNI 选型	"Calico vs Cilium 我都装过装挂过,BGP RR 配置过,Cilium eBPF dataplane 性能基准我测过"
存储	"Longhorn / Rook-Ceph 都跑过 stateful workload,跨节点迁移、快照恢复、PV 卡 detach 我都修过"
Operator 开发	"用 kubebuilder 从 0 写过 1 个生产可用 Operator,reconcile 幂等 / finalizer 防卡 / admission webhook 全套做过"
网络 + 服务网格	"ingress-nginx + cert-manager + NetworkPolicy 上过线,Linkerd / Istio 数据面差异我对比过"
安全	"RBAC 最小权限做过,OPA Gatekeeper / Kyverno 写过策略,Vault + external-secrets 接过,cosign signed image admission 做过"
可观测	"Prom + Loki + Tempo + OTel 完整栈我跑过,Prom WAL 爆盘 / Loki label cardinality 炸过都修过"
制品管理	"自建 Harbor + Trivy + cosign + signed image 校验,Replication 跨地域同步配过"
CI/CD	"Jenkins / Tekton / Argo Workflows / Gitea Actions 四个都用过,适用场景差异能讲"
GitOps	"ArgoCD app-of-apps + ApplicationSet 多 env 流水线做过,drift detection / Argo Rollouts 灰度发布上过"
AI infra: 推理	"vLLM / TGI / Ollama / Triton / KServe 五个推理引擎都部署过,显存碎片 / 冷启动 / 量化模型加载我都踩过"
AI infra: 训练	"Kubeflow / Volcano gang scheduling / MPI Operator 都跑过分布式训练,LoRA / QLoRA 微调 + DeepSpeed/FSDP 概念能讲"
AI infra: 调度	"GPU device-plugin / MIG / MPS / time-slicing 几种共享方案对比过,生产场景取舍能讲"
多集群	"ArgoCD 多集群 + Cluster API 概念能讲,跨集群 service discovery 实操过"
故障排查	"做过 7 次 chaos drill,每次都有完整 postmortem,排查从'症状'到'根因'的链路熟"

1. 课程结构(14 天,2 周冲刺)

Week 1：K8s 内核 + 周边基础设施(Day 1-7)

Day	主题	早	午	晚	MD 字数
1	集群起步 + CNI 选型 + DNS 调优	kubeadm 起 3 CP HA + etcd stacked vs external 对比	Calico vs Cilium 装 + dataplane 性能对比	CoreDNS 调优 + node-local-dns + DNS 故障演练	~5500
2	控制面 + etcd 内核 + 故障注入	apiserver 启动参数 / admission chain / audit	etcd 内核 (raft / MVCC / compaction / defrag / backup-restore)	chaos: kill etcd member / split-brain / apiserver 起不来	~5500
3	CRD + Operator + Webhook	kubebuilder 脚手架 + CRD 设计原则(InferenceService / TrainingJob 拆解)	reconciler 幂等 + finalizer 模式 + status patch	admission webhook (validating + mutating) + cert-manager 给 webhook 签证	~5500
4	存储深度	PV/PVC + StorageClass + CSI 概念 + reclaim policy	Longhorn 装 + stateful workload + 快照 + 跨节点	Rook-Ceph 入门 + RWX 对比 + 性能 benchmark	~5500
5	网络 + Ingress + Service Mesh	Service 类型 + Ingress (nginx vs traefik) + cert-manager + Let's Encrypt	NetworkPolicy + Calico/Cilium L3/L4/L7 策略	Linkerd 装 + traffic split + mTLS + observability + 对比 Istio	~6000
6	安全完整栈	RBAC + ServiceAccount + token rotation + audit	Pod Security Standards + OPA Gatekeeper vs Kyverno 实操	Vault + external-secrets + cosign signed image + admission verify	~6000
7	可观测性栈	Prometheus 内核 (WAL/TSDB/remote_write/federation) + 告警最佳实践	Loki 索引设计 + label cardinality + 跨日期查询	Tempo + OpenTelemetry 跨服务 trace + Grafana 统一面板 + 告警去抖	~6000

Week 2：制品管理 + GitOps + AI Infra + 综合(Day 8-14)

Day	主题	早	午	晚	MD 字数
8	Harbor + 镜像安全栈	Harbor 自建完整组件 (postgres/redis/registry/chartmuseum/trivy)	Trivy + cosign + Notary v2 镜像签名	signed image admission 校验 + GC + Replication 跨地域	~5500
9	CI/CD 四方对比 + 流水线工程	Jenkins + Tekton 架构对比	Gitea Actions + Argo Workflows 对比 + 适用场景	实操完整 pipeline (代码 → 测试 → 扫描 → 推送 → 部署 + 缓存优化)	~6000
10	GitOps 完整生态	ArgoCD vs Flux 架构对比 + ArgoCD 装	app-of-apps + ApplicationSet + multi-env 升级流程	sealed-secrets / external-secrets + Argo Rollouts / Flagger 渐进发布	~6000
11	GPU 接入 + 推理引擎 deep 对比	nvidia-device-plugin + MIG 切分 + GPU sharing (MPS / time-slicing) 对比	vLLM / TGI / Ollama / Triton 部署 + 性能 benchmark	KServe + Ray Serve + canary release + 多模型 ensemble	~6500
12	训练编排 + 分布式训练	Kubeflow 完整生态 (notebook / pipeline / katib / kserve)	Volcano gang scheduling + MPI Operator + LoRA/QLoRA 实战	分布式训练 (DeepSpeed / FSDP / ZeRO 概念) + 单机多卡跑通 + NCCL 调优	~6500
13	多集群 + 边缘 + 平台工程	ArgoCD 多集群 + Cluster API 入门	K3s / KubeEdge 边缘集群 + 与中心集群联动	Crossplane (云资源 as CRDs) + Backstage (内部开发者平台) 入门	~5500
14	chaos drill + 面试模拟 + 整合复习	5 道经典面试设计题模拟(详见第 4 节)	综合 chaos drill + postmortem	14 天笔记整合 + 高频面试题清单 + "我能讲的故事" 总结	~5500

总字数约 78,000-83,000 字 = 一本小书厚度。

2. 每天的固定输出模板

每天结束按这个模板整理 MD：

# Day X: <主题> (yyyy-mm-dd)

## 0. TL;DR (3 句话讲清楚)
- ...
- ...
- ...

## 1. 学习目标 + 闭环输出
- 能秒答: ...
- 能动手做: ...
- 产出物: ...

## 2. 关键概念 + 架构图
- 概念 A: ...(为什么存在 + 解决什么 + 替代方案)
- 概念 B: ...
- ASCII 架构图

## 3. 实操详细步骤
- 命令 / YAML / 完整可复制
- 每步注释"为什么这么做"

## 4. 多方案对比(深度)
| 方案 | 优势 | 劣势 | 适用 | 不适用 |
|---|---|---|---|---|

## 5. 踩坑实录(面试金矿)
| 现象 | 根因 | 排查命令 | 修复 | 教训 |
|---|---|---|---|---|

## 6. 源码 / 文档片段(对照学)
- 关键源码 5-10 行 + 注释
- 上游文档关键章节链接

## 7. 面试常见题 + 标准答法(8-12 题)
- Q1: ...
  - A: 一句话答 / 30 秒展开 / 被深问时的转向
- ...

## 8. 自查 checklist
- [ ] 能秒答 X
- [ ] 能不查文档写 Y
- [ ] 能闭眼复现 Z

## 9. 延伸 / 待深挖
- ...

3. 每天的踩坑预告(Week 1)

提前列出每天典型会撞的坑,正式动手时减少卡壳,提高排查效率

Day 1: 集群起步 + CNI

❗ kubeadm token 24h 过期,worker join 失败 → kubeadm token create --print-join-command
❗ Pod CIDR(默认 10.244.0.0/16)与你 VPC 网段冲突 → --pod-network-cidr 自定义
❗ Calico BIRD BGP 收不到对端 → calicoctl node status + 路由反射器配置
❗ Cilium eBPF 要求内核 ≥4.19,有些机器需升级内核
❗ CoreDNS Pod 在 master 上不调度 → taint/toleration
❗ DNS 解析慢:节点本地 DNS 缺失 / ndots:5 引起多次查询 → node-local-dns 部署
❗ 多 CP 时 etcd 成员加入顺序错乱