模块7:故障排查和优化

导航 上一步:模块6:部署应用到K8s 返回主索引:阿里云ACK部署SOP 模块概述 预计时间:40分钟 本模块目标: ✅ 掌握Pod故障排查方法 ✅ 掌握网络故障排查方法 ✅ 学会查看和分析日志 ✅ 学会回滚应用 ✅ 了解成本优化方法 ✅ 学会彻底清理资源 成本说明: 本模块不产生额外费用 会学习如何优化成本 步骤7.1:Pod故障排查 - ImagePullBackOff 🎬 操作说明 ImagePullBackOff是最常见的Pod启动失败错误,表示无法拉取Docker镜像。我们需要学会快速定位和解决这个问题。 📍 详细步骤 第1步:识别错误 运行命令查看Pod状态: kubectl get pods -n my-app 如果看到ImagePullBackOff或ErrImagePull: NAME READY STATUS RESTARTS AGE my-app-7d9f8c6b5d-abc12 0/1 ImagePullBackOff 0 2m 第2步:查看详细错误信息 运行命令: kubectl describe pod <Pod名称> -n my-app 在Events部分查看错误: Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal Scheduled 2m default-scheduler Successfully assigned my-app/my-app-xxx to node1 Normal Pulling 1m (x4 over 2m) kubelet Pulling image "registry.cn-hangzhou.aliyuncs.com/my-namespace/my-app:v1.0.0" Warning Failed 1m (x4 over 2m) kubelet Failed to pull image: rpc error: code = Unknown desc = Error response from daemon: pull access denied Warning Failed 1m (x4 over 2m) kubelet Error: ErrImagePull Normal BackOff 30s (x6 over 2m) kubelet Back-off pulling image Warning Failed 30s (x6 over 2m) kubelet Error: ImagePullBackOff 第3步:分析错误原因 ...

2026-01-29 · maneng

模块6:部署应用到K8s

导航 上一步:模块5:构建Docker镜像 下一步:模块7:故障排查和优化 返回主索引:阿里云ACK部署SOP 模块概述 预计时间:30分钟 本模块目标: ✅ 理解Kubernetes核心资源(Namespace、Deployment、Service、Ingress) ✅ 创建完整的应用配置文件 ✅ 部署应用到Kubernetes集群 ✅ 配置健康检查和资源限制 ✅ 通过域名访问应用 ✅ 验证负载均衡和高可用 成本说明: 本模块不产生额外费用 使用已有的ACK集群和ALB实例 步骤6.1:理解Kubernetes核心资源 🎬 操作说明 在开始部署之前,我们需要先理解Kubernetes的核心资源。这些资源是部署应用的基础,理解它们的作用和关系非常重要。 📍 详细说明 Kubernetes资源层级关系 ┌─────────────────────────────────────────┐ │ Ingress(外网访问入口) │ │ - 域名路由 │ │ - SSL证书 │ │ - 七层负载均衡 │ └──────────────┬──────────────────────────┘ │ ┌──────────────▼──────────────────────────┐ │ Service(服务发现和负载均衡) │ │ - ClusterIP(集群内部访问) │ │ - 自动负载均衡到多个Pod │ │ - 服务发现(通过DNS) │ └──────────────┬──────────────────────────┘ │ ┌──────────────▼──────────────────────────┐ │ Deployment(管理Pod副本) │ │ - 声明期望的副本数 │ │ - 自动创建和管理Pod │ │ - 滚动更新和回滚 │ └──────────────┬──────────────────────────┘ │ ┌──────────────▼──────────────────────────┐ │ Pod(最小部署单元) │ │ - 运行一个或多个容器 │ │ - 共享网络和存储 │ │ - 生命周期管理 │ └──────────────┬──────────────────────────┘ │ ┌──────────────▼──────────────────────────┐ │ Container(容器) │ │ - 运行Docker镜像 │ │ - 隔离的运行环境 │ └─────────────────────────────────────────┘ 核心资源详解 ...

2026-01-29 · maneng

模块5:构建Docker镜像

导航 上一步:模块4:配置ALB Ingress 下一步:模块6:部署应用到K8s 返回主索引:阿里云ACK部署SOP 模块概述 预计时间:20分钟 本模块目标: ✅ 理解Docker镜像的基本概念 ✅ 编写Dockerfile(使用多阶段构建) ✅ 本地构建Docker镜像 ✅ 本地测试镜像 ✅ 推送镜像到阿里云ACR ✅ 验证镜像可用性 成本说明: ACR个人版:免费 镜像存储:免费(个人版有300GB免费额度) 镜像拉取:免费(同地域) 本模块预计成本:¥0 步骤5.1:理解Docker镜像 🎬 操作说明 在开始构建镜像之前,我们需要先理解Docker镜像的基本概念。这一步不需要操作,只需要理解核心概念。 📍 详细说明 什么是Docker镜像? Docker镜像是一个轻量级、可执行的独立软件包,包含运行应用所需的一切: 代码(你的应用程序) 运行时(如:Java、Python、Node.js) 系统工具和库 配置文件 镜像 vs 容器 概念 说明 类比 镜像(Image) 只读的模板,包含应用和依赖 类似于"类"(Class) 容器(Container) 镜像的运行实例 类似于"对象"(Object) 镜像的层级结构 Docker镜像由多个层(Layer)组成,每一层都是只读的: ┌─────────────────────────────┐ │ 你的应用代码(Layer 4) │ ← 最上层 ├─────────────────────────────┤ │ 应用依赖(Layer 3) │ ├─────────────────────────────┤ │ 运行时环境(Layer 2) │ ├─────────────────────────────┤ │ 基础操作系统(Layer 1) │ ← 最底层 └─────────────────────────────┘ 为什么使用分层结构? ...

2026-01-29 · maneng

模块4:配置ALB Ingress

导航 上一步:模块3:创建ACK集群 下一步:模块5:构建Docker镜像 返回主索引:阿里云ACK部署SOP 模块概述 预计时间:25分钟 本模块目标: ✅ 理解ALB和SLB的区别 ✅ 安装ALB Ingress Controller ✅ 创建ALB实例 ✅ 配置域名解析 ✅ 配置SSL证书(自动签发) ✅ 验证ALB工作正常 成本说明: ALB实例:约¥60/月(alb.s1.small规格) 流量费用:¥0.8/GB(按实际使用计费) 本模块预计成本:¥60-100/月 步骤4.1:理解ALB vs SLB 🎬 操作说明 在配置Ingress之前,我们需要先理解阿里云的两种负载均衡产品:ALB(应用型负载均衡)和SLB(传统负载均衡)。这一步不需要操作,只需要理解它们的区别。 📍 详细说明 ALB vs SLB 对比表 特性 ALB(应用型负载均衡) SLB(传统负载均衡) OSI层级 七层(HTTP/HTTPS) 四层(TCP/UDP)+ 七层 路由能力 基于域名、路径、Header 基于端口 SSL证书 自动管理、自动续期 手动上传、手动续期 WebSocket 原生支持 需要特殊配置 HTTP/2 原生支持 部分支持 健康检查 HTTP健康检查 TCP健康检查 价格 约¥60/月起 约¥30/月起 适用场景 Web应用、API网关 通用负载均衡 推荐度 ⭐⭐⭐⭐⭐(强烈推荐) ⭐⭐⭐(传统方案) 为什么选择ALB? 智能路由 ...

2026-01-29 · maneng

模块3:创建ACK集群

导航 上一步:模块2:创建VPC网络 下一步:模块4:配置ALB Ingress 返回主索引:阿里云ACK部署SOP 模块概述 预计时间:30分钟(包含15分钟集群创建等待时间) 本模块目标: ✅ 理解ACK集群的三种类型 ✅ 创建标准托管版ACK集群 ✅ 配置节点池和Worker节点 ✅ 下载并配置kubeconfig文件 ✅ 验证集群连接正常 成本说明: 控制平面:免费(标准托管版) Worker节点:约¥223/月/节点(2核4G) 本模块预计成本:¥446/月(2个节点) 步骤3.1:理解ACK集群类型 🎬 操作说明 在创建集群之前,我们需要先理解阿里云ACK提供的三种集群类型。这一步不需要操作,只需要理解每种类型的特点和适用场景。 📍 详细说明 ACK集群类型对比表 特性 标准托管版 专有版 Serverless版 控制平面 阿里云托管(免费) 用户自建(收费) 阿里云托管(免费) Worker节点 用户管理ECS 用户管理ECS 无需管理(按Pod收费) 适用场景 生产环境、学习测试 高安全要求 突发流量、测试环境 成本 中等(只付Worker节点费用) 高(控制平面+Worker节点) 低(按实际使用付费) 灵活性 高 最高 中等 运维复杂度 低 高 最低 第1种:标准托管版(推荐) 控制平面由阿里云托管,完全免费 你只需要管理Worker节点(运行应用的服务器) 适合99%的场景,包括生产环境 成本最优,运维最简单 第2种:专有版 控制平面也是你自己的ECS服务器 需要额外付费(3台Master节点) 适合金融、政务等高安全要求场景 成本高,运维复杂 第3种:Serverless版 完全无需管理服务器 按Pod运行时间付费 适合突发流量、测试环境 成本最低,但灵活性受限 ✅ 验证点 理解三种集群类型的区别 明确我们选择标准托管版的原因 ⚠️ 常见问题 问题1:为什么选择标准托管版? ...

2026-01-29 · maneng

如约数科科技工作室

浙ICP备2025203501号

👀 本站总访问量 ...| 👤 访客数 ...| 📅 今日访问 ...