可观测性:监控、日志、链路追踪三位一体

引子:一次线上故障的排查噩梦 2021年某晚,某电商平台接口响应慢,用户投诉激增。 排查过程: 运维:哪个服务出问题了?(无监控) 开发:日志在哪?(分散在100台服务器) 架构师:调用链路是什么?(无链路追踪) 耗时:3小时才定位到问题(数据库连接池配置错误) 教训:微服务架构下,可观测性至关重要 一、可观测性的本质 1.1 什么是可观测性? **可观测性(Observability)**是指通过外部输出理解系统内部状态的能力。 三大支柱: Metrics(指标):数字化的度量(QPS、响应时间、错误率) Logs(日志):事件的记录(请求日志、错误日志) Traces(追踪):请求的全链路视图(调用链路) 1.2 监控 vs 可观测性 维度 监控 可观测性 目标 已知问题 未知问题 方式 预设指标 任意维度查询 例子 CPU > 80%告警 为什么这个请求慢? 二、监控体系:Prometheus + Grafana 2.1 监控指标的四个黄金信号 延迟(Latency):请求响应时间 流量(Traffic):QPS、TPS 错误(Errors):错误率 饱和度(Saturation):CPU、内存、磁盘使用率 2.2 Prometheus监控配置 1. 添加依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-actuator</artifactId> </dependency> <dependency> <groupId>io.micrometer</groupId> <artifactId>micrometer-registry-prometheus</artifactId> </dependency> 2. 配置application.yml management: endpoints: web: exposure: include: "*" # 暴露所有端点 metrics: export: prometheus: enabled: true tags: application: ${spring.application.name} 3. 自定义指标 ...

2025-11-03 · maneng

如约数科科技工作室

浙ICP备2025203501号

👀 本站总访问量 ...| 👤 访客数 ...| 📅 今日访问 ...