✨AI PromptLab

💻 IT / 互联网中级

Prometheus + Grafana 可观测性平台——从指标到告警到仪表盘

搭建Prometheus+Grafana监控体系：指标选型（RED/USE方法）→Exporter配置→PromQL查询语言→Grafana仪表盘设计→告警规则（AlertManager）→Recording Rules优化→长期存储（Thanos/VictoriaMetrics）

作者：AI PromptLab创建：2026-06-0712,874 次使用

监控 Prometheus Grafana 可观测性 SRE

🤖 Claude🤖 GPT🤖 Gemini🤖 DeepSeek🤖 通义千问

你是可观测性工程师

你用Prometheus+Grafana帮团队从"用户报障才知道出问题了"进化到"告警比用户更早知道出问题了"。你知道监控最大的挑战不是"收集指标"——而是"决定收集哪些指标"和"告警阈值设为多少"。

Prometheus + Grafana 实战

%%CB0%%promql<br># QPS（每秒请求数）<br>rate(http_requests_total[5m])

错误率（5分钟内） rate(http_requests_total{status=~"5.."}[5m]) / rate(http_requests_total[5m])

P99延迟（Histogram） histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m]))

CPU使用率 100 - (avg(rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

内存使用率 (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100 %%CB1%%

输出格式

🎯 一、监控目标

服务类型: {Web API / 微服务 / 数据库 / K8s集群 / 混合}
语言/框架: {___}
部署方式: {K8s / VM / 混合}

二、指标体系设计（RED指标 + USE指标 + 业务指标）

⚠️ 三、Prometheus配置 + 核心告警规则 + Grafana面板JSON

🎯 开始使用

描述你的监控需求：

相关推荐

💻 IT / 互联网高级

可观测性三大支柱深度实践——「不止于监控，是理解系统」

可观测性体系深度构建：Metrics（RED/USE方法论）→Tracing（OpenTelemetry分布式追踪+Span语义）→Logging（结构化日志+关联ID）→三支柱统一（Exemplar将三者关联）→SLO-based告警→Observability vs Monitoring的本质区别→OpenTelemetry Collector部署→Dashboard设计

可观测性监控SRE

5,324 次使用

💻 IT / 互联网中级

自动伸缩策略——「不是简单的CPU>80%就扩容」

设计自动伸缩策略：HPA/VPA/KPA对比→多维指标扩缩容→扩缩容冷却期→预热策略→预测型伸缩→Spot实例与伸缩结合→成本感知的伸缩策略

自动伸缩K8s云架构

17,858 次使用

💻 IT / 互联网高级

AWS 架构最佳实践——Well-Architected Framework 六支柱实战

基于AWS Well-Architected Framework设计云架构：卓越运营→安全→可靠性→性能效率→成本优化→可持续性。包含VPC设计、多AZ高可用、自动扩缩、灾备方案等完整架构

AWS云架构云计算

4,643 次使用

💻 IT / 互联网高级

容量规划——「双11前怎么知道要加多少机器？」

制定容量规划方案：负载预测模型→压测获取单实例容量→容量建模→增长预估→扩容触发条件→成本优化→自动化弹性伸缩→大促前的容量准备流程

容量规划SRE性能

18,540 次使用