飞书集成平台 x Grafana:打造监控告警系统全攻略

飞书集成平台 x Grafana:打造监控告警系统全攻略
Photo by Sigmund / Unsplash

Grafana告警内容设置

告警内容分为:告警标题告警说明告警详情。告警标题和告警说明用来描述告警的规则。告警详情,描述告警的规则和具体的值。

告警详情 Description 设置

  1. 打印所有的标签
{{ $labels }}

alertname=High CPU usage, grafana_folder=CPU alerts, instance=server1
  1. 自定义格式化打印所有的标签
{{ range $k, $v := $labels -}}
{{ $k }}={{ $v }}
{{ end }}

alertname=High CPU usage
grafana_folder=CPU alerts
instance=server1
  1. 打印单个标签
The host {{ index $labels "instance" }} has exceeded 80% CPU usage for the last 5 minutes

The host server1 has exceeded 80% CPU usage for the last 5 minutes
  1. 打印具体的值
{{ index $values "A"· }}

81.2345
  1. if - else 的使用
{{ if (gt $values.A.Value 80.0) -}}
high
{{ else if (gt $values.A.Value 50.0) -}}
medium
{{ else -}}
low
{{- end }}
  1. 其他格式化函数
函数
函数名
示例
输出
args

{{define "x"}}{{.arg0}} {{.arg1}}{{end}}{{template "x" (args 1 "2")}}
1 2
externalURL

{{ externalURL }}
https://example.com/grafana
graphLink

{{ graphLink "{\"expr\": \"up\", \"datasource\": \"gdev-prometheus\"}" }}
/explore?left=["now-1h","now","gdev-prometheus",{"datasource":"gdev-prometheus","expr":"up","instant":false,"range":true}]
humanize
易读
{{ humanize 1000.0 }}
1k
humanize1024
易读 1024
{{ humanize1024 1024.0 }}
1ki
humanizeDuration
易读 时长
{{ humanizeDuration 60.0 }}
1m 0s
humanizePercentage
易读 百分比
{{ humanizePercentage 0.2 }}
20%
humanizeTimestamp
易读 1024
{{ humanizeTimestamp 1577836800.0 }}
2020-01-01 00:00:00 +0000 UTC
match

{{ match "a.*" "abc" }}
true
pathPrefix

{{ pathPrefix }}
/grafana
tableLink

{{ tableLink "{\"expr\": \"up\", \"datasource\": \"gdev-prometheus\"}" }}
/explore?left=["now-1h","now","gdev-prometheus",{"datasource":"gdev-prometheus","expr":"up","instant":true,"range":false}]
title

{{ title "hello, world!" }}
Hello, World!
toLower

{{ toLower "Hello, world!" }}
hello, world!
toUpper

{{ toUpper "Hello, world!" }}
HELLO, WORLD!
reReplaceAll

{{ reReplaceAll "localhost:(.*)" "example.com:$1" "localhost:8080" }}
example.com:8080

详见文档:

https://grafana.com/docs/grafana/latest/alerting/fundamentals/annotation-label/variables-label-annotation/#functions

飞书集成平台

可以认为是一套开发可用的“低代码平台”,在本案例中,做了以下几个步骤:

  1. 触发器接受 grafana 的告警
  2. 从“值班”多维表格中获取今天值班人员信息
  3. 使用 javascript 预处理告警信息,包括:标题、内容、runbook、值班人员等
  4. 根据告警类型信息选择不同的飞书消息卡片模板
  5. 结合模板和数据,发送到告警群(可在集成平台中配置)

飞书集成平台的触发器提供一个回调地址,将地址填写到 grafana 联络点,选择 webhook 完成设置。

参考链接

Read more

代码 Refactoring

重构不必谈之色变。 它也不是洪水猛兽,而是开发过程中持续进行的优化过程。让我们开始学习这个主题,重新认识它的价值。 🌟整洁代码 重构的主要目的是消除技术债务。它将混乱变成整洁的代码和简单的设计。 * 对于其他程序员来说,整洁的代码是显而易见的。 我并不是在谈论超级复杂的算法。糟糕的变量命名、臃肿的类和方法、魔法数字 - 等等,所有这些都会让代码变得混乱和难以理解。 * 整洁的代码不包含重复。 每次你需要对重复的代码进行更改时,你都必须记住对每个实例进行相同的更改。这会增加认知负担并减慢进度。 * 整洁的代码包含最少数量的类和其他活动部件。 代码越少,脑子里需要记住的东西就越少。代码越少,维护工作就越少。代码越少,错误就越少。代码就是责任,保持代码简短。 * 整洁的代码通过所有测试。 如果只有 95% 的测试通过,你就知道代码不整洁。如果测试覆盖率为 0%,你就知道你完蛋了。 * 整洁的代码维护成本低! 🗑️技术债(What) 每个人都尽最大努力从头开始编写出色的代码。可能没有程序员会故意编写不干净的代码,从而损害项目。但是干净的代码在什么时

By brian

CSV 格式说明和应用

问题 我们常常将多个字符串item使用逗号拼接成一个字符串,用来表示数组,使用时再用逗号切割成为数组。比如安卓机型列表: ALN-AL10,ALN-AL10,BRA-AL00,ALN-AL00/ALN-AL80 直到有一天,苹果设备也要用到这个机型列表,而它的每个机型都带着逗号,那我们使用逗号切割就得到了错误的数据。 iPhone15: iPhone15,4 iPhone15Plus: iPhone15,5 iPhone15Pro: iPhone16,1 iPhone15Pro_Max: iPhone16,2 为了解决这个问题,首先想到了换一个分隔符,比如 | ,再比如用一些不可见字符 : 0x01。 但我们不能保证这些字符串 item 一定不包含这些特殊字符,也许还有更好的方法。 既然是逗号分隔,首先想到的就是 CSV格式,毕竟 CSV 的全称就是Comma-Separated Values逗号分隔值。它是如何解决这个问题的? CSV格式 CSV 的RFC说明文档:https://datatracker.ietf.

By brian
开启了http2,但是http2_max_field_size 还在用默认值吗?

开启了http2,但是http2_max_field_size 还在用默认值吗?

排查1个异常接口,学到一个降本和接口提速的新思路。另外找到1个charles的"bug" 现象 测试同学反馈在iOS13设备上请求接口报错,将请求复制为 curl 命令。分别导入 apifox 和 在终端执行: * 在 apifox 请求正常 ✅ * 在终端请求失败 ❌ curl: (56) Failure when receiving data from the peer 测试同学又反馈另一个手机支持请求接口返回正常。 定位 有了正常和错误的请求curl,那直接对比二者差异就很简单了。对比发现,在终端执行失败的请求中多了一个较大的Cookie: app_token。按历史经验基本能确定是因为 Cookie 这个 header 条目太大,超过服务器的限制。 找云平台确定相关配置: ELB http1: header头限制 128KB,body 限制一个10G http2:

By brian
沪ICP备2022013452号-1