很多团队给 AI 网关接上监控后,第一眼看的还是“成功率”。这个指标当然重要,但它往往只能说明系统没完全挂掉,不能告诉你 AI 调用到底健不健康。
要把 AI 中转站用明白,至少应该看四张表。
第一张:请求表
请求表回答的是“谁在用、用得多不多”。
它应该能按这些维度切:
- 团队
- 项目
- 模型
- key
- 环境
- 任务类型
如果你只能看总请求量,那就很难知道是哪个团队突然把模型打热了。
第二张:回退表
AI 调用最值得盯的是回退,不是只盯成功。
因为很多系统表面上成功了,实际是:
- 先失败,再换模型成功
- 先超时,再缩短上下文成功
- 先限流,再排队成功
- 先降级,再返回成功
如果不把回退算进去,系统看起来很稳,实际上已经靠兜底在维持。
第三张:耗时表
AI 观测不能只看平均值,要看分位数。
建议至少看:
- P50:日常体验
- P95:高峰压力
- P99:极端抖动
不同模型、不同上下文长度、不同工具链,耗时分布都不一样。尤其是 Agent 场景,单看平均值会骗人。
第四张:预算表
预算表是 AI 网关里最容易被忽略、但最该被盯住的一张。
它最好能告诉你:
- 今天用了多少 token
- 本周用了多少预算
- 哪个团队增长最快
- 哪个模型最烧钱
- 哪些任务已经接近阈值
没有预算表,AI 观测最后只会变成性能看板,成本还是靠月底惊醒。
为什么四张表要放在同一层
请求、回退、耗时、预算这四张表,如果分散在各个应用里,就很难串起来看。统一中转站的价值在这里会变得很明显:它把模型路由、限流、重试和账单放到同一个观测面板上。
像 https://top-api.cc 这样的统一入口,适合把这些指标都拉在同一处,不让团队在不同系统里来回拼图。
结语
AI 网关观测不是为了做报表,而是为了回答四个问题:谁在用、怎么失败、慢在哪里、钱花哪了。把这四张表看顺了,AI 中转站才算真正进入生产治理。
Leave a Reply