Docker 容器化实战
Agent 服务本地跑得好好的,部署到服务器就出问题——Python 依赖版本冲突(本地 3.11,服务器 3.9)、系统库缺失、环境变量没配。Docker 把应用和运行环境打包在一起,保证任何地方都以同样的方式运行。
K8s 部署 Agent 服务
上一篇我们把 Agent 服务 Docker 化了,镜像构建没问题,本地跑得也挺好。然后你 docker run 一把梭上去了——然后某天凌晨三点,服务挂了,你被电话叫醒,手动重启。
CI/CD 流水线设计
引言:一次深夜事故引发的思考
监控告警体系
线上 Agent 服务的 p99 延迟飙到 45 秒,用户投诉涌来,但没有监控面板、没有告警,甚至不知道问题从什么时候开始。花了两小时翻日志,才发现是 LLM API 限流导致重试雪崩。
生产环境最佳实践
Prompt 模板更新后直接部署到生产环境——新 Prompt 长了 200 个 token,响应时间从 2 秒飙到 8 秒,用户重试导致请求量翻 3 倍,LLM API 费用一夜烧了 2000 美元。一个 Prompt 变更引发的事故,暴露了部署没有灰度、没有回滚、没有成本监控、没有限流的问题。