滴滴出行自动化运维实践-俞进秋

更新时间:2023-06-12 10:24:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

滴滴自动化运维实践滴滴如何运维千级别规模机器俞进秋

Agendav滴滴运维问题与挑战 v滴滴自动化运维思路 v滴滴自动化运维实践 WorldTree(统一资源管理) 监控系统 自动故障处理

滴滴运维挑战v产品线多且同构,运维工作如何复用? 出租车: api, mis,… 专车: api, mis,… …

v流量突增,如何快速扩容? 初始化环境 监控采集/报警策略 …

v业务频繁变更,如何维护服务稳定? 代码 bug 故障定位 …

运维思路 运维对象以服务节点为中心,而不是具体机器 服务节点包含运维资源(机器,初始化策略,…) 资源变更自动化感知并应用到对应服务器 (Puppet,监控采集 agent,报警策略,…)

滴滴实践(Odin)

服务树(设计考虑)v核心作用: v核心用户: v系统特点 读多写少(读取速度决定用户体验) 统一资源管理 逻辑空间隔离 运维人员(精通命令,擅长文本操作)

v常见设计v数据库存储树形结构 v数据库存储 Tag,动态构建树

WorldTree(设计)v目录结构即树 v运维元素抽象为资源,文本存储 v机器 v初始化策略 v监控采集策略 v… v资源变更版本记录

WorldTree(模板)Parent/ _template_/ machine collect init

创建节点,模板变量实例化

Child/ machine collect init…

v父节点包含资源模板 v初始化策略 v监控采集策略 v… v创建时继承非运行时 v Agent直接依赖叶子节点资源 v支持模板变量,动态实例化

WorldTree(架构)

WorldTree(实现)统一资源管理获取机器列表 获取监控采集列表 获取部署策略列表 v……

监控系统v新上架机器自动化安装 Agent v服务扩容之后,所有监控自动生效 v新增一个模块,所有基础监控自动添加 v节点迁移,采集/报警策略自动完成迁移 v各个产品线架构类似,采集/报警策略复用 v…

监控系统(架构)

监控系统(实现)用户自定义业务监控,机器监控默认自动创建

监控系统(实现)集群模式(流量:求和,耗时:均值)

监控系统(实现)时间对比(同比,环比)

监控系统(实现)自定义Tag对比 (nginx状态码,分城市,错误码 )

监控系统(实现)日志内容显示(对于PHPFatal之类错误,直接可以查看到)

监控系统(稳定性)监控系统保证线上业务稳定,谁来保证监控系统的稳定? v架构设计无单点 v故障自动冗余 v监控系统自我监控 v外部系统相互监控

自动故障处理v监控系统并不只是报警 v抽象:iffx(ts) thenactions.类似IFTTT vAction ChannelvEmail vSMS vIRC vCallback vSubsys v…

自动故障处理

本文来源:https://www.bwwdw.com/article/m8b1.html

Top