京东物流超大规模仓储系统智能监控(32页)
2.32 MB
32 页
0 下载
22 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 京东物流超大规模仓储系统智能监控揭秘 付正全 架构师 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 京东物流仓储系统监控的问题及挑战 仓储库房分布地域广 机器、应用数量多 资产变化频繁 监控对象种类杂 部署环境不一致 网络环境不稳定 目前京东物流在全国运营了约600个大型仓库,仓储设施占 地面积超过 1500万 平方米。同时印尼、泰国等国际化仓储 数量仍在不断增加 各地库房分布地域、国际化仓的大量投入运营,以 及各地网络运营商差异导致部分集群到监控服务端 的网络环境不一 物流相关业务的不断发展导致了频繁的开仓、关仓,从而导 致资产配置信息变化频繁 除了各地仓储库房的机器外,京东物流在大 型IDC数据中心运营着数万台机器和数千个 应用 各地仓储机房内运行着大量的网络设备、服务 器、存储、刀片服务器等,且厂商型号众多, 此外也包含大量的docker和云主机 目前仓储并存多套应用发布环境,各环境 部署方式、环境依赖不同,导致监控复杂 化 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 AIOPS趋势下智能监控系统的新挑战 AIOPS? AI应用场景分散,成熟度不一致 业务多样化,算法工程化困难,大部分场景距离实际应用有一定的距离 监控指标深度,专业化程度不够 数据源不够全面 频繁变化的资产,不可靠的CMDB 运维专家匮乏 复合型人才匮乏:AI和算法工程师+运维开发 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 对监控的认识 什么是监控? 为什么需要监控? 监控的价值? 监控的范围、粒度? 监控体系的规划? 监控在运维体系中的定位? 监控和资产、运维的关系? 监控=无人值守? 监控和AIOPS的关系? 监控到智能监控的演化? 。。。 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 监控运维体系规划 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 监控运维体系规划 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 建设目标&要求 与AI技术结合进行故障、性能及容量的预测, 实现监控智能化 推动规范化、自动化的运维管理流程,提供完 善的故障处理和快速修复机制 实时掌握数据中心整体资产配置使用情况、运 行趋势和健康状况,为决策层提供数据依据 • 及时性 故障在第一时间告警并通知管理员 • 准确性 不漏报、不误报 • 精确性 秒级监控、细粒度 • 兼容性 兼容各服务器、应用、中间件 • 扩展性 插件式、易扩展、不改代码 • 可用性 高可用、无单点故障 以资产为基础为运维管理提供数据支持 当故障出现时,能快速和准确定位问题根源 使用大数据分析技术挖掘监控数据价值,助力 业务增值 能力成熟度模型 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 构建可靠的CMDB 自动发现 业务接口 (消息) 流程化 定时同步 自动发现是降低维护成本的一种有效方 式,提供固定IP段、协议参数等信息自 动扫描资产信息以及资产配置信息 资产配置信息变化频繁,在资产变更时发 送广播消息(或通过接口)通知其他子系统同 步变更,保证资产变化实时同步 运维资产信息变更的场景化流程梳理,比如说 开关仓,服务器开关机/断电,服务器下架等等, 这些流程需要与laos等平台打通,建立标准化 变更流程 人工维护 结合现有的IT运维流程,在某些场景下通 过人工变更把CMDB信息维护准确,比如 主机所属负责人变更、人员异动、机器异 动等,可以通过人工直接变更完成 资产数据来源多样化,目前有来自j- one/cap/dbs/中间件等其他平台的资产配置 信息,通过定时同步的方式作为补充手段 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 技术架构 采集 决策 处理 agent jdos api zabbix api 通知 自动处理 人工处理 规则管理 规则匹配 回溯分析 预设规则 知识库 深度学习 决策树 异常反馈 …… 分析 使用率统计 预处理 过滤 实时告警 阈值判断 历史数据 业务分析 根因分析 趋势分析 故障预测 数据挖掘 大数据分析 dbs api G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 技术架构 Kafka 历史数据 t agent tt Heatbea t-server 实时数据 告警模块 通知模块 上层业务架构 transfer JMQ redis queue Kafka cluster redis redis redis redis redis mysql redis redis es 历史查询 历史查询 日志分析 历史查询 历史查询 查询服务 历史查询 历史查询 配置接口 历史查询 历史查询 趋势分析 consumer consumer 可水平扩展的consumer cluster 知识库 监控数据 告警分析 Trap reciever 通知模块 consumer 底层监控架构 短信 mail callback logstash agent logstash agent logstash 心跳、配置同步 redis redis mysql 定时同步 历史查询 历史查询 故障预测 历史查询 历史查询 报表服务 transfer transfer 通知模块 事件处理 自动处理 人工处理 告警处理 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 兼容性 日志分析平台 库房 机器 IDC 机器 物理机/Docker 库房Devops IDC物理机/Docker 数据库运维平台 调用链监控平台 Devops平台 方法监控 统一整合 MDC监控 Loas MDC 平台 DBS 平台 Zabbix logbook Jtrace UMP J-one 开源平台 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 异常检测 方法一:当前时刻和前一时刻数值比较,波动超过一定阈值就报警 𝑥t − 𝑥𝑡−1 > y(阈值) 只考虑相邻两个点之间的波动,忽略了随时间周期性变化的因素,因此误差较大 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 异常检测 方法二:同比环比 将当前时刻数据和前一时刻数据(环比)或者前一天同一时刻数据(同比)比较,超过一定阈值即认为该 点异常 使用历史上的单点数据来预测当前数据,误差比较大 𝑥t − 𝑥𝑡−1 > y(阈值) G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 异常检测 方法三:基于基线的异常检测 对历史数据求平均,然后过滤噪声,可以得到一个平滑的曲线(基线),使用基 线数据来预测当前时刻的数据 𝑥t − 𝑥𝑡−1 > y(阈值) 当前时刻和同时刻基线数值比较,波动超过一定阈值就报警 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 异常检测 方法四:基于预测的异常检测(准确性) 预测算法的选择直接影响异常检测的准确性 预测算法: 多元线性回归、LSTM、决策树、 随机森林、神经网络、朴素贝叶 斯分类、最小二乘法、支持向量 机 … G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 异常检测 方法五:基于Holt-Winters预测 三次指数滑动平均算法,它将时间序列数据分为三部分:残差数据a(t),趋势性数据b(t),季节性数据s(t)。使用Holt-Winters预测 t时刻数据,需要t时刻前包含多个周期的历史数据。相关链接:Exponential smoothing、Holt-Winters seasonal method。 迭代计算公式(周期为k): 当|y[t]-a[t]|>X时,认为出现异常 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 调用链 分布式事物跟踪,跟踪分布式应用消息 自动检测应用拓扑,帮你搞清楚应用的架构 水平扩展支持大规模服务器集群 提供代码级别的可见性以便轻松定位失败点和瓶颈 使用字节码增强技术,添加新功能无需改动代码 集成SQLAdvisor 智能化采样率 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 事件处理引擎 告警输入 规则引擎 自学习 自动处理 人工处理 通知 权限检查 审计日志 执行引擎 规则库 系统预设 快照 扩容/缩容 重启 。。。 IT运维流程 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 智能知识库 与工单系统联动,自动收录咨询的问题及解决方案 同步日常咨询的运维问题作为基础数据,解决了知识库的数据来源问题 基于火眼监控平台积累的监控故障数据并进行机器学习分析 大量有价值的监控及告警数据可以作为机器学习分析的数据样本,以此保证知识库平台 自动更新迭代,避免可人工维护费时费力且数据容易过时的问题 集成根因分析、多业务关联分析 提供智能根因分析、多业务关联分析,将分析加过纳入知识库中 反馈文本聚类分析 基于研发人员反馈的问题进行聚类分析,形成数据池 支持人工异常标注 基于研发手动标注的问题完善知识库内容,相对自学习的方式更加精准 统计报表 将研发咨询量最大的问题统计为报表,纳入知识库中,作为高权重知识 知识库关键词检索 提供根据关键词检索功能,帮助研发人员快速自助解决问题 智能客服机器人 提供智能客服机器人服务,根据人员信息自动推测可能的问题及解决方案 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 故障快照 出现告警自动抓取现场快照信息 快照信息持久化保存 根据自学习的知识库提供异常原因分析 集成Arthas诊断工具,快速诊断问题 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 网络检测模型 IDC 各地 仓储 国际 化仓 储 国际 化仓 储 各地 仓储 各地 仓储 各地 仓储 各地 仓储 各地 仓储 国际 化仓 储 复杂的网络环境 10.187.12.13(本机)->10.187.12.14 (12ms) 10.187.12.13(本机)->10.187.12.15 (120ms) 10.187.12.13(本机)->10.187.12.16 (1ms) 10.187.12.13(本机)->10.187.12.17 (16ms) IDC 自动构建的网络监测拓扑 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 趋势预测 故障预测、容量预测、性能预测 预测分类: 预测算法: 重点关注: 多元线性回归、LSTM、决策树、随机森林、 神经网络、朴素贝叶斯分类、最小二乘法、 支持向量机 … 算法匹配度评分 日历适配、基于节假日的机器学习算法 Kpi自动分类并匹配预测算法 基于业务关联关系的预测算法 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 可视化 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 迭代优化 技术 产品 组织 AI+算法 高性能 稳定性 兼容性 技术架构 聚焦业务,为业务服务 智能运维体系构建 模块化 组件化 产品架构 团队人员结构优化 运维专家 算法工程师 AI工程师 组织架构 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 AIOPS规划 分析 决策 处理 采集 1. 告警分析; 2. 趋势分析; 3. 性能分析; 4. 事件分析; 5. 日志分析; 预测 上报 故障 止损 异常检测 发现问题 解决问题 规避问题 api 主动检测 KPI聚类分析 故障树 根因分析 智能通知 智能处理 回溯分析 智能告警 知识库 深度学习 决策树 异常反馈 自动处理 人工处理 处理报告 容量预测 趋势分析 性能预测 扩容建议 故障预测 决策 支持 预算建议 故障快照 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 Thanks 高效运维社区 开放运维联盟 荣誉出品 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 想第一时间看到高效运维社区 的新动态吗?
| ||
下载文档到本地,方便使用
共 32 页, 还有
1 页可预览,
继续阅读
文档评分


【精品】五矿制造-物流仓储智能WIFI解决方案(38页 PPT)
智慧安全生产监督监控系统解决方案