42
系统运维管理交流 李欣

系统运维管理交流 - oracle.com · 系统运维管理交流 李欣 . 议程 •解决方案概述 •产品概述 •功能/使用场景 •小结. 格拉斯复杂定律 For

  • Upload
    others

  • View
    29

  • Download
    0

Embed Size (px)

Citation preview

系统运维管理交流

李欣

议程

• 解决方案概述

• 产品概述

• 功能/使用场景

• 小结

格拉斯复杂定律

For every 25 percent increase in the business functionality in a system, there is a 100 percent increase in the complexity of that system

运营商应用系统日趋复杂

系统1 系统2

传统IT

系统3

OS

中间件

服务器

存储

界面

数据库

OS

中间件

服务器

存储

界面

逻辑

OS

中间件

服务器

存储

界面

逻辑 逻辑

应用

平台

数据库 数据库

系统1 系统2

融合IT

系统3

OS

中间件

OS

中间件

OS

中间件

SOA/BPM/OSB

接入、安全认证、路由、客户体验

组件 组件 组件 组件 组件 组件

数据缓存

数据库 数据库 数据库

运维管理所面临的问题

生产效率和操作成本的降低

• 60-70%的IT开销用于日常操作 (例如管理,维护等)

• IT需要自动化的解决方案来应对越来越复杂的系统、越来越多的变更请求和减少的人力资源

系统24x7可用

• 配置变更是导致系统可用性降低最大的原因

• 配置管理需要降低计划内和计划外的宕机时间来提高系统修复效率

应用性能• 越来越复杂的J2EE和Tuxedo应用

• 越来越多的应用层次所带来的延迟

• 在出现性能问题时,面临应用之间复杂、难以理解的关联关系

完整的生命周期管理 集成的云体系管理 业务驱动的IT管理

自助式 IT | 简单、自动 | 业务驱动

应用程序和业务服务

平台即服务

基础架构即服务

规划

安装

构建

测试

部署监视

管理

计量和计费

优化

DBaaS MWaaS

6

OEM全面的运维管理不问题诊断

RUEI:感知用户,知其然

• 页面级别的问题定位

• 采集从客户端到WEB服务器端的性能数据

• 可以下钻到BTM/ADP/JVMD等后端组件

JVMD/TSAM:解决问题,知其所以然

• 从页面(或WS客户端)开始,执行交易的端到端跟踪,可跟踪到SQL语句级别

• 支持跨越后端多个不同容器,不同技术实现

internet

URL/HTML Java/WS JDBC/SQL网络 Servlet

RUEI解决前端页面体验的诊断问题 BTM/JVMD/TSAM解决后端业务处理的诊断问题

DB

全面的优化分析不问题诊断

议程

• 解决方案概述

• 产品概述

• 功能/使用场景

• 小结

OEM-oracle全线产品统一管理方案

OEM部署架构及原理

• 只在主机安装Agent,不影响应用和数据库

• 监控信息自劢收集、存储

• 后台监控信息推送,不增加主机负担

• 监控信息可永久保留,方便统计分析

• 集成Oracle在线支持网站,可自动下载补丁

强健、可扩展、安全

主机 2

Web Logic

tuxedo

主机 1OEM 插件数据库、FMW、管理软件等 OEM 代理

OEM 代理

自动推送

Oracle Enterprise Manager 12c

数据库Web Logic

安全性

任务自动化

监视

配置管理报表展现

My Oracle Support

网站

OEM 监控信息存储

Configuration Management

Operation/Deployment

Automation

Application Performance

• 管理应用的性能提高应用的性能和可用性

• 管理配置变更通过避免宕机和遵守企业规范来提高服务的可用性

• 自劢化操作通过自动部署来安装和打补丁减少了对应的成本

Management Pack for WebLogic

TestProduction

Development

集中式运维管理平台

主机监控

Oracle WebLogic Server监控

应用性能及代码诊断

按service请求来说的响应时间排序

按java method来说的响应时间排序

数据库耗时和等待事件

按SQL来说的响应时间排序

最本质的真相,症结在哪里?

变更管理及历史追踪

多渠道警告自动通知• 集中,基于度量和阀值异常驱动的监控

• 自定义度量

• 监控模板

• 异常通知

• Email, WEB, SMS

• 与第三方工具集成

• Open View, Unicenter, Remedy and more

• 丰富预定义度量可得

• Widget

批量补丁和批量升级

系统宕机自动重启

也支持远程目标

也支持批量脚本

定期监控报告

TSAM12C-实现不OEM的集成

全面的TUXEDO监控

• Metric collected for all

Tuxedo components

• Domain, Machine, Group,

Servers

• System servers: BRIDGE,

TMS, DOMAIN gateways,

SALT gateways, WSL, JSL,

event broker

• Mainframe Adapters

• Application Runtime for CICS,

IMS and Batch

• Tuxedo Message Queues

实时监控,并且可以保留历叱数据

端到端的事务监控

议程

• 解决方案概述

• 产品概述

• 功能/使用场景

• 小结

应用OEM监控Weblogic应用

• BSS系统发生过3次比较大的故障,分是3月14日,4月9日,5月4日。故障现象比较类似,开始是部分客户访问系统变慢,慢慢的系统就几乎无法访问了,Weblogic处于hang死状态。从发生问题的时间上看,存在一定的规律性(20多天,丌到一个月),累积效应明显。

BSSFrame session数持续上涨

BSSFrame Server内存丌断上涨

导致系统故障的真正原因

Bssframe/WBE-INF/web.xml文件中关于session超时的配置如下

<session-config>

<session-timeout>-2</session-timeout>

</session-config>

应用TSAM监控Tuxedo接口系统

•大量的服务不服务之间的调用关系,正确的,错误的,合规的,丌合规的……

•频繁的服务超时,server重启

•队列阻塞,无法响应前台请求

????……

梳理服务不服务间的调用关系

从Callpath中分析典型问题

从数据库执行上分析

从域间通信上分析

从定制的告警上分析

处理结果无法正常返回,最后被强制退出

系统改进不优化

• 用最小的代价获得最大的业务稳定度不业务执行能力的提升• 分类汇总,等级分层,

• 保障核心,限制边缘

• 关停并转

• 完善代码质量

• 优化系统配置

议程

• 解决方案概述

• 产品概述

• 功能/使用场景

• 小结

用户行为监控和分析

对有性能瓶颈的应用进行跟踪

对中间件Weblogic的资源监控对Java、tuxedo执行进程跟踪对数据库SQL、会话等资源进行跟踪

中间件(weblogic,Tuxedo)

数据库(OS)

用户行为

OEM(RUEI+JVMD+TSAM)端到端的监控分析

Oracle Enterprise Manager提供全资源管理

中间件

Oracle Enterprise Manager

数据库

• Oracle Database• Oracle Exadata• Oracle TimesTen• IBM DB2 • MS SQL Server• MySQL• Sybase

存储

• Check Point Firewall

• Juniper Netscreen Firewall

• F5 BIG-IP

• Nortel Alteon Switch

• NetApp Filer

• EMC Celerra, Clariion,

• Symmetrix

• Pillar Axiom

• Onaro SANScreen

操作系统

主机

• IBM• HP• Sun

• Oracle Linux

• All Unix

• Microsoft

虚拟服务器

• Oracle VM

• VMWare

• Oracle Fusion Middleware

• Oracle WebLogic

• IBM WebSphere

• MS .NET

• MS BizTalk Server

• MS IIS

• MS Commerce Server

• MS ISA Server

• MS Active Directory

• JBoss AS

• IBM MQ Series

• Tomcat

网络应用

• Oracle Applications• Oracle Beehive

• Oracle Siebel

• Microsoft Exchange