企业BSM:IT故障管理只凭经验 BSM难以落地

作者:IT新闻网 来源:IT新闻网 2012-02-01 11:37:59 阅读 我要评论 直达商品

在某合资企业,或是因为长期加班的压力、或是因为薪金问题,一位资格较老的IT工程师突然离职了。企业领导和其他同事除了惋惜之外也没有太好的办法,在做好交接工作之后,这件事也渐渐被淡忘。

虽说如今的硬件与软件系统都有各种各样的热备(HA)或应急方案,但随着IT系统和企业业务系统复杂性的不断提升,“没有故障的网络”似乎也只是IT人闲侃的一个神话了。IT故障隐患就在身边,如果一个企业的IT运维管理完全依赖于工程师的经验,这种人为因素过多的管理境界,IT运维管理恐怕永远会处于手工作坊的阶段。因此,大家都在匆忙寻找一味叫做BSM的解药,而能否有一个高效而准确的故障发现机制,能否进行有效率的根源分析,对于BSM“落地”而言,则是一个很重要的指标。

以“人”为本的IT运维故事

根据IDC之前提供的《中国业务服务管理(BSM)》资料,国内IT运维市场预计到2013年将达到47.9亿元的市场份额。业务扩容压力对高端运维人才的需求迅速增加,同时大量在线关键业务系统需要7X24小时稳定可靠运行的保障,这对IT运维管理团队的整体服务水平的提升要求越来越迫切。作为朝阳行业的IT运维,在一路高歌猛进的同时,也承受着高级IT运维人员频繁跳槽,离职率过高带来的一系列问题。

在某合资企业,或是因为长期加班的压力、或是因为薪金问题,一位资格较老的IT工程师突然离职了。企业领导和其他同事除了惋惜之外也没有太好的办法,在做好交接工作之后,这件事也渐渐被淡忘。

突然,企业总部的ERP系统出现了严重的故障,时断时通。IT运维部门上下齐心,从物理层查到了应用层,又从应用层查回到物理层设备,并且,大家也拿出之前这位离职工程师的文档研究起来。有人终于找到了这台服务器的故障记录,也发现了同样 “缓慢”的故障和处理方法。看似是一根救命稻草,但按照这个文档执行了数据库优化向导之后,故障还是没有解决。把人请回来?或者再请一个高人过来看看?

不知道你能从这个故事中看到什么?但从故障现象来看,有的网络故障解决办法是相通的,但从随时变化的网络架构和业务系统实际运行环境来看,解决相同现象的故障,方法可能迥然不同。如果我们在IT运维管理的过程中,过多的依靠个人英雄主义,最终会导致网络故障处理效率不高,并造成IT运维服务质量停滞不前的邋遢局面。

作为国内领先的IT运维管理专家,北塔软件认为:“依靠个人能力进行运维管理有许多缺点,比如无法做到事前发现、无法做到准确定位、故障原因可能出现误判、响应时间慢等等。核心业务和IT系统息息相关,一旦网络出现了故障,影响和损失非常巨大。但传统的管理模式只能导致出现问题后被动响应,而IT运维管理部门的真正价值并不是出现故障之后的处理,而是在故障发生前能够准确判断,排除隐患,并避免故障的发生。虽然很多企业发现了这个问题,并引入了BSM等理论作为支撑,但如何在这套理论下利用运维管理工具把BSM落地,摆脱人为因素的影响,这个课题也许在国内IT运维管理领域才刚刚开始。”

处理故障的三要素:精、准、快

BSM落地是体现IT部门价值的最佳途径,也就是说BSM建立后,IT部门是能做到对业务的透明管理。透明化监控业务系统运行情况,就能事先发现可能引起系统宕机故障或者访问质量无法保障的问题,把可能发生故障的隐患,通过业务系统的整体监控视图发现问题。那么,怎么才能让BSM落地呢?如何让故障处理不再成为手忙脚乱折腾,或者必须请来一个外来的和尚呢?北塔软件在其发布的北塔BTIM产品中包含了一个非常经典的“故障根源分析策略”,也许可以回答这个让多少人纠结的疑问。

“BTIM故障根源分析策略”是指:通过日常高频度监测少量关键指标,控制被管系统管理压力,一旦发现问题,依据实体业务流分析逻辑,按分析需要逐层扩大数据采集的深度和广度,层层深入,直达故障根源。也许这段内容对于很多刚刚接触IT运维管理的新人,或者说管理层来说有一些难以理解。但若把这个套理论归纳起来,就是要在故障处理时突出“精、准、快”这个三个字,便很容易了然。

精:是指业务日常健康指标实现精细化管理。如果我们业务系统所有发生的事件都没有遗漏的接收了下来,这特别是对一些疑难杂症的分析有帮助,可后期进行详细的分析。但在海量的业务事件中,快速的定位到事件的根源如同大海捞针。所以,“精”代表的是有挑选的记录,而不是全部。

准:是指故障定位准、分析原因准。比如北塔BTIM通过服务视图追踪支持业务应用的IT组件的性能和可用性,通过TFS管理系统,采用SNMP方式取得服务管理参数,实现对主机、数据库、中间件以及应用管理的实时监控,通过软件来监视服务,管理人员在业务层就能查看所有关键信息,并通过各层监控来融合管理功能。而一旦出现告警事件,管理人员就可以通过TFS故障诊断路径直接定位源头。

快:是指预警快、操作快和处理流程快。要想实现快,必须有前两项功能的支撑,不然在海量日志中翻腾、在故障原因前左顾右盼,这些势必影响故障处理的时间。另外,这里的快还包含了IT运维工具本身的操作效率,比如:自定义左右键响应事件,实现参考信息快速链接等等。当然,快还包括了遇到重大故障快速启动应急响应流程。

BSM不要误读“人”的作用

业务结构不断变化的本性造成运维实体复杂性的增加,而要实现BSM,也不是简单的靠人堆砌起来的运维体系。BSM的三要素是人员、流程和技术。人员因素是指企业需要清晰定义IT支持人员的角色职责,明确人员的技能等级,进行IT部门内部的梯队建设。绝对不能抛开人的因素,但也只有把这三方的元素紧密配合,才能从总体上提高IT服务管理的质量并达到最佳实践效果。


  推荐阅读

  夏普鸿海谈判陷入僵局 正拟新重组方案

对此方案,夏普中国投资公司公关室室长武桂力9月26日告诉本报记者:“夏普目前还没有对外公布新的裁员计划,依然是原来公布的5000人裁员计划,至于向银行方面提供的新的重组方案,以及新的融资,夏普的确在推进,但具>>>详细阅读


本文标题:企业BSM:IT故障管理只凭经验 BSM难以落地

地址:http://www.lgo100.com/a/xie/20120201/115052.html

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度