【分享】从被动到主动:我的标准化运维工作小记

文/武汉市交通学校现场驻点服务人员 贾春雨)

 

DAY1:学校对运维的期望

 

走进信息中心机房,宽敞明亮的空间、科技感的大屏幕、整洁的设备机柜让人眼前一亮。我虽见惯了很多中大型企业的机房,但看到眼前整洁的一幕,确实出乎了我的预料。今天,我接到公司新的运维项目,来到了武汉市交通学校开展运维工作。负责运维工作的老师熟练的向我介绍着机房的各部分业务功能,他对我们公司的运维工作充满期待,希望我们能放开手脚,带给他们一些全新的运维理念和成果。此时我更是倍感压力,学校之所以选择我们就是希望我们的运维能够为他们带来一些全新的价值。

 

 

 

 

DAY5:标准化的转变

 

经过最初几天的运维开局工作,我发现学校信息中心的配置管理做的还是非常到位的,他们对于每一个设备、每一套系统、包括每一根线缆的位置和运行状态都轻车熟路,并且都有相应的文档资料可以提供,但这些资料比较零散缺乏系统的归档和整理,个别文档没有及时更新到最新状态。按照公司的运维开局标准化要求,并根据ITSS框架,我逐一对文档进行了整理,对还没有的文档进行新建和编辑。

 

 

和很多高校一样,学校对运维标准化工作并不是不会做,而是不知从哪里着手,缺乏对于运维架构和体系的理解,缺乏按运维体系的目录进行归档和实践。我深知,运维标准化并不是什么高大上的理论,它和我们日常工作密不可分,ITSS标准和流程也不可能完全套在任何组织,它只是给我们提供了运维框架,我们可以根据各自的情况去找适合落地的地方进行尝试和实践。我们不能说一家五百强企业的标准化一定就比一般的企业或组织做的更好,反之这家普通的企业或组织很可能在运维价值的获得上要优于对方。

 

本着这个思路,在接下来的工作中我不断与客户进行运维体系的沟通,将我们现有的工作内容和运维体系进行关联,并让客户明确运维体系带来的价值,我反复和客户说:报修记录就是事件管理,它帮助我们对日常报修事件进行分派、处理、直到完成,并对这些数据进行存储和查询,年底的时候可以根据事件记录进行分析和来年运维的优化,没有运维数据何来优化,从哪里优化呢?而问题管理就是我们反复出现的故障事件,它会不定期的刺痛一下我们,就算我们暂时无法根治它,但大家都必须掌握如何临时解决问题的方法,之后还要继续研究如何彻底解决它。变更管理实际上是帮助我们在影响范围较大的变动时,有一个风险评估和回滚方案的支持,使我们不会因为团队一个人的失误造成大的损失。

 

就这样,在学校信息中心老师的大力支持下,事件管理、问题管理、变更管理在学校逐渐落地生根。让原本没有任何联系的文档,进行了系统的归纳和总结,形成了学校自有的一套技术文档知识库。同时,在起步阶段并没有更新一系列流程以及大刀阔斧的改革,而是把运维过程中最关键的部分实现了从无到有,比如日报、周报、定期巡检报告等等。通过这些内容的提炼,帮助学校从平视到俯视所有运维工作,进一步有了优化运维管理的方向。

 

 

DAY30:一个"信息委员"的作用

 

随着新学期的开始,教室多媒体设备的报修事件逐渐增多,这样的问题直接影响到老师上课,而从现场报修到解决问题会耗费不少的时间。经过类似事件分析,我们发现出现的都是比较简单的操作类故障,比如线缆被拔出、电源未插好,也包括一些用户使用上的咨询等。由于刚开学不久,加上新班级对现有设备的使用不是很熟悉,导致报修量不小。作为运维人员,这些反复出现的“低级”故障耗费了我们大部分时间,我们开始思考,如果将这些故障对各个班级使用者进行培训该有多好。

 

我们将这个想法和信息中心人员进行了探讨,信息中心认为,这个提议是很有价值的,但要解决两个问题,一是培训谁?二是对方凭什么配合你。经过讨论,我们计划在全校各个班级选出“信息委员”代表,由有意愿学习网络和电脑知识的学生来担任,这样就能对他们进行培训,通过他们掌握简单的操作来最大限度的降低上课过程中出现的设备故障,第一时间恢复老师上课,同时,这些“信息委员”还能学到相应的IT类知识,并且通过校企合作,表现优异的学生也会被推荐到技术类的就业岗位,从而达到双赢。

 

 

该提议受到了学校信息中心的大力支持,并很迅速的协调学工部对各班级进行“信息委员”的征集工作,每个班选出一个委员。经过集体培训以及QQ群内的及时沟通,一段时间的磨合后,各教室的故障明显减少,“信息委员”起到了关键性作用。从这件事上,让我更深刻的体会到,以用户需求的角度去解决问题是非常必要的。直到今天,学生信息化团队QQ群里依然每天都在沟通各种故障问题,另外,学生配合的一些大规模的批量设备测试工作也帮我们提升了工作效率,就这样一个小小的信息委员切实提升了用户体验。

 

 

几个月后:主动运维的起点

 

学校的统一登录认证平台是最重要的应用系统,每天晨检我们都会手动登录并测试系统状态是否正常,但是除了晨检的其他时段出现无法访问的状况就无法第一时间得知,很多次都是用户报修后我们才着手解决问题。针对这个情况,按照公司的安全运维内容,我们给客户建议了安全监测服务,通过学校的授权,将官网和统一登录平台实时的监测起来,在出现系统无法访问的时候,监测平台会推送微信或者手机短信进行提醒,让学校第一时间知晓故障并有充分的时间去恢复故障。经过几个月的运行,因为能尽快的恢复故障,学校应用系统的平均无故障时间在逐渐变小。

 

 

经过总结,我们发现,之前是因为我们看不到系统故障的短时现象,可能偶尔几分钟或者十几分钟就又自动恢复了,碰到周末时间断线更是无从得知,如果单靠系统日志去查询和管理这些问题确实有很大的难度,而上线了安全监测服务后,学校能实时的监控到系统安全状态,并且能够监测到木马和紧急漏洞,整个系统的安全性也有了保障,我们也因为看见了未知的潜在风险而对运维工作更有信心了。

 

也许很多人会说,这从技术原理上来讲只是增加了一个心跳包的定期探测而已,也好拿出来分享吗?但我想说,看似一个小小的解决方案,却帮助学校从被动响应式的运维转变成了能发现潜在问题的主动运维。运维思路的改变对于一个组织来说意义重大。在工作上只有勇于改变才能创新,只有接受这小小的变化,对自己充分的肯定,才能在未来的工作中更加自信,更好的完成工作目标。

2021年1月7日 15:19
浏览量:0
收藏
首页    新闻资讯    【分享】从被动到主动:我的标准化运维工作小记