从电商业务瘫痪看IT运维的重要性
2015年5月28日,国内某知名互联网旅游服务企业因“内部错误操作”宕机瘫痪近12小时,所有业务无法正常办理,这是继前一日国内某电商巨头因“光纤被挖断”大规模服务中断后,又一重大网络事件。后经该旅游服务企业技术部门排查,确认此次事件是由于内部员工错误操作而删除了生产服务器上的执行代码导致。
这次事故,无疑让企业信誉和经济都遭受到巨大损失。互联网+时代,业务连续性就是企业的生命线,现代企业的信息化管理必须拥有连贯性和持续性,每一个环节出现问题都会造成灾难性后果。这些接连发生的业务瘫痪事件,对于越来越依赖网络的企业来说,着实上了深刻的一课,也提醒信息管理者重视信息化监控管理。
重视监控管理流程
现代企业的IT运维非常复杂,然而出错的地方往往却在最简单的环节,这只能说是监控管理和流程方面尚不够完善,缺乏有效的自动化运维支撑。对于一个海量、大规模的信息系统,管理和流程的优化梳理要倚重运维人员的技术和经验,特别是在执行一些日常性的、非决策性判断的工作时,管理机制和自动化监控措施就显得非常重要。现如今,企业的产品迭代速度越来越快,小到一个系统补丁升级的操作流程,大到产品重构的管理,都必须要有高效监控系统的介入,去除人的因素影响,避免人为失误。建立跟踪报警完备机制
业务瘫痪在技术层面进行分析,企业的业务系统往往会有各种应用以及相应的接口,如果没有严格的管理策略和严密的监控,则很难主动发现问题,比如性能下降、故障隐患等。基于业务系统建立长效跟踪的预警分析,提供基础架构的完备性和保障措施,但这依然不是高级别的完备机制,毕竟没有确保系统发生不测的万全之策。必要的预警、报警技术手段不能忽视,因此,IT运维监控产品必不可少。事故一旦发生后,立即报警通知管理员并查明原因,并给上级管理部门提供后续追踪、考核运维工作的依据和手段。IT运维所经历的阶段
按照运维的发展成熟度来看,其发展过程大致可分为如下三个阶段:运维方式 | 运维规模 | 效率 | 工作量 | 协作及规范 |
---|---|---|---|---|
纯手工 | 小(<50台) | 低下 | 较大 | 较难 |
脚本化 | 中(50-500台) | 一般 | 较大 | 适中 |
专业系统 | 大(>500台) | 高效 | 很少 | 容易 |
如何选择IT运维产品
太阳网信息技术(solarware.cn)根据十年以上的运维经验,将长期积累的运维脚本或合适的系统配置参数,动态有机的应用到客户需要的地方,就像注入客户庞大IT系统的一滴滴润滑油,并提供全局化的广度管理、查看、跟踪、报警等综合手段,以保护和管理客户的IT基础设施并帮助其优化性能,最大限度参与到企业信息化建设过程中,帮助企业实现互联网+转型,推动企业的业务增长与投资回报。通过太阳网的综合运维网管软件,可以自动化执行如下日常运维工作:
- 设备状态监控:对CPU、MEM、DISK、Network I/O等参数状态进行实时监控,发现异常则告警通知管理员;
- 业务监控:对业务页面或系统接口进行循环拨测,发现异常则告警通知管理员;
- 补丁更新:自动进行应用及系统补丁的更新;
- 数据备份:自动对业务数据、日志、文件等,进行快速备份(本地与异地);
- 过期数据清理:自动清理过期数据,以避免重要信息的泄漏,并减少存储资源消耗;
- 其他操作:一些操作过程复杂枯燥,还容易出错,可以脚本化以自动执行。