公务员期刊网 论文中心 正文

集团公司信息系统运维工作思考探析

集团公司信息系统运维工作思考探析

摘要:本文阐述了中国铁路哈尔滨局集团有限公司信息系统运维工作现状,分析了运维工作取得的成绩和存在的不足,提出了改善信息系统运维工作的七点建议。

关键词:信息系统;运维平台

1引言

随着信息技术在中国铁路哈尔滨局集团有限公司(以下简称“集团公司”)安全生产、运输组织、客货营销等领域的广泛应用,信息系统逐渐成为各项业务活动的重要组成部分,信息系统一旦发生故障,将严重影响正常的生产和经营活动,造成重大社会影响或经济损失。为适应各项业务开展高度依赖信息化现状,有效防范化解信息系统故障风险,保障业务的连续性,提升对信息安全事件的处置能力,确保信息系统安全稳定运行,需要切实提高信息系统运行维护水平。随着集团公司不断整治信息系统及基础运行环境设施,信息系统故障频率大幅降低,故障处置效率不断提升,为重要信息系统安全稳定运行奠定了坚实的基础。

2信息化运维工作基本情况

信息系统是运维主要服务对象,信息化基础设备、设施是运维工作的基础,集团公司目前已经对信息化设备、设施和信息系统进行了清理,建立了管理台账,并明确了各信息系统的运维负责单位和运维方式。

2.1集团公司信息化设备设施情况

(1)信息机房情况集团公司共有94处重要信息机房,其中:集团公司数据中心(信息机房)2处,车务信息机房58处,机务信息机房6处,车辆信息机房5处,工务信息机房10处,电务信息机房4处,房产信息机房3处,客运信息机房3处,供电信息机房3处。

(2)重要信息系统情况集团公司目前正在应用的重要信息系统共299个,其中235个信息系统由信息技术所运维,其余由站段负责运维。

(3)信息设备情况集团公司信息机房部署设备共计1498台,其中小型机和服务器629台、存储108台。各站段部署设备共计2769台,其中小型机和服务器557台、存储20台。

2.2集团公司信息系统运维体系

集团公司信息系统由集团公司、站段两级负责运行维护,日常维护工作按照职责分工分级负责,信息技术所负责集团公司级信息系统运行维护工作,站段负责本单位信息系统日常维护工作。

2.3集团公司运维工作情况

信息系统运维工作采用信息部门自行维护和委外维护相结合的方式。

(1)硬件设备采取三种方式进行维护小型机、重要服务器、存储、核心交换机、UPS、空调等采取委外运维方式,由专业维保商进行维护;部分服务器、终端、打印机采取故障修方式,由维修公司进行维修;其余设备采用自主维修维护或者设备故障更换方式。

(2)系统软件采取两种方式进行维护对于重要信息系统数据库采用委外维护方式,由维保商进行维护;操作系统、中间件和非核心系统数据库采用自主维护方式,由信息技术所和站段运维人员自主维护,信息技术所对站段提供技术支持。

(3)应用软件采用三种方式进行维护部分重要信息系统采用委外维护方式,由维保商进行维护;部分系统由系统研发单位负责免费维护;其余采取自主维护方式,由信息技术所和站段运维人员负责维护,信息技术所对站段提供技术支持。

3系统运维工作存在的不足

集团公司信息化工作基本保持平稳有序,近三年来未出现重大运维安全故障,较好的保障了集团公司各项业务的开展,但运维工作仍然存在一些不足,有很大的改进空间。

(1)运维规章制度落实不彻底信息系统运维管理办法没有得到有效执行,虽然制定了年度运维计划,但没有起到应急演练作用,仅仅随着施工进行局部演练,同时信息系统故障存在隐匿不报现象,这些都给信息系统运维工作带来安全隐患。

(2)信息设备部署过于分散当前信息化设备部署分散情况非常普遍,基本每个基层站段都有信息机房,都有专人维护,由于机房过多,造成部分机房质量不达标,不能满足信息化设备运行的基本条件,同时信息技术所机房存在大量空闲空间,因此优化信息化设备部署结构是今后一个时期的重点工作。

(3)运维人员能力无法满足需求随着信息系统在集团公司业务领域的应用不断深入,规模逐步扩大,对运维人员的专业水平要求越来越高,目前运维人员不能完全掌握相关专业知识,无论是小型机、服务器等硬件,还是数据库、中间件等系统软件,甚至旅服系统、防灾系统、客票系统等应用软件都依赖外部维保商提供运维服务,对维保商的依赖性极强,核心系统运维不掌握在自己手中,给我们的信息系统运维工作带来极大困难。

(4)交付运维环节存在欠缺现行信息系统在投入运用、交付运维方面存在问题,信息工程竣工验收和信息系统研发完成交付运维单位运行维护前,普遍存在竣工资料和交接手续不完善,项目文档资料严重缺失,缺少必要的培训,系统存在安全隐患等问题,给后期系统维护及日常管理工作造成很大困难,运维单位缺乏网络拓扑图、系统构成图、机房配线图、软件维护手册等资料,无法高质量开展运维工作,给信息系统安全运行带来威胁。

(5)对站段业务指导不够信息技术所承担对基层站段的信息化专业指导职能,但随着武清数据中心的启用和铁科院承担铁路主要信息系统研发职能的转变,信息技术所对信息系统的掌握程度逐步下降,且信息系统逐渐增多后,信息技术所的技术支持人员力量不足问题凸显,对站段的技术指导弱化,不能满足站段在技术支持方面的需求,影响信息系统的运维质量。

(6)运行环境监控能力不足信息技术所的运行环境监控能力相对较好,站段对信息机房运行环境日常监控能力普遍不足,部分站段信息机房没有环境监控系统,机房日常环境监控主要依靠人工值班巡检,有环境监控系统的站段也存在运用水平不高问题,运行环境监控问题大大降低机房环境巡检质量及安全事件应急处置能力。

4对运维工作的几点建议

为了提高集团公司信息系统运维工作质量,有效提升信息系统运行稳定性,对信息系统运维工作提出七点建议。

(1)从运维结构角度推行集中化随着两网融合工作的推进,网络带宽大幅提升,为集团公司信息化设备集中部署创造了网络条件。集团公司信息技术所新信息机房投入运用,原有信息机房空闲大量空间,为信息化设备集中部署创造了设备设施条件。当前完全具备将站段信息化设备上移至集团公司信息技术所机房的条件,下一步建议把设备集中部署作为运维重点工作,通过设备的集中化部署,既可大幅减少站段机房和运维人员数量,优化信息系统运维结构,实现信息化运维集约化管理,又可利用信息技术所标准化机房和运维人员专业能力强的客观优势,提升设备运行环境和运维质量,提高信息系统运行稳定性。

(2)从运维管理角度推行台帐化信息系统运维的基础是设备、设施、网络、电源的底数要清晰,信息化设备种类较多,不同设备的检查、维护周期不同,需要对信息化设备建立设备台账和巡检台账,对信息化网络建立拓扑图和配线图,对机房机架建立设备部署示意图,对电源、UPS、PDU建立布线图和检修台账,对动环系统建立巡检台账,这些是信息化运维的基础性工作。建议对运维进行台账化管理,建立信息化运维管理信息系统,实施信息化设备设施的全面信息化管理,对设备的型号、配置参数、厂商、运维方式、维保商、巡检记录、维修记录、故障应急方案等进行全面管理,从而为运维工作奠定坚实基础。

(3)从设备应用角度推行虚拟化集团公司现有信息化设备4000余台,其中服务器、小型机和存储设备1200余台,这些设备需要大量的机房空间并配合双路电源、空调以满足设备运行需求,对集团公司无论是投资还是运维都是较大负担,而且这些设备平时使用率往往低于10%,存在大量浪费情况。虚拟化和私有云平台是提高设备利用率、减少设备使用量的有效方式。集团公司采用小型机虚拟化技术,1台小型机可以虚拟出4至8台小型机,采用服务虚拟化技术,1台服务器可以虚拟出16至32台服务器,不仅有效节省了集团公司有限的信息化投资,而且节省了大量机房和配套设施,建议加大虚拟化云平台建设力度,充分利用私有云技术打造集团公司云数据中心。

(4)从日常维护角度推行平台化各信息部门需要运维的设备和系统数量较大,而且随着信息系统不断整合,系统越来越复杂,如果还依赖传统的人工巡检方式已经很难满足信息系统运维要求。建议建设集团公司信息系统运维管理平台,采用成熟技术将日常巡检、运行状态监控、故障监控、性能监控、资源监控、运行环境监控等大量重复性工作由过去的人工执行逐步转变为自动化操作,实现自动报警,从而做到及时发现问题,减少运维中的延迟,降低故障发生几率,减少故障处置时间。同时运维管理平台应具备运维知识库功能,将历史故障处理案例进行详细描述和记载,为后续信息化设备故障处理提供参考,提高运维工作效率。

(5)从故障处理角度推行清单化重要信息系统都建立了应急预案,对信息系统的故障处理有详细的处理流程,可以在故障发生时按照预案进行处置,但预案一般更强调故障处理过程,对故障处理的具体操作指导性不强,当故障发生时,运维人员往往比较紧张,容易犯一些常见错误,给故障处理带来不必要的损失。建议借鉴外科手术清单方式,给每个信息系统建立故障处理清单,清单按照“简单至上”原则列出故障处置的步骤和注意事项,并确定故障处置核对人,在运维人员进行故障处置时,一方面可以提醒运维人员不要错过关键步骤,另一方面有专人核对提醒,避免由于处置不当,而将故障人为放大,错过故障处理最佳时机。

(6)从人员能力角度推行专业化现阶段信息系统运维人员一般都是系统的开发或者实施人员,这些人参与了系统的研发建设,对系统比较熟悉,能够胜任运维工作,但是研发人员往往承担多项任务,随着多年来不断参与研发,需要负责运维的项目会很多,造成没有精力负责所有系统的维护,一方面造成对负责运维的系统维护不及时,另一方面也由于精力分散而不能全力投入应用软件研发工作中,弊端很大。建议推行专业化运维队伍建设,负责研发的人员仅负责研发和系统功能性升级,将日常运维工作交由专业运维人员负责,研发转运维阶段通过详细的交接文档和专项培训,确保运维人员具备系统运维能力,通过推行运维人员专业化,一方面可以将研发人员从日常运维工作中解放出来,专心从事研发工作,另一方面运维人员可以负责多个项目的维护工作,做到分工负责、各司其职,提高运维工作质量。(7)从应急指挥角度推行调度化重要信息系统一旦出现故障,需要组织多方面的力量进行应急处置,信息部门按照应急预案启动应急程序,调动相关人员判断故障原因,甚至需要请行业专家参与故障排查,进行必要的处置,业务管理部门启动专业应急方案,组织人员脱离信息系统进行业务组织,这个过程是紧张且时间紧迫的,需要各部门做好协调。一旦故障排除,也需要信息部门确认并第一时间通知业务部门,其间一旦沟通协调不到位,就会发生应急指挥失误,造成业务损失和经济损失。建议建立信息系统应急调度指挥机制,通过统一的调度管理,实现运维人员、应急资源、应急协调的统一指挥,并指挥进行统一应急评估,启动应急预案等工作,通过统一调度,使信息系统故障应急工作有序开展。

5结束语

信息系统运维是信息系统应用的重要组成部分,决定信息系统应用效果,如果没有运维好,建得再好的系统也产生不了业务价值。因此需要信息技术部门高度重视信息系统运维工作,通过加强信息系统运维,提高系统运行稳定性,降低系统故障发生率,缩短故障处置时间,并以适当方式建立应急备份和容灾系统,保障信息系统不间断运行,加强信息系统对集团公司各项业务的支持和保障,为集团公司各项业务开展提供优质、稳定的信息化服务。

作者:刘其韬 陈国剑 单位:中国铁路哈尔滨局集团有限公司数据分析中心