公务员期刊网 论文中心 正文

计算机信息故障管理分析

计算机信息故障管理分析

1引言

保证信息系统运行顺畅,是如今企事业单位进行信息化建设时都希望达到的目的。但由于人力、技术、资源、管理等方面的限制,让“IT业务系统运行无忧”成为不可遇也难求的终极目标。即使是电信、金融等信息化工作相对领先的行业,也难以保证自己的信息业务可以高枕无忧。根据国家权威统计数据,20%的信息系统故障来源于系统原因,70%来源于管理原因,因此,如何进行有效的故障管理是系统维护过程中一项非常重要的工作。

2故障管理的概念

在信息系统运行的过程中,不可避免会出现一些由于系统自身问题,或者是任何不符合标准的操作规程、已经发生或者可能发生的系统运行中止和服务质量下降的事件,这就是故障。常见的故障分为硬件以及设备故障、应用系统故障、请求服务与操作故障三类。故障处理是指在发生故障时为尽快恢复系统服务而采取的必要的技术或者管理办法的过程。故障管理的主要目的是尽可能快地恢复服务级别协议规定的水准,尽量减少故障对业务运营的不利影响,以确保最好的服务质量和可用性。在故障管理中,影响度、紧迫性和优先级是三个描述故障的特性,他们联系紧密而又相互区分。故障管理包含了故障监视、故障调研、故障支持、恢复处理、故障终止五项基本活动。为了实现对故障流程的完善管理,需要对故障管理的整个流程进行追踪,并做出相应的记录。故障监视是故障管理流程的第一项基础活动,大多数故障都是在故障监视活动中发现的。下面主要讨论故障监视在故障管理中的作用以及恢复处理的几种形式。

3监视的内容和方法

3.1故障原因

故障原因一般分为:

(1)技术因素,包括硬件、操作软件系统、环境因素及灾难性的事故;

(2)应用性故障,包括性能问题、应用缺陷(bug)及系统应用变更;

(3)操作故障,人为地未进行必要的操作或进行了错误操作。

3.2监视的内容

从故障的原因分类来看,人员、规范操作的执行、系统硬件和软件是故障监视的重点内容。另外,自然灾害因素由于难以预计和控制,需要进行相关风险分析,可采取容灾防范措施来应对。

3.3监视方法

(1)对系统硬件及设备的监视包括各主机服务器及其主要部件、专门的存储设备、网络交换机、路由器等。对硬件设备监控的方法主要是采用通用或者专用的管理监控工具,它们通常具有自动监测、跟踪和报警的功能。

(2)对软件的监视主要是针对其应用性能、软件Bug和变更需求。对软件的性能监控也可以借助一些管理监控工具,但由于应用系统主要面向用户,应用系统的缺陷通常由专门的测试工程师负责监视,或者在使用过程中由用户方发现并提出。变更需求也是在用户使用和监视二合一的过程中发现的。

(3)需要监视的人员包括系统操作员、系统开发工程师、用户、来访者、甚至包括系统所在机房的清洁工和运输公司的职工等。要对他们与系统的接触过程中的行为进行跟踪和记录,防止或者及早发现非标准的操作带来的系统故障或者服务故障。

4恢复作业的准备、恢复处理的形式

恢复作业前需要明确,故障是由系统本身的问题引起的还是非标准操作事件引起的。故障管理流程主要用于控制非标准操作事件方面的控制,而对于系统本身出现的问题,需要考虑有针对性的恢复处理策略和形式。如计算机发生故障导致系统不能运行则应停机进行临时性维修。首先要区分是软件故障还是硬件设备的故障。软件故障可能是因为系统软件的某个环节在特定组合条件下不能正常运行引起的,也可能是由多种作业在运行中因争夺资源而出现“死锁”等原因造成的。这类故障一般可采用重启系统或者其他人工干预手段予以恢复和排除。如果是设备性能变差引起的硬件故障,则应切换到备用系统,尽快恢复系统服务。然后使用测试程序检测故障机的各个部件,特别是中央处理器和磁盘存储器两个部件(输入/输出部件一般不至于影响整个系统的正常运行),尽快进行故障定位,然后针对故障部位进行后续维修。

5各类故障的恢复

5.1主机故障的恢复

主机故障一般需要启用系统备份进行恢复。根据所提供的备份类型不同,主机服务可分为热重启(HotRestart)、暖启动(WarmRestart)和冷启动(ColdRestart)三种。热启动服务专门针对客户暂时的系统故障,提供立即恢复系统可用性的服务,以完成客户某些紧急的任务。热启动的恢复时间最快,但也最难实现。暖启动与热启动类似,该模式下的应用程序保存系统当前运行的状态信息。冷启动服务提供商专门解决那些长期的系统问题,冷启动是最易于实现的,但是需要最长的启动时间。冷启动意味着备份部件对故障部件的运行状态一无所知,备份部件只能从初始化状态开始。

5.2数据库故障的恢复

当系统运行过程中发生故障,利用数据库后备副本和日志文件就可以将数据库恢复到故障前的某一致性状态。数据库故障主要分为事务故障、系统故障和介质故障,不同的故障的恢复方法也不同。事务故障是指事务在运行至正常终点前被终止,此时数据库可能处于不正确的状态,恢复程序要在不影响其他事务运行的情况下强行回滚(Rollback)该事务,即撤销该事务已经做出的任何对数据库的修改,使得事务好像完全没有启动一样。事务故障的恢复由系统自动完成。系统故障是指造成系统停止运转的任何事件,使系统需要重新启动。系统故障常被称为软故障,介质故障常被称为硬故障。硬故障是指外存故障,如硬盘损坏、磁头碰撞、瞬时强磁场干扰等。

5.3网络故障的恢复

当遇到线路故障或者是网络连接问题时,需要利用备用电路或者改变通信路径等恢复方法,具体的途径包括双主干、开关控制技术、路由器、通信中件等。

5.4相关设备故障的恢复

针对系统的其他相关设备的故障,因分析查找设备有关技术与非技术上的故障原因,如需要应与供应商取得联系。进行设备维修、调换、更新后,使设备运行正常。

5.5作业非正常情况的恢复

计算机系统中硬件的故障、软件的错误、操作员的失误及恶意的破坏是不可避免的,这些故障轻则造成事务的非正常中止,重则破坏数据库,使数据库全部或部分数据丢失,所以要考虑作业非正常情况下的恢复。日志文件是用来记录事务对数据库的更新操作的文件,对于作业非正常情况的恢复非常有帮助。