公务员期刊网 精选范文 网络故障等级范文

网络故障等级精选(九篇)

网络故障等级

第1篇:网络故障等级范文

【关键词】多点故障信息的快速故障定位 多点故障信息的快速故障隔离 多点故障信息的快速故障恢复

配电网是智能电网的重要组成部分,智能配电网的建设目标是具有完备的故障自愈功能,能最大程度地p少配网故障对用户的影响,而且支持大量分布式电源的接入。但目前,配电网的网架结构薄弱,二次保护控制技术不够完善,使得配网停电事故时有发生。统计数据表明,电网中大约80%以上的故障发生在配电系统中。可见,配电网的保护控制及其故障自愈技术直接关系到整个配电系统的运行效率和终端用户的电能质量。

当前配电网的馈线自动化终端集中性控制方式和就地“电压-时间”型两种故障处理模式存在以下问题:

(1)仅由终端单元(FTU)实现,但不存在终端单元的信息交互,不能充分利用邻近节点的故障信息,故障定位准确度较低。

(2)具有主站和终端单元之间的信息交互,采用2G/3G/4G/无线通信或者网络/光纤通信方式方式,采用2G/3G/4G或无线通信方式主站与馈线自动化终端之间的通信速率低,并且通信缺乏稳定性、实时性,通信效率低;采用网络/光纤通信方式通信稳定、实时性强和效率高,但是故障定位算法及其他故障控制功能均由主站实现,无法满足智能配电网的实时性要求,控制效率不高,且不适用含有分布式电源的智能配电网。

(3)恢复供电时间较长。

(4)切除永久故障时,主供线路侧需要重合两次,使线路受到两次短路电流冲击,且波及线路对侧的用户,使其发生短时间陪停电。

(5)要对变电站馈线现有的保护及重合闸装置进行改进,使之与动作逻辑相适应,或另加馈线重合闸装置,增加了额外投资。

1 实现原理

1.1 分布式FA系统工作原理

高级馈线自动化终端(AFTU)之间利用光纤通信网络,构建基于IP对等通信的光纤网络,建立手拉手的链式网络通信通道,将快速故障定位、隔离与恢复策略植入AFTU中,实现各AFTU之间的相互通信、AFTU之间共享电路的电压、电气量信息、开关位置和故障状态等信息,利用多点故障信息的快速故障定位、故障隔离及供电恢复的通用型控制策略,适应有源配电网网络拓扑结构的变化,开关在获悉过流或失压信号后进行故障判断,从而将故障自动切除,并通过对等通讯得到手拉手链式通信网络高级馈线自动化终端(AFTU)组内其它开关已经切除的信息,然后每个开关将根据自己的位置自动决定是立即打开以便切除故障、隔离故障点,还是闭合并恢复对该线路正常区间的供电。高级馈线自动化终端通过点对点对等通信网络实现相互之间的信息交互,并向主站转发终端数据。在线路上发生故障时,利用对等通信网络各AFTU能够快速定位故障区段,实现故障检测信息与控制信息在相关智能终端之间的传递,无需馈线自动化主站/子站参与协调与控制,因此提高了故障自愈控制速度。

1.2 基于实时网络拓扑识别的联络开关身份确认方法

在分布式 FA 系统中,联络开关负责故障点下游非故障区段的供电恢复。在实际运行中,如果馈线运行方式改变,联络开关的位置也发生变化,需识别其位置。采用人工配置方式,工作量大,且在重新配置前系统需退出运行。通过检测常开开关两侧的电压可以识别联络开关,但需要在每一个分段开关的两侧安装电压互感器,投资大,经济性差。利用FA 系统中高级馈线自动化终端(AFTU)能够互相通信的特点,通过接力查询自动识别馈线的拓扑结构,可以克服以上2种方法的缺点。

为了实现馈线拓扑的自动识别,在分布式 FA系统中,需要为高级馈线自动化终端(AFTU)监控的当地开关配置开关性质信息,根据开关所处的位置,分为电源开关(出线断路器)、干线分段开关与支线开关3类。同时,为每一个当地开关配置相邻开关信息,包括相邻开关的名称及其所在高级馈线自动化终端(AFTU)的名称与通信地址。

当分段开关处的高级馈线自动化终端(AFTU)上电时所监控的开关处于“分”位,或在正常运行过程中由“合”位变为“分”位时,高级馈线自动化终端(AFTU)启动接力查询进行馈线拓扑自动识别,下面具体介绍接力查询方法与步骤。

步骤1:高级馈线自动化终端(AFTU)检测到某个分段开关处于 “分闸”状态,发起接力查询。

步骤2:首先查询该分段开关左侧实时干线拓扑结构。高级馈线自动化终端根据配置信息检测到该分段开关的当地左侧相邻干线开关。再根据配置信息,向该分段开关左侧的高级馈线自动化终端查询相邻干线分段开关的状态,以此类推,通过高级馈线自动化终端之间的通信、信息传递和接力查询,即可识别出干线分段开关名称及其动态拓扑关系。

步骤3:高级馈线自动化终端采用步骤2的方法,识别出联络开关与电源开关之间的干线分段开关名称及其动态拓扑关系。

步骤4:经过上述步骤,高级馈线自动化终端识别出馈线拓扑关系,区别出开关是干线分段开关还是联络开关。

步骤5:网络拓扑维护。如果网络静态拓扑发生变化,首先需要更新高级馈线自动化终端(AFTU)的配置信息,在相关高级馈线自动化终端(AFTU)的配置信息更新完毕后,发出“配置信息已更新”的消息。联络开关处的高级馈线自动化终端(AFTU)收到此信息后,重新进行实时馈线拓扑查询。

1.3 FA新型馈线自动化控制系统故障快速定位与隔离实现

检测到当地开关有故障电流流过的高级馈线自动化终端(AFTU),通过观察相邻开关是否有故障电流流过实现故障定位。如果一侧的相邻开关有故障电流流过,说明故障电流是穿越性的,则该相邻开关一侧的区段为非故障区段;如果一侧的相邻开关无故障电流流过,说明故障电流是注入性的,则该侧区段为故障区段。对于下游没有相邻开关的线路末端开关(如环网柜出线开关),当高级馈线自动化终端(AFTU)检测到其有故障电流流过时,直接判断故障在下游。

在确定故障区段后,故障区段上游边界开关处的高级馈线自动化终端(AFTU)发出跳开本地开关的命令,并通知其相邻的下游开关跳闸,隔离故障。在确认故障区段所有的边界开关都跳开后,发出“故障隔离成功”的信息。

1.4 高馈线自动化终端故障隔离判断

对于手拉手运行的馈线线路,高级馈线自动化终端故障识别的处理过程为:

(1)当馈线发生短路故障时,线路上所有检测到故障电流大于纵联启动电流定值的AFTU终端模块置纵联启动标,小于纵联启动电流定值的AFTU终端模块不置纵联启动标志,他们都将其标志信息通过光纤通信在2-3ms内发给两侧的高级馈线自动化终端模块;

(2)各个高级馈线自动化终端根据自己检测到的保护电流判断自身的状态,如果故障电流大于纵联启动电流定值,且两侧高级馈线自动化终端模块传送过来的纵联启动标志中,有一侧有效,一侧无效,装置在经设定延时到后发自己跳闸的命令,

(3)高级馈线自动化终端模块在第一次跳闸后会重合,对于瞬时性故障,恢复供电;

对于永久性故障,重合闸后会加速再次跳闸,而且该AFTU终端模块会向相邻的纵联保护未启动侧发分闸命令,将故障隔离。

由以上高级馈线自动化终端模块故障隔离的过程可知,馈线上的每一个高级馈线自动化终端模块都可以作为故障隔离的主机,这取决于故障的位置,一般为离故障最近的高级馈线自动化终端模块。

2 分布式FA供电恢复控制策略

2.1 分布式FA供电恢复原理

现有的分布式 FA 系统,假设在供电恢复过程中联络电源备用容量充足,不考虑非故障区段的负载容量是否会超过备用容量。而实际运行中联络电源备用容量可能不足,因此在供电恢复过程中需要检查备用容量是否满足要求,并在备用容量不足时根据故障前负荷情况最大范围地恢复供电。

现有的配电网自动化系统中,往往只测量线路开关的电流,无法计算非故障区段的负荷功率及联络电源的备用功率容量。本项目中利用线路的负荷电流估算负荷功率并进行安全性校验,基于广域信息的供电恢复控制策略详细介绍如下。

正常运行时,高级馈线自动化终端(AFTU)测量并保存当地开关的负荷电流,故障发生后,在进行供电恢复操作前,联络开关处高级馈线自动化终端(AFTU)根据故障隔离信息及馈线拓扑结构识别出故障点下游非故障区段,并从非故障区段的高级馈线自动化终端(AFTU)处获取各个开关故障前负荷电流值;从备供电源开关的高级馈线自动化终端(AFTU)获取其故障前负荷电流,根据负荷电流与额定电流(最大允许电流) 差值,计算出备供电流裕量。将备供电流裕量与总的非故障区段电流相比较,即可判断备供容量是否满足要求。如果备供不足,可根据备供电源不过流以及恢复供电范围最大的原则,确定需要恢复供电的区段。

故障点上游的非故障区段由变电站出线开关合闸恢复供电。变电站出线开关处的高级馈线自动化终端(AFTU)在接收到“故障隔离成功”的消息后,如果故障不在变电站出线开关相邻区段上,则控制变电站出线开关合闸,恢复故障点上游非故障区段供电。

故障点下游的非故障区段,联络开关处的高级馈线自动化终端(AFTU)在接收到“故障隔离成功”的消息后,若故障区段位于馈线干线上,且不是联络开关相邻区段时,高级馈线自动化终端(AFTU)控制联络开关合闸,恢复故障点下游非故障区段供电。

2.2 可转供区域供电恢复策略

当故障隔离成功后,两侧的AFTU会带着隔离信息(过流、命令、动作)向上(或下)一个AFTU传递信息,联络断路器处的AFTU收到信息并检测到断路器两端一端有压另一端无压,AFTU发出合闸命令,合上联络断路器,无故障停电区域恢复供电。

2.3 故障抢修后的恢复供电策略

故障抢修完毕,可采用两种方式恢复供电:

(1)主站遥控恢复供电,主站遥控先断粤络断路器,再依次合上故障点上下游侧的断路器,恢复以前的供电模式。

(2)AFTU就地控制恢复供电,操作AFTU先断开联络断路器,再依次合上故障点上下游侧的断路器,恢复以前的供电模式。

3 一种基于馈线拓扑自动识别的分布式 FA 控制方法实现方案

XXXX供电公司示范工程建设满足多电源、多联络、多分支网状连接的要求,典型网络图如图1。

智能分布式FA系统在满足典型网络图的运行方式下,在所有智能分布式开关在远方位置时,智能分布式FA系统投入运行。在此典型网络结构中,在不同故障点发生故障时,智能分布式FA的动作过程将详细说明如下。

3.1 当F1点发生故障时故障定位、隔离与供电恢复控制策略实现

(1)当发生瞬时性故障时,城北线N05塔开关跳闸,按照定值设定(3秒),一次重合闸成功,供电恢复。智能分布式FA不动作。

(2)当发生永久性故障时,城北线N05塔开关跳闸,按照定值设定,一次重合闸后,重合到故障上,城北线N05塔开关再次跳闸。智能分布式FA开始动作,将罗伟邑支线N50-1杆开关、母屯线N36塔开关分闸,隔离故障,之后将母屯线N46塔开关合上,供电恢复,母屯线N09和母屯线N39保持原始状态。(加两次故障电流,第一次加的时候,立马跳闸,城北线N05塔开关跳闸,按照定值设定(3秒),一次重合闸(罗伟邑支线N50-1、母屯线N36、母屯线N46不跳闸),一次重合闸后,重合到故障上,城北线N05塔开关再次跳闸,FA开始动作,将罗伟邑支线N50-1杆开关、母屯线N36塔开关分闸,隔离故障,1分钟后将母屯线N46塔开关合上,供电恢复,母屯线N09和母屯线N39保持原始状态。

3.2 当F2点发生故障时故障定位、隔离与供电恢复控制策略实现

(1)当发生瞬时性故障时,城北线N05塔开关跳闸,按照定值设定,一次重合闸成功,供电恢复。智能分布式FA不动作。

(2)当发生永久性故障时,城北线N05塔开关跳闸,按照定值设定,一次重合闸后,重合到故障上,城北线N05塔开关再次跳闸。智能分布式FA开始动作,将罗伟邑支线N50-1杆开关分闸,隔离故障,之后将城北线N05塔开关合上,供电恢复。

3.3 当F3点发生故障时故障定位、隔离与供电恢复控制策略实现

(1)当发生瞬时性故障时,城北线N05塔开关跳闸,按照定值设定,一次重合闸成功,供电恢复。智能分布式FA不动作。

(2)当发生永久性故障时,城北线N05塔开关跳闸,按照定值设定,一次重合闸后,重合到故障上,城北线N05塔开关再次跳闸。智能分布式FA开始动作,将母屯线N36塔开关分闸,隔离故障,之后将城北线N05塔开关合上,供电恢复。

3.4 当F4点发生故障时故障定位、隔离与供电恢复控制策略实现

(1)当发生瞬时性故障时,城中N06塔开关跳闸,按照定值设定,一次重合闸成功,供电恢复。智能分布式FA不动作。

(2)当发生永久性故障时,城中N06塔开关跳闸,按照定值设定,一次重合闸后,重合到故障上,城中N06塔开关再次跳闸。智能分布式FA开始动作,将城中线N69塔开关分闸,隔离故障,之后将城中N06塔开关合上,供电恢复。

3.5 当F5点发生故障时故障定位、隔离与供电恢复控制策略实现

(1)当发生瞬时性故障时,城中N06塔开关跳闸,按照定值设定,一次重合闸成功,供电恢复。智能分布式FA不幼鳌

(2)当发生永久性故障时,城中N06塔开关跳闸,按照定值设定,一次重合闸后,重合到故障上,城中N06塔开关再次跳闸。智能分布式FA开始动作,将城中线N69塔开关、城中线N44塔开关分闸,隔离故障,之后将城中N06塔开关、母屯线N46塔开关合上,供电恢复。

3.6 当F6点发生故障时故障定位、隔离与供电恢复控制策略实现

(1)当发生瞬时性故障时,城中N06塔开关跳闸,按照定值设定,一次重合闸成功,供电恢复。智能分布式FA不动作。

(2)当发生永久性故障时,城中N06塔开关跳闸,按照定值设定,一次重合闸后,重合到故障上,城中N06塔开关再次跳闸。智能分布式FA开始动作,将城中线N44塔开关分闸,隔离故障,之后将母屯线N46塔开关合上,供电恢复。

3.7 当F7点发生故障时故障定位、隔离与供电恢复控制策略实现

(1)当发生瞬时性故障时,隆鑫N03塔开关跳闸,按照定值设定,一次重合闸成功,供电恢复。智能分布式FA不动作。

(2)当发生永久性故障时,隆鑫N03塔开关跳闸,按照定值设定,一次重合闸后,重合到故障上,隆鑫N03塔开关再次跳闸。智能分布式FA开始动作,分析出故障以被隔离,无可恢复供电区域。

3.8 其他点发生故障时故障定位、隔离与供电恢复控制策略实现

当海北坪N66杆开关、母屯线N09塔开关、母屯线N39塔开关、城中线69-3塔开关在合位时,智能分布式FA系统认为有外电源进入,人为对电网进行调度,故智能分布式FA系统退出运行。

4 现场测试效果

通过在城北线N05塔断路器使用继保仪给高级馈线自动化终端加故障电流,模拟故障电流为A相23A,B相23A,第一次模拟瞬时性故障,城北线N05塔开关跳闸,按照定值设定(3秒),一次重合闸成功,供电恢复,与此同时罗伟邑支线N50-1杆开关、海北坪N66塔开关和母屯线N36塔开关保持原始合闸状态,测试结果满足项目的要求,达到预期目标;第二次模拟永久性故障,模拟故障电流为A相23A,B相23A,当第一次加故障电流时,城北线N05塔开关立马跳闸,按照定值设定(3秒),一次重合闸,罗伟邑支线N50-1开关、海北坪N66塔开关和母屯线N36开关不跳闸,保持原始状态,一次重合闸之后,第二次加故障电流,城北线N05塔重合闸到故障上,城北线N05塔开关再次跳闸,FA开始动作,将罗伟邑支线N50-1杆开关、母屯线N36塔开关分闸,隔离故障,5秒后将母屯线N46塔开关合上,城北线由母屯线N36反供电,城北线供电恢复,母屯线N09和母屯线N39保持原始状态,测试结果满足项目的要求,达到预期目标。

经过对项目的分布式FA模拟故障测试,测试结果与项目预期结果一致,从而验证了所开发的高级馈线自动化终端、快速保护控制算法以及通信方案的有效性和可行性,为项目的进一步推广应用提供了技术支撑和效果示范。

5 展望

基于广域信息与分布式智能技术,将保护功能分解为各个智能保护单元的简单动作规则,利用智能保护单元的本地信息及其邻域信息,快速判断故障位置,保证各个智能保护单元的选择性、可靠性、灵敏性和快速性,同时实现各个保护单元的后备与邻域保护单元之间的配合,利用分布式智能单元之间的对等通信,基于广域信息平台,根据上下游线路的电流是否越限、故障分量电流相位比较原理等,进行故障区段的定位与快速纵联保护,以克服分布式电源注入的故障电流的影响以及弱馈侧的保护问题; 高级馈线自动化终端通过点对点对等通信网络实现相互之间的信息交互,并向主站转发终端数据。在线路上发生故障时,利用对等通信网络各AFTU能够快速定位故障区段,实现故障检测信息与控制信息在相关智能终端之间的传递,无需馈线自动化主站/子站参与协调与控制,因此提高了故障自愈控制速度。根据开关所处的位置分为出线开关、中间开关与末端开关三大类,AFTU根据被监控开关的类型,将本地与相邻开关测量信息对比即可完成故障定位,能够准确区分干线与支路出线故障,无需完整地知道线路网络拓扑,因此整定配置简单,能够很好地适应配电网络拓扑变化; 设计基于IP对等通信的光纤通信方案,实现各AFTU间以及与馈线自动化主站之间的实时通信。在项目试点工程建设地铺设光纤网络,利用光纤通信网络,构建基于IP对等通信的光纤网络,实现各AFTU之间的相互通信,完成故障的快速定位、隔离与非故障区段的故障恢复,解决传统馈线自动化故障处理复杂、短时停电范围扩大等问题,同时利用先进的控制策略实现故障的快速自愈,这将显著提高配电系统的供电可靠性,减少停电时间,大大降低用户因停电所带来的损失,产生巨大的经济效益和社会效益。

作者简介

黄滇生(1956-),男,云南省大理市人。现为云南电网有限公司大理供电局技术专家、高级工程师。研究方向为复杂配网故障定位、隔离及供电恢复

杨文波(1968-),女,云南省大理市人。现为云南电网有限公司大理供电局高级工程师。研究方向为配网供电可靠性

张泽州(1973-),男,云南省大理市人。现为云南电网有限公司大理供电局高级工程师。研究方向为广域信息与分布式智能控制

王波(1974-),男,云南省大理市人。现为云南电网有限公司鹤庆供电公司工程师。研究方向为配网快速故障自愈

赵彪(1979-),男,云南省大理市人。现为云南电网有限公司鹤庆供电公司技师。研究方向为复杂配网故障定位、隔离及供电恢复

作者单位

第2篇:网络故障等级范文

焦孟孟

(中国人民解放军71320部队66分队,河南 开封 475000)

【摘要】本文利用仿真分析软件采集电路各种故障模式的特征数据,后将采集到的数据构造多层次的神经网络来进行诊断,最后使用虚拟仪器LabVIEW完成对整个流程的编程与控制,通过实际验证故障诊断正确率非常好。

关键词 BP神经网络;多级构架;Labview

【Abstract】Characteristics of the data we use simulation software acquisition circuit failure mode analysis, the neural network structure of multi-level data collected for diagnosis, finally, using the virtual instrument LabVIEW to complete the programming and control of the whole process, through the actual verification accuracy of fault diagnosis is very good.

【Key words】BP Multilevel;Framework;Labview

0引言

模拟电路故障诊断研究在军事领域率先兴起,随后在通讯、自动控制、电气化网络等领域掀起研究热潮,引起广大学者的兴趣,至今与电网分析和电网综合一起作为网络理论的重要分支[1]。国内外学者已提出的故障诊断理论和方法包括:神经网络、蚂蚁算法、主元分析、遗传算法、马氏距离、及其他故障诊断方法[2]。根据实际工作中对装备故障排除的方法与经验,本文在提出多级神经网络构造的思路上,并最终使用LabVIEW完成系统设计。

1多级神经网络的模型

模拟电路的故障诊断可以看作是故障分类问题。BP神经网络用于故障诊断的原理是:通过分析确定电路故障集,选择电路测试点对某一或多种特征参数进行测量,根据得到的数据进行BP神经网络训练,经过训练的网络即可对故障数据进行判断,识别故障类型,但是往往会存在这样的问题,故障集内总有几个故障非常类似,只有少量参数有所区别,造成网络对这类故障的识别率不高,本文针对这种问题提出多级神经网络的来解决。

1.1软件平台实现功能介绍

首先利用Pspice软件对电路进行器件灵敏度分析,找出器件故障时影响最大的参数,一般根据电路特性选择即可,如放大电路选择节点电压或信号幅值,锁相环电路选择节点电压或输出频率值等,然后利用蒙特卡罗分析功能(抵消器件容差的影响)对电路进行分析,输出故障数据到输出文件。

其次在Matlab设计程序对Pspice软件生成的数据进行读取,读取后的数据进行预处理后利用BP神经网络进行训练,训练完成后,利用训练好的网络对检验样本进行检验,利用诊断结果对故障模式进行再分类,组建成多个神经网络,以故障类型最多的神经网络为主网络,少的为子网络,并将子网络中的故障做为一类在主网络中进行体现。

最后,在Labview中利用MathScript节点实现对Matlab程序的调用,并通过图形化程序完成对多级神经网络的控制。

1.2多级神经网络构建步骤

第一步:对样本数据进行神经网络训练。

第二步:用测试样本检验是故障诊断结果。

第三步:若诊断结果无错误则结束训练。若存在错误,对诊断错误的故障类型进行分析,找出差异特征参数集M,和共同参数集N。

第四步:将诊断错误的故障类型合为一类与其它故障类型组成主网络故障集,特征参数使用N,诊断错误的故障类型使用参数集M组成子网络,分别进行训练。

第五步:若诊断结果无错误则结束训练,对主网络及子网络进行参数记录。若仍有错误,返回第一步。

2故障诊断实例

本文采用的一个典型负反馈放大器电路,如图1所示。电阻的容差范围取5%,信号源采用幅值0.1V,频率10Mhz的固定信号频率(与实际测试电路相符),V2为12V直流电压,R1=500k,R2=1k,R3=l0k,R4=2k,R5=0.5,R6=3k,R7=1k,R8=9k,R9=5k。

按照器件不同的故障类型,使用蒙特卡洛分析方法,对所有器件故障状态响应数据进行采集并分析数据,找到电路故障时比较灵敏的特征参数,同时确定电路故障集,最终找出确定14种故障模式:正常状态,R2开路,R3开路,R4开路,R5增大50%,R6开路,R7开路,R8开路,C4短路,Q4基极与发射极短路,Q5基极与发射极短路,Q4基极开路,Q5基极开路。

对样本数据进行BP神经网络进行分析后发现,故障11、12难以分辨故合为一类,差异主元为V2频率幅度值,3、8、14难以分辨故合为一类,差异主元无,另选主元Q5基极电压。最终主网络共有10类故障模式,其中有两个代表多种模式,其余为单故障模式。分别对网络进行训练后,利用测试样本进行诊断,结果为100%,样本与诊断结果见表1。

3诊断系统的实现

若要对多级网络在Matlab中实现,程序过于繁琐,因此本文采用虚拟仪器Labview对程序的控制进行实现,本文是通过Labview软件实现的其程序图与前界面如图2所示。

其程序流程为:输入相关测试参数,对主元参数通过Matlab节点进行网络训练,输出分10路,每一路都于0.9进行比较,若某一输出大于0.9则认为某一故障为真,故障灯亮。若子网络判定条件为真,则开始子网络训练,对子网络模式进行识别。

4结束语

本文提出一种基于优化类间间距的方法,通过实际验证与文献相比,故障模式多5种,故障诊断率却上升到100%,显然大提高了诊断正确率,最后通过Labview软件完成系统的实现,界面直观,自动化诊断,具有很大的实际运用价值。该方法对于大型模拟电路同样具有研究价值,只需将大型电路撕裂成分电路即可,为大规模电路的诊断研究提出了一种可行的方法。

参考文献

[1]杨士元.模拟系统的故障诊断与可靠性设计[M].北京:清华大学出版社,2001,11.

第3篇:网络故障等级范文

>> 煤矿井下供电系统越级跳闸研究 矿井下高压系统的防越级跳闸研究 煤矿井下电网防越级跳闸系统的研究与应用 南山煤矿井下高压供电系统防越级跳闸实验及应用 煤矿井下防越级跳闸保护系统解析 煤矿井下供电防越级跳闸的应用及推广 基于EPON网络新型煤矿供电防越级跳闸系统的应用 基于数字化防越级跳闸系统的煤矿井下小电流接地选线方法 基于DSP煤矿井下防越级跳闸的保护设计 新型煤矿供电网防越级跳闸保护系统研究与应用 煤矿井下电网越级跳闸的原因分析 煤矿防越级跳闸系统研究及应用 煤矿供电系统防越级跳闸技术研究 煤矿井下供电越级跳闸问题处理措施探讨 煤矿井下供电系统越级跳闸原因及其对策 煤矿井下高压电网防越级跳闸方案研究 煤矿井下供电越级跳闸问题处理措施的探讨 煤矿井下防越级跳闸事故的原因和解决方案 煤矿井下电网越级跳闸的原因及对策 矿井供电系统防越级跳闸应用与试验 常见问题解答 当前所在位置:中国 > 教育 > 基于网络分析的煤矿井下供电防越级跳闸系统研究 基于网络分析的煤矿井下供电防越级跳闸系统研究 杂志之家、写作服务和杂志订阅支持对公帐户付款!安全又可靠! document.write("作者: 徐志龙 李国龙 丁娜")

申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。 【摘 要】越级跳闸会对煤矿井下安全生产带来严重后果。本文从全局角度出发,建立以光纤为通信介质的防越级跳闸系统,系统包括主站监控系统和监控分站两级组网,同时提出了采用递归搜索网络分析方法对故障点进行定位隔离。案例分析结果表明,该防越级跳闸系统能够保证对供电系统监控的实时性,提出的递归算法相比于其他方法更加快速和有效。 【关键词】煤矿井下 越级跳闸 网络分析 供电系统 【中图分类号】TD611 【文献标识码】A 【文章编号】1674-4810(2015)31-0106-03

煤矿井下供电系统的安全性和运行状态直接影响着煤矿的生产和安全。煤矿井下巷道狭窄,空气潮湿,工作环境恶劣,容易发生短路事故。由于井下高压供电系统线路短、多级变电所级联,当发生短路故障时常规继电保护装置不能通过整定值和时间级差的方式有选择地跳开故障点开关,出现越级跳闸问题,威胁矿井安全。因此,解决煤矿井下供电系统短路引起的越级跳闸问题,对煤矿安全生产意义重大。

目前,国内外对矿井供电系统越级跳闸问题进行了广泛深入的研究,主要集中在以下几个方面。(1)基于电力监控系统的方案。这种系统由监控主机、通信分站和综合保护装置组成。监控主机对供电系统各节点故障信息采集,利用通信系统汇集,并进行逻辑比较和综合判断。这种方案通信系统采用两级结构,第一级为监控中心和通信分站之间采用CAN总线网络,第二级为通信分站与各综合保护装置采用RS485总线网络。基于电力监控系统的方案从短路发生到控制断路器跳闸所需时间较长。(2)基于CAN总线方案。该防越级跳闸方案的基础是构建一个专用CAN总线通信网络,各个综合保护装置通过CAN总线进行连接,通过各个综合保护装置之间的数据交换快速判断故障位置,确定需要启动保护动作的装置所在的位置。基于CAN总线方案需跟随供电系统不同运行方式变化相应地判断规则,控制较为复杂,实际运用中存在很多问题,甚至会增加越级跳闸的风险。(3)基于独立监控分站的方案。该方案中每段线路的综合保护装置采用电气信号与独立监控分站并联联络,各综合保护装置检测短路故障,并将故障信号汇总到独立监控分站,监控分站根据接收的电平信号数量的多少和相应的事先约定的编号进行逻辑分析判断,可确定应该由哪级跳闸,然后向该级发出跳闸指令。该方案存在抗干扰能力差,对监控分站的依赖性强,系统整体可靠性不高的缺点。(4)基于分布式分站方案。该方案与基于独立监控分站的方案通信方式相同,只是增加了各级独立分站的部署,此方案各级独立分站相互独立,其中某一分站发生故障不会使整个越级跳闸系统瘫痪,具有相对高的可靠性,但同样存在各级分站间连线复杂,传输信号抗干扰能力差、远距离传输衰减严重等缺点。

上述方法主要侧重于井下防越级跳闸系统的整体框架构建,而对于短路故障点的快速搜索定位和隔离的方法涉及较少。本文研究的内容是建立以光纤为通信介质的井下供电监控系统,通过系统网络拓扑分析和快速递归算法,迅速定位短路故障点并加以隔离,有效防止越级跳闸事故的发生。

一 煤矿井下防越级跳闸系统设计

1.防越级跳闸系统整体设计

根据煤矿井下高压供电线路的实际情况和防越级跳闸的要求,建立以光纤为介质的高速通信网络,为井下高压供电系统的每台高爆开关提供可靠、全时、动态、高速的信息通道,形成全局防越级跳闸保护系统,提高高压供电线路的可靠性和保障故障隔离动作时间的实时性。系统整体框架如图1所示。

该系统具有如下特点:(1)系统功能全面性。系统在实现保护的同时还可以实现遥测、遥信、遥控、遥调即“四遥”和防误操作功能,为采区变电所的“无人值守”创造了条件。(2)系统组网安全性。系统的光纤通信网络、矿用隔爆型光传输接口和保护主机均采用备份配置,一套系统发生故障时不会影响另一套系统的可靠运行。(3)系统先进性。该设计实现零时限速断保护,彻底解决煤矿井下短路故障越级跳闸问题,实现多备份

煤矿井下保护,井下电度计量由地面装置集中实现,将光纤通信和网络数据共享的数字化变电站技术引入井下保护的系统。

2.监控分站系统设计

电力监控分站作为监控中心和综合保护装置的连接系统,起到将综合保护装置的测量信息(遥测、遥信的数据)上传至监控中心,同时将监控中心的指令(遥控、遥调)发送给相应的综合保护装置的作用。监控分站具有如下功能:(1)每个监控分站至少能挂接32个综合保护装置,通过光纤与它们通信;(2)接收所挂接的综合保护装置的采集数据,并对数据进行统计分析,将结果上传到监控中心,同时就地通过液晶屏显示;(3)接收监控主机的控制指令(遥控指令),同时将指令传送给相应的综合保护装置执行,并把执行结果传回分站;(4)能在线显示出现故障的电力设备的位置及原因,并报警;(5)系统具有多种通信接口,能适应各种通信方式;(6)采用全中文液晶显示,能清楚地实时显示电网的电流、电压、零序电流、零序电压、绝缘电阻、故障原因等;(7)具有超强的通信功能,在出现通信故障时,无须人工干预,系统能在极短的时间内自动检测,重新启动恢复通信。

二 网络分析方法研究

由于煤矿井下级联变电所和T接线路多,造成供电网络复杂,因此采用的电网络分析方法不但要有准确性而且要满足故障隔离实时性的要求。网络等值法和最小路法都需对网络进行等值,而大多数的等值过程通过计算机实现比较复杂,尤其是对于较为复杂的供电网络而言,等值过程更为繁杂。递归算法是一种直接或者间接地调用自身的算法。在计算机编程中,它往往使算法的描述简洁且易于理解,编程工作量也大大减少,同时其运行快速的特点也满足了短路故障隔离的实时性要求。该方法的优点在于:(1)无须进行网络等值,原理简单清晰,计算精度高,易于在计算机上实现;(2)当需要分析某负荷点附近的故障情况时,无须分析所有元件运行情况,可以有针对性地对网络进行分析,大大减少计算量;(3)在分析过程中无须形成网络的邻接矩阵或特殊的链表关系,直接采用最基本的节点数据表和支路数据表对网络进行搜索,与现场数据接口方便;(4)网络分析采用递归算法,可大大减少编程工作量,提高程序执行效率,达到系统实时性的要求。

递归算法实现过程如图2所示,其中A为供电节点,B、C、D为负荷节点,D为所求负荷节点,以D节点作为根节点,搜索到支路1,节点表加1,然后以另一节点B递归搜索,搜索到支路0,节点表再加1,再以另一节点C递归搜索,无支路,返回上级递归,继续以B节点搜索,搜索到支路2,另一节点A为供电节点,则搜索完成标示设为真,递归返回。

三 算例验证

设系统供电模式为单电源辐射式供电系统,母线为二分段接线,如图4所示。其中配电变压器高压等级为10kV,低压等级为0.4kV,每条母线带有4组负荷,同时安装有图1所示的全局防越级跳闸系统作为通信和监控系统,保证数据的实时传输。

在计算过程中假设负荷点L4、L6和L7处发生了短路故障,采用本文提出的分析方法均能快速对故障点进行定位并断开负荷所属高压侧断路器,没有因为短路而发生越级跳闸的情况,保证了非故障点的正常工作,说明了该网络分析方法的有效性。

在使用相同计算机系统情况下对上述案例进行计算分析,采用本方法比网络等值法的计算速度大约快5%,比最小路法快3%,因为本算例网络比较简单,所以差别并不是很大,如果采用实际煤矿井下供电网络,本方法的计算速度优势将会更加明显。

四 结论

第4篇:网络故障等级范文

关键词: 电子信息系统; 故障诊断; 神经网络; 故障字典

中图分类号: TN710?34 文献标识码: A 文章编号: 1004?373X(2013)20?0166?05

目前,电子信息系统的复杂化、自动化和信息化程度越来越高,对可靠性、可维修性和技术保障能力的要求日趋迫切。系统中每一个部件发生故障都可能会产生链式反应,影响系统效能发挥或造成重大的经济损失。因此,电子信息系统的状态监测与故障诊断技术早已得到世界各个发达国家相关部门的重视[1]。电子信息系统的功能电路大部分为模拟电路,许多元件参数具有很大的离散性,即具有容差。容差的普遍存在,导致实际故障的模糊性,加大了其故障定位的困难系数[2]。因此,针对该型电子信息系统的电路原理,综合运用故障字典和神经网络相结合的故障诊断方法,研究某型电子信息系统模块级故障诊断技术,具有一定的理论意义和和重要的实用价值。同时,本文研究的成果可以推广到其他型号的电子信息系统故障诊断技术研究[3]。

1 故障诊断流程图和电路仿真

1.1 功能模块级故障诊断流程图

首先对某型电子信息系统需要诊断的电路进行仿真,然后将得到的数据建成故障字典,最后,在故障字典中找出具有典型性的故障数据作为神经网络的输入,利用BP神经网将故障定位在具体的元器件上。图1为模块级故障诊断流程图。

1.2 电路仿真

某型电子信息系统中的典型电路图如2所示。

(1)晶体管的故障模型

由于无源元器件如电阻、电容的可靠性较高,发生故障的概率较小,因此假设电路中电阻、电容均无故障,只有5个晶体管出现故障。通过对故障晶体管的分析,将其的故障表现归结为三类:内部短路、内部开路、局部击穿。考虑到以下的事实:开路的引脚不能与其他引脚短路、击穿;两个引脚开路等效于三个引脚同时开路;两个PN结短路,等效于三个引脚同时短路;将三类故障在晶体管的三个引脚、两个PN结之间进行故障组合后,可归结为21种故障类型[4],见表1。

(2)故障近似模型

在电路仿真的过程中,对使用最多的双极型晶体管的近似故障模型进行研究,使用一种基于晶体管正常模型——GP模型为故障近似模型[5]。为使用软件进行故障模拟,下面给出晶体管的故障模型,见图3。其中故障引脚电阻RC,RB,RE为晶体管各引脚与电路相应节点间的串联电阻;故障结电阻RBC,RBE,RCE。分别为并联于晶体管某两引脚之间的电阻,用于模拟晶体管PN结的短路和击穿。

正常情况下,故障引脚电阻RC,RB,RE阻值近似为零;故障结电阻RBC,RBE,RCE阻值为无穷大。仿真时,按如下方法设置电阻阻值:

(1)某引脚开路,对应的故障引脚电阻阻值设置为无穷大,文中设置为10 000 Ω。

(2)某两引脚短路,对应的故障结电阻阻值设置为0 Ω(此处为理想值)。

(3)某两引脚击穿时,对应的故障结电阻阻值设置为700 Ω(PN结击穿后电阻阻值一般在500~1 500 Ω之间)。

(3)仿真软件

仿真软件选择的是Multisim,该软件操作简单、快捷,最主要的是它可以直接调用所需元器件,而不必近似地画出被测电路的等效电路图,使得仿真结果更加接近于真实值。

(4)仿真过程

图4为某型电子信息系统中的典型电路在软件Multisim仿真时的界面图。

2 故障字典的建立

(1)故障定义

现将图2电路中与晶体管相关的106种故障(包括正常状态F0)定义列于表2中。表中V代表晶体管,s代表短路,o代表开路,d代表击穿,b代表基极,e代表发射极,c代表集电极。例如V4ecsbed就代表第4个晶体管发射极和集电极短路,基极和发射极击穿[6]。其他故障以此类推。

(2) 测试量

本电路共有106种情况,即1个正常情况和105种个故障情况。在9个测试点上共得到[106×9=954]个电压值。模拟图2进行仿真,所得的954个数据列于表3。

(3)删除不需要的测试点

由表3可见,节点1上的电压不提供任何有用的信息,所以将其删除。节点6和节点9上的电压完全相同,所以删除节点9。同一测试点,在两种故障现象下,被测电压之差超过0.1 V,则认为这两个故障可分离;若被测电压之差不超过0.1 V,则认为这两个故障为不可惟一隔离的模糊故障组合。通过分析表中的数据,可以看到F2与F4等均为两个不能唯一隔离的故障。

但由于它们皆与晶体管V1有关,任一故障可通过更换V1来排除,因此,无需进一步隔离的必要[7]。类似情况,经过整理就得到了一个规范标准的故障字典列于表4。

3 BP神经网络的应用

基于BP神经网络能够出色地解决那些传统故障诊断方法难以解决的问题,所以某型电子信息系统模块级故障诊断系统采用故障字典和是神经网络相结合的方法,力求准确、快速地进行功能模块级故障诊断[8]。

3.1 BP神经网络的故障诊断步骤

应用神经网络检测模拟电路故障的基本步骤为[9]:

(1) 建立故障字典或故障状态表。应用软件模拟出对应电路的正常状态所对应得各测试点的理论值,并把它建成一个故障字典或故障状态表。

(2)建立神经网络。把故障字典或状态表中的数据作为神经网络的输入,按照电路故障特征点的数目以及所优化处理得到的故障输出类别的数目建立神经网络。

(3) 神经网络的训练、学习。设定神经网络学习速度、训练方法及相关参数,对网络进行学习、训练。

(4)利用训练好的BP神经网络进行故障隔离。将电路的故障字典建立在神经网络之中,网络的输入节点由电路的可测节点决定,输出节点由故障状态的数目决定。

输出有多少个故障状态,输出层就选用多少个神经元,每一种故障状态对应一个相应的神经元。诊断是某种状态时对应的那个神经元被激活,输出其对应的编码。

3.2 仿真试验及结果分析

(1) 本系统采用故障字典和神经网络相结合故障诊断技术研究,采用三层神经网络。通过电路的分析,选择7个关键点的电压作为神经网络的输入。选择6种故障现象作为神经网络的输出模式,因此实际的神经网络输入神经元数为7,输出神经元数为6,隐含层的单元数按照前面介绍的公式计算为9。通过分析看到,在BP神经网络的输出端应该有6个节点,分别对应1个无故障和5个故障。网络的期望输出如表5所示。

将仿真数据进行归一化处理后,以实际故障样本为网络的原始训练样本,网络输入层、隐含层和输出层节点数分别取7、9和6,系统总误差[E

最后,可用仿真得到的其余数据验证神经网络的训练情况。表6为神经网络的验证数据。表7为验证数据对应的输出结果。

(2) 由三层BP神经网络组成的诊断系统在进行故障诊断时,采取数据驱动的正向推理策略,从初始状态出发,向前推理,到达目标状态为止。

故障诊断推理步骤如下:

①将故障样本输入给输入层各节点,并将其作为该层神经元的输出;

②求出隐含层神经元的输出并作为输出层的输入;

③求出输出层神经元的输出;

④由阈值函数判定输出层神经元的最终输出结果[10]。

假设用[Yn]表示故障类型,则故障类型阈值判定函数为:

式中:[Φk=0.90],当某模式下神经网络的输出大于0.90,而其他值均较小时,则可认为发生了该故障。则表7变为相应的表8。

表8 整理结果

通过表8与表5的对比,可见仿真结果与事实相符。

4 结 语

本文针对某型电子信息系统的电路原理,综合运用故障字典和神经网络相结合的故障诊断方法,研究该型电子信息系统模块级故障诊断技术,具有一定的理论意义和和重要的实用价值。同时,本文研究的成果可以推广到其他型号的电子信息系统故障诊断技术研究。

参考文献

[1] 徐章遂,房立清,王希武,等.故障信息诊断原理及应用[M].北京:国防工业出版社,2000.

[2] 宋小安.模拟电路故障诊断的专家系统法与BP神经网络法研究[D].南京:河海大学,2005.

[3] 胡昌华,许化龙.控制系统故障诊断与容错控制的分析和设计[M].2版.北京:国防工业出版社,2001.

[4] 朱大奇.电子设备故障诊断原理与实践[M].2版.北京:电子工业出版社,2004.

[5] 刘志海,鲁青,李桂莉.基于故障树的故障诊断专家系统的研究[J].矿山机械,2006,34(5):75?76.

[6] 张翼.基于故障字典法的模拟电路印刷板故障诊断[D].南京:南京理工大学,2001.

[7] 余浩章,陈新华.基于故障树的故障诊断推理新方法[J].上海海运学院学报,2001,22(3):65?67.

[8] 高隽.人工神经网络原理及仿真实例[M].北京:机械工业出版社,2003.

[9] 王玉德,许振方,陈春延.基于BP算法的模拟电路故障诊断[J].电子测量技术,2006,29(6):205?206.

[10] 王承.基于神经网络的模拟电路故障诊断方法研究[D].成都:电子科技大学,2005.

第5篇:网络故障等级范文

Abstract: A neural networks expert system is designed, by which the default of hydraulic and electric driving system, and the mechanical parts can be analyzed. Finally, the effectiveness of diagnosis in hydraulic, electric and mechanical defaults is analyzed.

关键词: 导弹;神经网络;故障诊断

Key words: missile;neural network;default diagnosis

中图分类号:TP311 文献标识码:A 文章编号:1006-4311(2013)30-0178-02

0 引言

故障诊断专家系统是新型战机高密度导弹内挂旋转及发射装置混合智能故障诊断专家系统的重要组成部分之一,文中设计了基于神经网络的专家系统,主要是针对机载导弹内置式挂架的液压、电气控制系统、驱动系统及机械执行部件进行诊断。

1 高密度内挂旋转发射装置故障诊断的要求与故障样本的获取

利用神经网络的模式识别能力进行故障诊断的前提条件是,必须获取并保存大量的在正常情况下,以及在故障状态下的样本数据,以用于对神经网络进行训练。显然,训练样本的完备性,在很大程度上决定了最终神经网络分类器的性能。对于故障样本的获取有两种办法,其一是选择合适的特征提取方法,使得所提取的故障特征与故障程度、发生时刻等因素均无关,但实际中寻找这样一种特征量通常是很难的。另一种方法是直接利用神经网络的映射能力,通过神经网络的学习和训练,将不同情况下同一故障的所有样本映射为同一种故障。

2 神经网络高密度导弹内挂旋转发射装置故障诊断专家系统设计

集成神经网络故障诊断专家系统的设计分为“诊断子系统”和“诊断网络管理维护子系统”两部分。“诊断子系统”和“诊断网络管理维护子系统”的关系及数据流如图1所示。

2.1 诊断子系统的设计 高密度导弹内挂旋转发射装置控制系统的故障包括36种子系统故障模式。为了实现方便,将集成神经网络故障诊断系统分为“系统级诊断”和“模块级诊断”。诊断系统层次结构如图2。“系统级诊断”与“模块级诊断”的系统设计原理是完全一样的,只是在诊断参数选择上略有不同。

下面仅以液压回路管路泄露为例给出该故障的诊断流程,见图3。

2.2 诊断网络管理维护子系统的设计 和诊断子系统相对应,诊断网络管理维护子系统也相应的分为“系统级诊断网络管理维护子系统”和“模块级诊断网络管理维护子系统”。其中,“系统级诊断网络管理维护子系统”负责管理和维护“系统级诊断网络”,“模块级诊断网络管理维护子系统”负责管理和维护“模块级诊断网络”。系统结构如图4。

3 推理搜索策略的研究

当前的诊断专家系统都集中在如何诊断故障,却忽略了在要求快速诊断的情况下诊断的效率问题,而且大多数的专家系统都使用一个或多个知识库来存储启发式规则。当知识库的容量增加或系统复杂性增加时,相应未知假设的数量以及询问数量也增加。为解决这些问题,操作者需要更多的时间来搜集相关信息,引导测试或确定响应。因此可以考虑基于设备的功能及部件连接建立树形结构,而整个知识库则根据树形结构分解为若干个子知识库。换句话说,即为每个树的节点都具有自己的知识库来支持假设本节点可能出现的故障。而每个节点在树形诊断中的重要度是通过使用校正字典MADM方法来评估的。在确定节点优先级的基础上,使用登山搜索方法来快速决定最有效率的诊断过程或可以达到结果最可能的路径。通过使用假设推理策略,推理机只需要检查启发式规则的部分而不是整个知识库。因此可以极大的降低询问的数量以及缩短诊断时间。

此子系统包含有4个组成部分:诊断树、多属性决策(MADM)、知识库以及登山搜索法。

3.1 诊断树 设备结构提供了诸如部件位置以及部件之间如何连接的基础信息。诊断树可用来描述部件的连接关系以及相关功能,诊断树类似于结论树,在结论树中,节点通常表现的是关于属性或者结论的数值,从节点伸出的分支代表一个可能的数值或指定的属性。

3.2 多属性决策(MADM) 一旦设备结构被诊断树准确的表述出来,则相应确定了诊断树中各个节点的优先级。一种有效的方法就是运用MADM方法来确定节点的优先级。

3.3 知识库 一旦诊断树中的设备部件或节点被正确的划定等级,则领域专家可以构造知识库,在知识表述阶段,最为广泛应用的就是IF-THEN形式。因为它提供了一个合适的前向通道来表述假设的可能引起设备故障的启发式规则,它由人类专家的经验知识以及潜在的设备部件特性获得,每一个设备部件(节点)都具有属于自己的知识库,知识库的数量与诊断树中节点的数量相同,每一个节点及其相关知识库结构见图5。

3.4 登山搜索法 登山法对于树状结构的溯源问题是非常有效的策略和方法,而通过此方法的诊断进程也是最有效的方式,搜索进程首先从树状结构的根节点开始,根节点下几个子节点的展开是通过功能函数或MADM来确定的,直到最底层的子节点的展开才结束此过程。

4 神经网络专家系统设计实例

我们可以使用语言项对每一个指标进行不同的区分,对于故障发生可能性此指标,我们可以相应的定义非常高、高、中等、低、非常低等区分等级,把语言项转换成相关的数字量,例如非常高我们可以定义为1,而高我们可以定义为0.8,中等为0.6,以此类推。诊断树的最高一级包括三个部分:液压部分,电气部分以及机械部分,分别为这三个部分指定正确的语言项,凭借人类专家的实际经验以及详细分析资料,定义如表1,如对于本系统而言,故障发生可能性对于机械部分为高,而诊断时间对于机械部分却为低。对于此三个部分优先级进行比较,则表1转换成表2。

因为故障发生可能指标是最为重要的指标,因此它被率先选择比较,根据表2的第二行,液压部分与电气部分具有最高的优先级,而机械部分因为属于前两者的受控对象,因此具有较低的优先级,为确定前两者的优先级,必须额外考虑诊断时间以及诊断难易程度这两个指标,因为这两个指标具有同等重要性,我们必须结合它们的数字化量值来考虑其重要性,对于部件液压部分的综合值为1.3,而对于电气部分的值则为1.6,因此电气部分具有比液压部分更高的优先级,则确定了第一级的优先顺序。则意味着在查询阶段电气系统部分优先于液压系统部分。通过语言项确定到获取诊断树的下一级的多次叠迭,高密度内挂旋转发射装置的诊断树优先划分构造完成,下一步则是构造假定可能引起系统故障的领域知识库,如前所述,每一个部件(节点)占有可能引起此节点故障的独立知识库,而知识库的启发式规则来源于维修记录或维修手册。在所有的知识库建立完全后,则应用了登山法策略的推理过程开始,基于故障树的优先次序,推理机将首先检查电气系统部分,并查询相应电气系统部分的知识库,若启发式规则可以提供足够的证据表明,电气系统部分是引起故障的原因,则诊断程序将转向电气部分的下一级,在这种情况下,推理机将检查电源,驱动电路,调理电路,并同时查询其相应的知识库,通过使用登山渐进法策略,检查——验证过程将持续到发现最小的故障单元为止。

为了使最终验证的结果更加可靠,最终验证的信服因子值应大于设定的阈值,若推理机假设机械部分出现故障,它必须检查机械系统部分的知识库,假设知识库中的阈值是0.7,并且符合两条规则,则综合的信服因子值为0.925(0.7+0.75-0.7*0.75=0.925),此值大于阈值,则可以得出结论该系统处于故障。

5 小结

本文详细论述了基于集成神经网络的地空导弹故障诊断专家系统的设计原理和方法。并将多属性决策与登山搜索策略引入到故障诊断策略中来,实验证明,基于集成神经网络的故障诊断专家系统既能有效的弥补传统专家系统诊断知识不足的缺陷,又能充分利用故障样本数据和不同诊断参数所包含的故障信息。

参考文献:

[1]李海港,周一恒.神经网络故障诊断专家系统的结构设计[J].煤矿机械,2005(01).

第6篇:网络故障等级范文

关键词:动车组;网络控制系统;列车

一、引言

列车通信网络(TCN)作为面向机车控制系统而设计的总线标准,符合IEC61375-1标准。标准规定列车通信网络(TCN)分为两级:用于列车级的通信及控制的绞线式列车总线(WTB)和用于车辆级通信及控制的多功能车辆总线(MVB)。近些年来,列车通信网络(TCN)技术已被广泛应用于国产新型大功率交流传动电力机车、内燃机车、动车组以及城轨等领域,具有较高的可靠性和稳定性。

以太网作为当今现有局域网采用的最通用的通信协议标准,符合IEC61375标准,同时也是列车通信网络发展的方向,具有高速率、大容量以及智能化等特点,目前已在部分城轨及动车项目上得到了应用。基于TCN网络的成熟性,并结合未来列车通信网络的发展方向,笔者提出一种基于TCN与实时以太网相结合的列车网络控制系统。

二、网络系统构成

(一)网络控制系统概述

网络作为整车控制系统,通过信号采集模块,采集司机的操作指令、列车各个工况下的状态等信号,经过运算及逻辑处理,给出操作列车各部件的控制指令;通过MVB总线和以太网总线实现与牵引控制系统(TCU)、制动控制系统(BCU)、辅助控制系统(ACU)等第三方设备的数据交互;通过以太网实现维护、诊断功能。

(二)网络控制系统拓扑

动车组为8 辆编组,采用4 动4 拖编组方式,每4节车为1个牵引单元。具体编组要求为Tc+M+Tp+M+M+Tp+M+Tc,其中Tc 为带司机室的拖车、M 为动车、Tp 为带受电弓的拖车。

网络控制系统采用二级拓扑结构,分为列车级和车辆级。两个牵引单元间通信为列车级通信,采用WTB总线,主要承担重联时网络互联互通功能,同时还采用以太网环网贯穿全车,并且预留重联接口。牵引单元内部通信为车辆级通信,采用MVB-EMD总线,网络内部各设备以及第三方设备均连接至MVB-EMD总线上,单元内部的智能设备均采用以太网连接到交换机上。

网络控制系统拓扑结构如图1所示:

(三)网络控制系统配置

1 中央控制单元(CCU)

中央控制单元由网关模块(EGWM)、车辆控制模块(EVCM)和事件记录模块(EDRM)等组成,主要实现对列车网络的管理功能,包括控制、监视、诊断和维护等功能。

EGWM作为TCN网关,同时又是CCU的核心部件,主要实现列车WTB总线管理、MVB总线管理、列车重联、TCN初运行、列车控制、状态监视以及故障诊断等功能。在CCU中有两个EGWM,互为热备冗余,默认一个网关工作,另一个网关进入休眠模式。

EVCM主要实现将列车状态和故障数据的整理,并通过MVB总线和以太网总线转发给HMI、EDRM和WTD功能。

EDRM主要实现列车状态数据和故障信息的实时存储功能,根据实际需要,其中状态数据可根据实际需要分为两种记录方式,一种为快速数据,采样周期较快,牵引、制动等与列车控制和安全强相关的数据可以采用快速数据方式进行记录;一种为慢速数据,采样周期较慢,空调、旅服等与列车控制和安全非强相关的数据可以采用慢速数据方式进行记录。

2 输入输出模块(IOM)

输入输出模块包括DXMe、DIMe、DIMe-L和AXMe模块。IOM主要实现输入信号的采集及控制信号的输出等功能。其可通过硬线采集不具有车辆总线接口的设备或控制器的信号,并将其转换为MVB信号发送给CCU,并将CCU的控制指令通过硬线进行输出。例如高压系统部件控制继电器、牵引系统冷却设备供电开关及控制继电器、安全环路状态继电器等设备状态信号均通过硬线进行采集。

3 人机接口单元(HMI)

人机接口单元是网络控制系统的一个重要组成部分,它是控制系统对外信息交流的窗口。主要实现对列车运行数据、各设备状态的显示、故障信息的提示与存储、设备切除与复位以及部分设备控制参数的设置等功能。

4 中继器(REPs)

中继器主要实现MVB总线信号的中继、增强和转发功能。通过中继器可将车辆总线分为若干网段,当某个网段故障时不应影响其它部分车辆总线的工作。

5 以太网交换机(ESU)

以太网交换机主要实现各设备通过以太网接口与列车以太网总线的连接,进行以太网数据的交互和转发,实现各设备的数据在线监控、程序远程装载以及数据远程下载等功能,便于列车的检修和维护工作。

6 无线传输装置(WTD)

无线传输装置可以通过MVB总线和以太网总线接收指定端口的数据,并对接收的数据进行整理、解析、存储。将列车信息分类为实时运行数据、实时故障数据、非实时运用数据等,并且能够提供本地数据存储和下载功能,也能通过无线传输技术将本地数据发往地面数据管理系统,地面数据管理系统能够对接收的车载数据以及远程无线监视的数据进行管理、统计和分析,形成列车关键设备的体检数据库,为地面检修、维护提供支持。

三、网络控制系统主要功能及技术特点

(一)网络控制系统主要功能

网络控制系统可以实现通信管理、冗余管理、车辆逻辑控制、状态监视显示、故障诊断以及远程维护等功能,从而保证列车安全可靠的运行。并为司机或机械师提供故障处理指南,为检修维护提供数据支持。

1 通信管理

通信管理功能主要有三个部分:

1)系统对MVB总线、WTB总线和以太网总线进行控制和管理,按照通讯协议完成车辆数据、列车数据的组织和转发,实现列车控制、故障和状态信息显示以及故障和事件记录等功能;

2)系统自动监测列车的重联状态,当列车处于重联工况时,系统根据重联列车的数量自动构建WTB网络,并自动进行列车的重联控制和诊断功能;

3)通过以太网总线实现列车故障和状态数据的传输、远程维护等功能。

2 冗余管理

网络控制系统冗余设计包含TCN网关冗余、输入信号采集冗余、以太网冗余、显示器冗余和数据记录冗余等5个方面。

1)TCN网关冗余

网络控制系统的TCN网关采用EGWM模块实现,采用热备冗余、故障切换的方式。

TCN网关上电时,默认一个网关工作,另一个网关进入休眠模式。当正常工作的网关故障时,切换到热备网关,此时将导致所有网关重新进行TCN初运行。TCN初运行的过程中,整列车WTB通信中断,网络控制系统进行断主断、牵引封锁保护。TCN初运行完成后,重新建立WTB通信,此时网络控制系统解除牵引封锁,司机重新投入主断后正常行车。

2)输入信号采集冗余

网络控制系统数据采集冗余主要指采集司控器级位及指令信号冗余,以及采集其他关键设备的状态信号冗余。使用两个数字量采集模块冗余采集信号,默认信任一个数字量采集模块的信号。当信任的数字量采集模块故障时,切换至另一个数字量采集模块。

3)以太网冗余

网络控制系统以太网冗余包括如下方面:

以太网环网作为列车总线WTB的备用冗余总线,当WTB总线通信中断时,不影响列车级数据传送;

以太网作为EVCM与HMI之间MVB总线的备用冗余总线,当EVCM与HMI之间的MVB通信中断时, HMI的各项功能不受影响;

以太网作为EVCM与EGWM之间MVB总线的备用冗余总线,当EVCM与EGWM之间的MVB通信中断时, EGWM能够正常收发数据,功能正常。

4)显示器冗余

网络控制系统在司机室设置两个显示器,功能一致,互为冗余。上电后,两个显示器同时工作,当一个故障时,另一个不受影响。

5)数据记录冗余

网络控制系统在每个单元设置一个数据记录装置,同时记录整车故障以及事件数据,互为冗余。

3 逻辑控制

网络控制系统实现的控制逻辑主要有:司机室占用、主手柄管理、方向管理、换端控制、复位控制、高压设备控制、牵引/制动特性控制、辅助系统控制、恒速控制、联挂解联控制、空电联合制动控制、限速管理、设备切除控制、紧急牵引模式、过分相控制、服务设备控制等。

4 状态监视显示

网络控制系统对动车组各个重要部件的性能进行实时监测和报警,确保动车组运行安全。系统的监测信息一般包括网络设备状态、高压设备状态、车辆安全环路状态、牵引系统状态、制动系统状态以及其它设备状态等。通过系统监测能够及时发现事故隐患,以便及时进行维修。监控和诊断数据实时的通过HMI显示,为驾驶员安全驾驶提供支持。

5 故障诊断

网络控制系统实时完成车载各部件故障数据的采集、分析、转储和显示。故障信息在司机台上通过HMI显示,诊断信息存储到事件记录模块EDRM和WTD中,可以通过PTU上传到地面维修和服务系统中,供长期地储存和深入的地面分析。

6 远程维护

网络控制系统能够远程在线监视列车总线传送的数据,远程单点更新车载所有连接至以太网的智能设备的程序,远程单点下载车载所有连接至以太网的智能设备的数据。个人计算机由网线连接至以太网交换机,通过便携式测试工具(PTU),即可实现对动车组列车的远程维护。

(二)网络控制系统的技术特点

1 硬件模块化

网络控制系统硬件采用株洲中车时代电气股份有限公司开发的分布式列车网络通信与控制系统(DTECS)平台。DTECS平台硬件均采用模块化设计,每个模块都封装在一个封闭的机械结构中,且均具有独立的电源和通信接口,抗干扰能力强, 防护等级高。物理安装时可灵活配置,减少列车布线,维护方便。

2 软件功能化

网络控制系统软件设计采用模块化结构,采用图形化语言编程,大部分控制功能已封装成功能块,整套控制程序只需根据输入输出参数的要求调用相应的功能块进行拼装即可,程序结构简单、可读性强且易于修改。

3 系统冗余化

网络控制系统在网关、关键输入信号采集、以太网、显示器和数据记录等关键设备及功能的设计上均采用了冗余,大大提高了系统的可靠性。

4 维护智能化

网络控制系统采用智能化设计,关键设备均通过以太网交换机接入以太网网络,均可实现数据远程监视,程序远程装载、数据远程下载等,大大提高了检修和维护效率。

四、结语

动车组网络控制系统将TCN网络和以太网融合在一起,TCN网络作为成熟的列车通信网络,主要负责列车控制指令的传输、关键设备状态的监视和故障诊断;以太网作为列车通信网络的发展方向,在网络控制系统中作为冗余备份总线,主要负责状态数据的监视、故障和事件数据的记录及远程维护。

网络控制系统在设计过程中严格遵循IEC 61375标准,始终贯彻模块化、高冗余性的设计理念,具有很高的冗余性和可靠性。目前,装有该网络控制系统的动车组已经完成进入了现车试验阶段,在整个试验过程中,系统在实现了全部功能的基础上,也表现出了稳定可靠的特性。

参考文献

[1] IEC61375-1:1999,铁道电气设备列车总线第一部分:列车通信网络[S].

第7篇:网络故障等级范文

[关键词] 医院信息系统;应急预案;分级管理

[中图分类号]R197.321 [文献标识码]A [文章编号]1007―8517(2011)15―0133―02

医院信息系统是维持医院正常运行的重要保证,它在保障医院日常工作正常运行方面起着越来越重要的作用。医院信息系统的基础平台是医院信息网络,它是为医疗机构提供高效、规范运作的重要基础,信息网络是否正常运作直接关系到医院信息系统是否有效运行。然而,在医院信息系统的运作过程中,不可避免的会存在或人为或自然方面引发的故障。因此,为避免医院信息系统因故障而引起的对医院正常工作的影响,应该结合医院运行的实际情况,制定适合医院自身实际的医院信息系统故障分级应急管理预案。

1、制定医院信息系统应急预案的重要性

1.1 制定应急预案的目的

医院信息系统应急预案是保障医院正常运行的重要条件。制定一套科学、合理的医院信息系统应急预案,目的就是为了保障医院各个工作岗位的信息系统网络发生故障时,能够快速、有效的按照工作指引手册,在最短的时间内化解信息网络故障带给医院的影响,并在最短的时间内修复和完善医院信息系统的网络故障,保障医院正常运行。在制定医院信息系统应急预案时,一定要结合医院自身的运作情况,以保障应急预案的可操作性和应急能力。

1.2 制定应急预案的重要意义

随着社会信息化的发展,在医疗领域,数字化医院建设也越来越成为医院发展的趋势,同时,医院的各项业务刘信息化系统的依赖性也越来越强。可见,数字化医院对信息化系统的医疗性越强,则对医院信息系统的要求越高,一旦在医院业务的高峰期其信息系统发生故障,就会严重影响医院业务的正常办理,严重者甚至会导致医院业务系统的瘫痪状态。

因此,医院在应对突发事件的反应能力方面和在短时间内对自身信息系统的修复方面制定一整套预案,以避免医院大量尚未就诊的病人发生就医秩序的混乱,从而引发医院出现医疗隐患或对医院不好的社会负面影响。因此,医院制定一套简要、科学、操作性强的信息网络故障分级预案对医院自身的运行和良性发展具有举足轻承的意义。

1.3 制定应急预案的原则

医院在制定信息系统分级应急管理预案时,为了保障管理预案的实用性和可操作性,就要做到从医院自身发展的实际情况出发,根据医院的发展水平和运作方式,充分发挥医院各个部门的主观能动性,并能够实现各个部门之间的良性互动相互协助。同时,制定应急预案时要遵循以下两个原则:

首先,要明确界定出医院及其信息系统网络故障的范围及程度,并对各种信息网络故障进行分级,分别对各个级别的网络故障制定出相应的应对方案和解决措施。制定应急预案时要遵循第二个原则就是,要求医院各个工作岗位的人员,不但能够熟练掌握高度信息化、无纸化办公的工作方式,而且能够在医院信息网络出现故障时,具备迅速恢复传统工作流程和工作方式的应急能力,即医院要通过常态化应急演习,保障医院工作人员在预防故障和实际解决故障能力的培养。

2、医院信息系统故障的分级应急管理预案的建立

2.1 分级应急管理对各个岗位的要求

医院信息系统故障分级应急管理按照岗位划分,可以分为应急领导小组、医疗业务部门操作岗位及信息中心技术保障小组。

其中,应急领导小组的组成人员为医院领导、信息部门以及医院各部门的负责人,他们的任务是医院应急工作的组织协调,并统筹规划医院应急预案的制定,同时应急领导小组还要检查监督全院安全上作及安全措施的落实情况。

而医疗业务部门的操作人员则负责医院各项手工操作时所需的纸张、收费价目表、印刷体等办公用品。

信息中心技术保障小组的主要职责是制定信息网络故障应急预案的主体,并组分应急预案的演练,同时还要及时总结和汇报医院信息系统的运行状况和修改意见等工作。

2.2 信息系统故障应急预案的分级:

一级预案:由人为或自然灾害引起的设备故障。此时必须逐级上报,在主管领导的督促和协调下进行抢修。

二级预案:由于财务软件故障、交换机故障、数据处理错误等涉及到多个部门的瘫痪。应该及时上报信息部,对故障进行排除。

三级预案:单个部门出现网络故障或硬件故障而工作瘫痪。要立刻报告负责人进行故障排除。

四级预案:单个工作站点出现的软件或硬件故障。此时应该由值班人员及时排除故障。

在分级应急预案的执行过程中,应急领导小组应该根据具体故障情况下达应急预案的启动命令,并由信息部通知各个岗位的应急职责范围及工作方式,以确保在最短时间内排除故障,保障医院信息系统的正常运行。

2.3 信息系统灾难性故障应急处理流程

3、结语

综上,医院信息系统的安全不但要信息技术支撑,而且要医院各个部门之间相互协调。因此,维护好医院信息系统是一项复杂的系统工程,医院必须要进行定期检查,时刻监督应急预案的落实情况,并加强应急演练,在演练中发现问题,及时解决问题。

同时,医院所有人员不能存在侥幸心理,不但在技术上和管理上高度重视,而且要在每个人的心理上给予高度的重视,以更好的服务于病人,服务社会。

参考文献

[1]杨德文,医院信息安全方案的设计与实现[J],中国医院统计,2006(3)

第8篇:网络故障等级范文

关键词:IP over OTN 光网络 路由 生存性

中图分类号:TN929.1 文献标识码:A 文章编号:1007-9416(2016)12-0040-01

中国电信业伴随着网络技术迅速崛起,特别是在网络技术改造和升级方面,扩大网络覆盖面、加快网络运行速度的同时,还实施了网络资源优化,以降低网络运行成本。随着WDM网络逐渐向IP over OTN网络过渡,依赖于IP层、OTN设备以及联合路由恢复技术的网络路由与生存性成为重点研究课题。

1 路由技术

计算机网络技术的发展,逐渐实现了WDM运行系统的相互连通,光层的组网能力有所增强,跨层之间的联合路由已经将IP over OTN组网特点充分地发挥出来。网络运行模式不同,路由策略也会有所不同。采用联合路由策略,相比较于重叠模型中的分层路由模式,可以实现网络整体运行效率的提高。为了使路由策略能够满足联合组网模式,需要采用路由协议信息和计算信息,还要将拓扑结构信息涵盖其中,以提高路由的灵活性,提高网络运行中的安全性能。按照传统的IP网络运行模式,所采用的路由策略是逐级转发的形式,数据包之间没有实现有效链接,路由则在数据包之间跳转。这种信息传输的方式只能够满足基本业务需求,而无法从提高服务质量上满足用户需求。IP over OTN组网则有所不同,其会将发挥不同使用功能的OTN设备相互连接起来,对智能光网络中与其相关的功能进行控制,包括OTN设备的相互连通性、智能光网络的功能特性等等。IP over OTN光网络不仅可以在IP层路由,还可以在OTN层路由,建立IP层和OTN层的联合路由模式,根据不同业务需要建立源路由、层次路由,后者为逐级跳转路由,使OTN光网络实现光层组网,充分地发挥平面管理和平面控制技术,依赖于GMPSL协议完成计算功能,实施业务调度,优化网络资源配置[1]。

2 生存性技术

网路的生存性是指网络的保护与恢复性。当网络运行过程中发生故障的时候,网络能够依赖于生存性使运行不会受到干扰,因此,网络的生存性即为网络的抗毁性。为了能够确保网络处于故障时能够正常运行,就要依赖于网络预留资源,为网络运行提供额外的资源保障,其中需要考虑的生存性条件包括网络建设成本、网络业务保障等级、网络运行故障场景等等。生存性条件不同,所需要采取的生存策略也会有所不同,实施维护的成本也会有所不同[2]。网络生存性成本与网络运营维护成本之间存在着矛盾,即只有投入了相应的网络运行维护成本,才能够确保网络的生存性,而网络生存技术不仅要确保网络能够在故障场景中处于正常运行状态,还要将网络运营成本降低,以在提高网络资源利用率的前提下,确保故障恢复效率。

当网络运行处于保护方式下,当网络运行期间出现故障时,由于对可能出现的故障做出了资源预留,且在保护功能设置上设定了路径倒换保护,因此,当网络故障发生的时候,故障业务倒换功能就会启动,将故障业务进行路径倒换,使业务能够在保护资源上正常运行。故障业务虽然在短时间内得以恢复,但是网络资源没有得到充分利用[3]。

IP over OTN光网络的生存性是建立在恢复方式基础上的。当网络运行中出现故障后,需要对网络故障重新建立路由,对业务资源以及传送路径重新分配,由此而提高了资源调度效率。但是,在进行资源分配以及路由重建的过程中,需要较长的保护时间,恢复机制运行较慢,但是资源利用率得以提高。可见,网络的生存性与资源利用率存在着矛盾。

3 建立IP over OTN光网络联合组网

IPoverOTN光网络联合组网改进了光网络节点技术,使光节点设备功能更为灵活,可以实现光层上的IP数据调度,以优化网络资源配置,使网络管理成本降低。IP over OTN光网络联合组网的运行更为注重服务质量。业务运行中,信息的传送、管理和控制都会在网络平面上运行,且IP网络与OTN光网络的信息传输在统一的平面上完成,实现了电层网络与光层网络的融合。IP over OTN光网络联合组网的传送平面与管理平面、控制平面的统一,其中,传送平面可以针对业务的不同质量要求而在IP网络与OTN光网络之间协调。如果传送平面采用MPSL-TP传送架构,控制平面则采用相应的交换协议技术,管理层面则实施跨层面集中管理,并对网络技术以优化。如果对数据传输业务的服务质量没有太高要求,则需要通过OTN光网络ROADM自动调度技术或者OXC技术就可以完成[4]。如果网络业务运行中需要提供语音业务,则要通过光通道层来实现光数据业务的保护与管理。如果对数据传输业务的服务质量具有很高要求,则需要采用多层保护方式,传送平面技术可以选用MPSL-TP技术向OTN光网络映射,在多层保护下数据传送效率得以提高。

4 结语

综上所述,IP over OTN 组网方案的运用,促使OTN设备进入到市场中,充分地发挥了商业能力且提高网络资源的利用率。但是,在IP over OTN 组网运行中,往往会存在IP over OTN光网络路由与生存性问题。通过完善网络控制技术,引入自动交换技术以优化网络资源配置,可以提高业务传送的可靠性。

参考文献

[1]李园.下一代骨干网:融合的高效能T比特光传送[J].通信世界,2012(12):25.

[2]蔡庭,黄善国,顾畹仪,等.基于蚁群优化的IP over WDM光纤网络动态生存性映射算法[J].光子学报,2012(12):1400-1405.

第9篇:网络故障等级范文

关键词:数据中心;InfiniBand;故障诊断;贝叶斯分类;增量学习

中图分类号: TP393.07

0引言

数据中心是Internet的重要基础设施,是为用户提供数据存储、计算和传输的核心。随着互联网的飞速发展,特别是大数据时代的到来,数据中心在Web服务、搜索引擎、电子商务、社交网络、网络游戏及大规模集群计算等领域中的关键作用日益显现[1]。目前数据中心的网络规模日益庞大,互联的计算节点数量能达到100000以上的量级,而交换节点的数量也接近10000量级。数据中心性能需求表现为高带宽、低延迟、低主机开销和低存储开销等特点[2]。InfiniBand(以下简称IB)是目前数据中心互联的主流网络。2013 年 11 月公布的TOP500高性能计算机排名中,InfiniBand 是最常用的互连技术,在 TOP100 名单中占 48%,TOP200 占 48.5%,TOP300 占 44% 而在 TOP400 系统中则占 42.5%。2010年,Oracle通过在其数据仓库和数据处理平台Exadata中使用IB交换,处理性能提升10倍[3]。2010年,Google在其研究工作中采用IB和蝶形网络拓扑构建数据中心,网络功耗节约85%[4]。2011年,Microsoft基于IB组建高性能数据中心支持其Bing Maps应用,与传统基于以太网的架构相比节约80%的功耗和50%的成本[5]。Stanford课题组通过IB互联分布式DRAM实现了高性能数据中心存储系统[6]。

在大规模数据中心网络中,网络的故障率呈指数增加,长期的实践[7]表明,故障率随着网络中节点数快速增加,例如,从服务节点故障的角度看,服务单点可靠性为99.99%,按照10000级的规模计算则网络故障率为63%,若单点可靠性为99.9%,则网络故障率几乎达到100%。大规模数据中心网络运行的应用通常对网络性能要求严格,需要管理者能更加实时、精确地掌握全网态势和端到端的通信性能,在网络性能下降之后及时发现和定位故障和网络拥塞, IB网络在大规模数据中心网络中的应用越来越广泛,研究面向大规模IB网络的故障诊断方法,保持和提高IB网络运行的健壮性,提高网络的修复能力,保障网络上关键任务的成功完成非常重要。

1相关研究

近年来针对网络故障的诊断方法已经进行了大量的研究。出现了以贝叶斯网络方法、数据挖掘方法等为主的故障诊断方法。文献[8]提出了一种基于拉格朗日和次梯度法的网络故障诊断方法(novel location approach based on Lagrangian Relaxation and Subgradient Method,LRSM),该方法对现在的二分图故障传播模型进行改进,加入虚假故障因素,在改进二分图模型的基础上提出了故障定位问题的01最优化描述,并利用拉格朗日松弛法和次梯度法对问题进行求解,有效提高了分类检测精度和减少了诊断时间。文献[9]提出了一种基于谱图理论的故障诊断算法(Alarm Correlation Algorithm based on Spectral Graph theory,ACASG),建立了时序告警关联数据模型,将告警数据看作一个高维空间,具有相关特性的告警是隐含在该空间中的局部结构,通过谱图理论发现高维数据空间中潜在的低维映射结构,通过分析低维空间中点结构之间的相似性,实现告警数据的可视化显示,该方法不仅可以发现告警的相关性,而且还可以通过分析谱图的变化预测定位网络中发生的故障。文献[10]针对网络层和数据链路层,为简化故障决策算法、降低误报率,提出了一种基于粗糙神经网络的故障诊断算法 (Rough Artificial Neural Network,RANN)和分层故障诊断思想,通过神经网络来逼近故障诊断这种映射关系,实现对故障的分类,利用正域的概念,去除冗余属性,求取条件属性集对于决策故障属性集的简化,同时结合分层分布优化的思想,将网络故障分类,每一类故障诊断系统含有多个反向传播(Back Propagation, BP)子网络,通过粗糙集理论逐层分类,构成一个多级复合神经网络系统,实现故障分类。文献[11]基于PMC(PreparataMetzeChien)模型,提出了一种适用于当代数据中心网络的分层式诊断(Hierarchical Fault Diagnosis, HFD)算法,由网络拓扑结构生成涵盖所有单元的最小生成树Xtree,按其路径组织多次测试。根据测试结果,求出各基本单元组的故障概率,依此将系统中所有单元组划分为存在故障概率较大的“相对故障单元组”和存在故障概率非常小的“相对正常单元组”两类。文献[12]提出了基于贝叶斯征兆解释度的链路故障诊断方法进行网络的故障诊断。

由于大规模数据中心网络本身的复杂性、不规律性的特征,网络故障分类处理过程涉及到多方面的综合知识,想获得良好的分类效果,不仅仅是单纯的分类算法问题,必须运用多种策略加以解决。目前网络故障分类方法的研究存在以下几点不足:

1) 训练样本参差不齐,分类方法首先要进行训练学习,其训练过程需要一定数量的训练样本。而在网络系统中包含着大量的不确定因素,故障症状与故障源之间可能存在非线性映射关系,同一种故障往往有不同的表现,同一症状又往往是几种故障共同作用的结果,多个相关故障可能同时发生。因此,选择越多的训练样本,样本的代表性越强,训练效果才会越好,分类性能才能越高。一般情况下,人们比较容易得到一些大致的样本类别,比如用户数据报协议(User Datagram Protocol, UDP)报文、传输控制协议(Transmission Control Protocol, TCP)报文和Internet控制报文协议(Internet Control Message Protocol, ICMP)报文等等,然而这些训练样本集中样本的质量往往是参差不齐的,有些样本的表现模棱两可,有些甚至是错误的,若直接在这些样本上进行学习,将使分类的效果大大降低。可以想象对存在大量不准确的分类样本地学习是很难获得良好的分类效果。而且在实际使用过程中,大量高质量的训练样本集合的获得是非常困难的,通过人工的方法对训练样本进行筛选也是不现实的。

2) 没有统一的特征选取标准,构造分类器的关键是选择合适的特征构成特征向量。网络系统中故障发生时的网络表现有着很大的差异,代表不同故障的特征也不尽相同,选择什么样的特征来构成特征向量,特征向量的长度取多大,都一定程度上影响着网络管理平台下故障分类的精度。以简单贝叶斯分类方法为例,我们知道简单贝叶斯方法具有简单和分类精度高的特点,但是如果随意使用训练样本中任意单位作为特征向量的一维,不仅满足不了简单贝叶斯方法对特征独立性的要求,而且会极大地影响分类精度。

3) 学习能力弱,对待分类数据进行分类的阶段是一个开环处理过程,分类系统在经过一次训练之后,将再也无法从实际的分类处理过程中获得更新信息,这样缺乏学习能力的分类系统在实际使用过程中不能根据实际情况进行分类模型的调整,从而导致了分类系统随着运行时间的延长和范围的扩大,性能逐渐降低,这也是制约分类系统实用化的重要因素。本文提出的大规模IB网络自学习的故障诊断方法IL_Bayes有以下创新:

1)对现有的训练样本进行必要的预处理,从初始的训练样本集中去除噪声样本,选取高质量的样本构造分类器,实现良好的分类效果。

2)我们对不同的故障类型选取不同的特征向量,构成特征向量的特征分量要尽可能地反映故障的特征,获得较高的故障分类精度。

3)通过增加对分类结果的学习能力,使分类系统不断自我完善和更新,可以应对实际大规模网络的复杂情况。

2大规模IB网络自学习的故障诊断方法

2.1相关描述

首先给出本文所提故障诊断方法的相关定义。

定义1C={C1,C2,…,Cm}是一个故障类集合,其中C1,C2,…,Cm分别是该故障类集合的故障类。

定义2d=(x1,x2,…,xn)为新故障样本,即待分类故障,其中x1,x2,…,xn是新样本d的n个属性。

定义3f(xj)为故障d中属性的评估函数,在P(xj|Ci)f(xj)中, f(xj)越小,属性xj在分类器中的作用越小。

贝叶斯分类方法起源于贝叶斯统计学,是以概率论为基础的分类模型,它为不确定知识的表达提供了自然、直观的方法,是目前非精确知识表达与推理领域最有效的理论模型。贝叶斯分类方法主要有以下3个规则[12]:

1)贝叶斯规则。

P(B|A)=P(A|B)P(B)P(A)(1)

式中:P(B)被称为先验概率,即在A状态未知时B发生的概率; P(B|A)为后验概率,表示A状态已知时B发生的概率。贝叶斯规则允许在两个方向上进行概率推理。

2)独立性规则。

如果P(A|B)=P(A|B,C),则给定变量B,变量A和变量C是独立的。即在B已知的情况下,变量C不能改变变量A的概率。

3)链式规则。

在P(A|B)中,A具有n个属性,即A={x1,x2,…,xn},则:

P(A|B)=P((x1,x2,…,xn)|B)=∏ni=1P(xi|B)(2

2.2大规模IB网络自学习的故障诊断方法IL_Bayes

设故障训练集样本有m类,记为C={C1,C2,…,Cm}, 对于给定的新样本d,其属于Ci类的条件概率是P(d|Ci)。根据贝叶斯定理,Ci类的后验概率为P(Ci|d),即:

P(Ci|d)=P(d|Ci)P(Ci)P(d)(3)

其中:P(Ci)、P(d)对于所有的类均为常数,可以忽略,则式(3)可以简化为:

P(Ci|d)∝P(d|Ci)(4

贝叶斯分类器将新的故障样本d归于类Ci的依据就是要求出极大后验假设,即:

P(Ci|d)=argmax{P(Cj|d)P(Cj)}; j=1,2,…,m(5

新故障d由故障的不同属性所组成,即d=(x1,x2,…,xn),n是d中的属性个数,根据朴素贝叶斯分类器的独立性假设,有:

P(d|Ci)=P((x1,x2,…,xn)|Ci)=∏nj=1P(xj|Ci) (6)

式中P(xj|Ci)表示分配器预测属性xj在类Ci中发生的概率。

P(xj|Ci)=(1+T1(xj,Ci))/|q|+∑mw=1T1(xj,Cw)

其中:|q|表示属性总数,T1(xj,Ci)表示属性xj在Ci类的所有类中出现的频数之和。

构造每个故障的向量,用n维属性向量表示A={x1: f(x1),…,xn: f(xn)},xi(i=1,2,…,n)为故障属性,f(xj)为属性的评估函数,则式(4)可以改进为:

P(Ci|d)∝∏nj=1P(xj|Ci)f(xj)(7

为未分类故障d分类就是计算P(Ci|d),未分类故障d属于类别Ci P(Ci|d)>P(Cj|d),i≠j,由式(7)可知,计算P(Ci|d)只需要计算未分类故障d的n个属性xj在类Ci中的概率即可。

基于上述分析,本文提出面向大规模IB网络增量学习的故障诊断方法IL_Bayes,在利用贝叶斯分类器处理数据的过程中,难免会遇到训练集类别里面不存在的其他类,对于这种情况处理过程就会发生错误,如果在贝叶斯分类器上建立自学习机制,对于处理过程中产生错误的数据,根据数据特征建立新的类别,就可以有效解决这个问题。本方法分为3个阶段,即构造和训练分类器阶段、故障分类处理阶段和再学习阶段。

1)构造和训练分类器阶段。

依次读取训练样本集中的每个故障告警信息,提取故障属性xj。根据专家知识和经验,人为地对这训练集样本进行故障分类,记为C={C1,C2,…,Cm};

①对样本集的每个故障和该故障的属性,分别计算∏nj=1P(xj|Ci)f(xj),根据计算结果判断未分配故障d属于哪个故障类,即Ci P(Ci|d)>P(Cj|d), i≠j;

②对于没有匹配上的故障告警信息,则重复步骤①,建立新的故障类,并加到故障类集合C中,重复步骤②;

③训练结束,将所分的故障类C添加到分类器中以便处理故障数据。

2)故障告警数据分类处理阶段。

①当网络发生异常时,读取待处理故障告警信息d的属性xi,计算∏nj=1P(xj|Ci)f(xj),根据计算结果判断未分配故障d属于哪个分类,即Ci P(Ci|d)>P(Cj|d), i≠j;

②对于处理错误的告警信息,即故障类集合C中不存在此类故障的分类,则转入再学习阶段。

3)再学习阶段。

①读取故障处理过程中出现错误的告警信息,提取故障属性xj。

②根据故障告警信息的属性值,建立新的故障类,并加到故障集C中,重复故障告警数据处理阶段步骤①;

3实验分析

为了验证本文方法,构建了一个基于InfiniBand的高性能计算机互联结构,其网络拓扑为胖树结构,如图1所示。

其中存在12个边缘接入的汇聚交换节点(Aggregate Switch),每个接入交换节点支持18台服务器接入。二级交换采用全相连结构,每个汇聚交换节点通过3个连接和每个核心交换节(Core Switch)互联,从而构成了非阻塞的网络结构。链路均采用QDR(40Gb/s)传输速率。

所有服务器均运行Red Hat Linux 6.1 x86 64位操作系统,采用开源OFED(Open Fabrics Enterprise Distribution)1.5.4驱动和管理HCA设备,通过其中的OpenSM模块提供了对网络的管理。

OpenSM是InfiniBand的子网管理软件,用来管理集群系统中的成百上千个节点,默认的工作模式是发现IB的子网拓扑,初始化子网,然后定期扫描子网的变化。OpenSM运行的日志文件存放在/var/log/message和/var/log/opensm.log中,第1个文件一般存放的是主要的事件日志,第2个文件存放的是系统运行错误的详细情况。

具体内容包括:告警时间、线程id、日志等级和日志具体内容。下面对日志等级进行详细说明:OpenSM的日志共分为8个等级,具体如下:

0x01 CERROR(error message

0x02 CINFO (basic message, low volume

0x04 CVERBOSE(interesting stuff, mosderate volume

0x08 CDEBUG(diagnostic, high volume

0x10 CFUNCS(function entry/exit, very high volume

0x20 CFRAMES(dumps all SMP and GMP frames

0x40 CROUTING(dump FDB routing information

0x80 Ccurrently unused

在网络运行过程中日志记录的比较常见故障类型如表1所示。

故障类型描述

osm_get_port_by_mad_addr当前SM不能识别一些查找请求的LID

pi_rcv_check_and_fix_lid

1.SM质疑一些结束端口的PortInfo和基于LID 0xffff的接收数据

2.SM还未配置的端口,IBA 规则不能识别其LID

3.日志消息属于某些调试信息

osm_pr_rcv_process1.当前SM不能识别被SA PathRecord请求的端口

2.由于SM没有作出反应导致结束端口堆栈查询超时

3.上述两个错误显示在子网改变期间查询,结束端口堆栈应该重试查询

log_trap_info1.流量控制监视程序计数器在监视时超时,SMA交换机发出紧急trap

2.流量控制更新错误

3.可能是由于在OperationalVLs上的对等端口不匹配

log_rcv_cb_error1.可能是新的MulticastFDBTop字段选项出问题

2.从SM流入交换机的初始路径出问题

3.交换机的固件版本不相符

4.在SM中禁止了这些流

sm_mad_ctrl_send_err_cb1.SM没有收到从SMA的NodeInfo查询响应

2.检查VL15的下行计数器

sm_mad_ctrl_send_err_cb1.Mellanox需要FDR10的专有SM MAD支持

2.可能是使用了旧版本的Mellanox固件,如果可能,需要检查版本和更新

3.替代方法是关闭opensm配置文件中的SM经由FDR10的FDR10支持

perfmgr_mad_send_err_callbackPMA没有回应PerfMgr的请求(获取或设置)

Perfmgr_send_mad当发送PerfMgtMAD到PMA时,PerfMgt没有在“suspended”状态

osm_get_port_by_mad_addr当前SM不能识别一些查找请求的LID

pi_rcv_check_and_fix_lid1.SM质疑一些结束端口的PortInfo和基于LID 0xffff的接收数据

2.SM还未配置的端口,IBA 规则不能识别其LID

3.日志消息属于某些调试信息

osm_pr_rcv_process1.当前SM不能识别被SA PathRecord请求的端口

2.由于SM没有作出反应导致结束端口堆栈查询超时

3.上述两个错误显示在子网改变期间查询,结束端口堆栈应该重试查询

在一个故障发生的时候,诊断算法应该能够尽可能准确地定位故障,按照某种故障是否发生以及是否正确诊断出故障,故障诊断算法的精确性表现为4个方面,如表2所示。

故障诊断的精度由公式(A+D)/(A+B+C+D)计算,其中A+B=100%,C+D=100%。在实际的诊断中,人们常常更加关心A类和C类的精度,A类精度代表了一个诊断方法的实际能力,一个故障发生后是否能够被诊断方法识别和定位,C类精度标志着一个诊断系统的可靠性。

本文选取1500个网络事件信息作为待分类故障样本集,根据上述分析,故障样本集大致可以分为15个故障类,将其中的x个事件作为训练集,1500-x个事件作为验证集,将IL_Bayes算法与文献[12]中提出的基于模糊概率神经网络的故障分类算法(Fuzzy Probabilistic Neural Network Classifier, FPNNC)在故障A类精度(即诊断精度)和C类精度(即误诊率)两方面进行了比较,结果如图2和图3所示。

由图2可以看出,两个分类算法的分类精度随着训练集的增大而增加,由于对故障进行了增量学习,IL_Bayes算法比FPNNC算法的分类精度高。

图3可以看出两个算法的故障误诊率随着训练集的增大而降低,增量再学习机制使得IL_Bayes方法比FPNNC方法的故障误诊率更低。

通过上述实验证明,IL_Bayes方法具有较高的分类精度和较低的故障误诊率,在一定程度上有效地解决了IB网络的故障分类问题,为IB网络故障的诊断提供了一个较为有效的方法,同时在IL_Bayes方法中引入了再学习机制,能对分类器进行修正,不断完善故障类集合,达到了故障分类性能优化的目的。

4结语

本文针对大规模数据中心网络中如何有效监控网络异常事件、发现网络性能瓶颈和潜在故障点,为网络性能优化提供支持,深入分析IB网络的特性,引入了特征选取策略和增量学习策略,提出了一种面向大规模IB网络增量学习的故障诊断方法IL_Bayes,在天河2真实的网络环境,并对算法的诊断精度和误诊率进行了验证。

本文研究了贝叶斯理论在故障诊断中的应用,进一步研究高效率的贝叶斯推理算法和学习算法将是提高故障诊断决策方法效率的关键因素和重要研究内容。

参考文献:

[1]DENG G, GONG Z, WANG H. Characteristics research on modern data center network[J]. Journal of Computer Research and Development, 2014, 51(2):395-407.(邓罡,龚正虎,王宏. 现代数据中心网络特征研究[J]. 计算机研究与发展,2014,51(2): 395-407.)

[2]SHEN L. Research and implementation of InfiniBand network interface [D]. Changsha: National University of Defense Technology, 2010: 1-3.(沈力. InfiniBand网络接口的研究与实现[D]. 长沙:国防科学技术大学,2010: 1-3.)

[3]Oracle Corporation. An oracle white paper: consolidating Oracle applications on exalogic[EB/OL].[20150322].http:/// us/products/middleware/appconsolidationexalogic395610.pdf.

[4]ABTS D, MARTY M R, WELLS P M, et al. Energy proportional datacenter networks[C]// Proceedings of the 37th Annual International Symposium on Computer Architecture. New York: ACM, 2010:338-347.

[5]Mellanox Corporation. Mellanox solution brief: Mellanox low latency, high bandwidth InfiniBand for Web 2.0 and cloud deployments[EB/OL].[20150322].http:///relateddocs/company/MLNX_Corp_Inv_deck.pdf.

[6]OUSTERHOUT J, AGRAWAL P, ERICKSON D, et al. The case for RAM clouds: Scalable high performance storage entirely in DRAM[J]. ACM SIGOPS Operating Systems Review, 2009,243(4): 92-105.

[7]SONG H, QIU L, ZHANG Y. A flexible framework for largescale network measurement[J]. IEEE/ACM Transactions on Networking, 2009, 17(1):106-119.

[8]ZHENG Q, YAO M, QIAN Y. Novel fault location approach based on Lagrangian relaxation and subgradient method[J]. Systems Engineering Theory and Practice, 2008,28(11):155-164.(郑秋华,姚敏,钱云涛. 基于拉格朗日松弛和次梯度法的网络故障定位新方法[J]. 系统工程理论与实践,2008,28(11):155-164.)

[9]XU Q. Study of network fault alarm correlation based on data mining[D]. Beijing: Beijing University of Posts and Telecommunications, 2007: 88-102.(徐前方.基于数据挖掘的网络故障告警相关性研究[D].北京:北京邮电大学,2007: 88-102.)

[10]QI Y. Computer network intelligent diagnosis technology[D]. Nanjing: Nanjing University of Science and Technology, 2004.(戚涌.计算机网络智能诊断技术研究[D].南京:南京理工大学,2004.)

[11]XUAN H, ZHANG R, ZUO M, et al. A hierarchical fault diagnosis algorithm for data center network[J]. Acta Electronica Sinica, 2014,42(12): 2536-2542.(宣恒龙,张润驰,左苗,等.面向数据中心网络的分层式故障诊断算法[J].电子学报,2014,42(12):2536-2542.)