公务员期刊网 论文中心 正文

智慧运维平台设计与分析

智慧运维平台设计与分析

摘要:为建设自主可控的数据中心智慧运维管理平台,系统调研国产化数字产品及服务研发现状,以数据中心业务需求、设施需求、管理需求、自助服务管理及事件管理为目标,以物理层、资源抽象层、云服务层与云安全防护层构建管理顶层平台架构,从分别以业务管理及运行监控为中心进行了平台详细功能设计、资源池设计与安全设计,最后综合分析了国产化智慧运维管理平台的效益。国产化智慧运维管理平台可将数据中心局域资源纳入统一管理范围,建立科学合理的管理体系,建立标准规范的运维管理流程,实现数据资源主动的、灵活的、集中的、高效的管理和运维。

关键词:数字化;数据中心;运维平台;国产化

面对快速增长的IT基础设施和应用系统,业务系统规模日趋庞大、架构日趋复杂,各类企业对业务系统的稳定性、可靠性要求也越来越高。为提高业务系统日常运维的可视化、提高运行效率、量化运行质量,建设智慧运维平台已迫在眉睫。然而,我国在基础软件、高端芯片、专用设备、测试仪器、关键工艺等核心技术方面都存在短板,整个IT产业链中最核心的芯片、CPU硬件和操作系统软件大多数依赖国外技术或直接进口。自主创新、自主可控,两者的落实和发展都离不开国家的政策支持与引导。2003年中共中央办公厅、国务院办公厅联合转发的《国家信息化领导小组关于加强信息安全保障工作的意见》明确指出要重点保护基础信息网络和关系国家安全、经济命脉、社会稳定等方面的重要信息系统,抓紧建立信息安全等级保护制度,制定信息安全等级保护的管理办法和技术指南。2016年,网络安全被正式划入“十三五”规划重点建设方向,包括《网络安全法》、《国家网络空间安全战略》及近期的《战略性新兴产业重点产品和服务指导目录》在内的多项重磅政策密集出台,加速推动信息安全产品需求释放。因此,为建立安全可控、运维高效的数据中心运维管理平台,本文全面分析国产化设备与技术与微软技术体系的适配性与兼容性,采用国产化设备与技术服务搭建数据中心运维平台,为企业数智化发展提供安全可控保障,对指导国产化数字产品的推广应用具有现实意义。

1国产化产品现状

1.1CPU

我国服务器芯片自主研发主要有以下五种方向:Alpha架构、ARM架构、MIPS架构、X86架构、Power架构。涌现出了基于MIPS的龙芯、基于X86的海光、基于MAR的飞腾和鲲鹏以及基于Alpha架构的申威等,不同芯片参数对比为提高与既有数据中心设备及系统的兼容性,从架构层次来说采用X86生态的芯片兼容性最佳,其他的厂商需要构建自己的生态系统。虑到单核性能和核心数的差异,不同芯片会存在较大差距。从拥有自主知识产权和芯片安全可控方面考虑,国产芯片可选择种类较少。

1.2操作系统

操作系统是平台连接软硬件的纽带,在自主安全上处于核心地位。国产操作系统多为以Linux为基础二次开发的操作系统。国内基于Linux二次开发的国产化服务器操作系统目前有很多家,主要包括麒麟、普华中科方德、深度等操作系统。国产操作系统情况上述国产操作系统中,两类国产操作系统在服务器端的应用发展较为成熟,通过了多个国家权威部门的测评,可支持龙芯、飞腾、申威、鲲鹏等多种主流国产化芯片,其产品支撑着国防、政府、企业、电力和金融等各领域的应用,满足政府部门、国防、金融、电力、机要、保密等领域对操作系统的高安全性需求。

1.3数据库

代表性的国产化数据库厂商有:神通、金仓、达梦、南大通用等。主流国产化数据库技术路线

2平台顶层设计

智慧运维管理平台建设整体分为四大部分,分别是:物理层、资源抽象层、云服务层与云安全防护层。以上架构设计可以实现各个模块在保证各自独立性的前提下独立运行,还可以实现各模块深度融合、自动化运营,从而保证整体技术架构的灵活性、先进性、合理性、高可用、高安全和可扩展性。物理层包括智慧运维管理平台所需的机房运行环境,以及计算、存储、网络、安全等设备。通过部署国产化交换机、防火墙、服务器等设备,为智慧运维管理平台提供基础的物理运行环境。资源抽象层通过虚拟化技术,负责对底层硬件资源进行抽象,对底层硬件故障进行屏障,统一调度资源池。核心是计算虚拟化技术,该技术提供主机CPU、内存、IO的虚拟化,并通过共享文件系统保证虚拟主机的迁移、HA集群和动态资源调度。云服务层是依托于原数据中心云平台具备的云计算IaaS服务能力,为智慧运维管理平台提供云存储、云防火墙、云网络等多种类型的云服务。云安全防护层为物理层、资源抽象层、云服务层提供全方位的安全防护。包括应具备的漏洞扫描、主机防御、网站防御、租户隔离、认证与审计、数据安全等模块。

3平台功能设计

3.1平台功能架构

功能架构划分为两个层次及两大模块,各层形成一个统一的整体,为数据中心提供云内资源的统一运维、监控及管理服务。智慧运维管理平台的整体功能架构最底层是IT基础设施层,即平台的被管理对象,它包含数据中心范围内运行使用的对象,包括网络设备、服务器、计算存储资源、系统应用软件、虚拟化资源等。运行监控管理模块实现对IT基础架构统一监控,通过或免的方式实现数据采集和数据处理,实现对被管理运行对象的监控,掌握运行资源的配置状况、监控对象的运行状态和性能参数。业务服务管理模块基于运行监控管理模块的数据采集及数据处理信息,按照业务进行建模,展现业务的整体运行情况,进行业务预警和快速发现IT系统的根源故障。业务展示层,提供了多种展示视图和方式,为不同的用户提供不同的管理视图,包括领导视图、运维门户、自服务门户、业务展示视图等。

3.2平台详细功能设计

具体功能包括业务管理、应用资源管理、容量管理、用户体验管理、自动化运维管理、告警管理、报表管理等功能。

(1)业务管理:实时展示各个业务系统当前的用户体验层状态,IT基础架构层运行状态,IT架构层指标包括:健康状态、繁忙程度、可用状态、业务告警总览。

(2)应用资源管理:对不同的业务系统、应用和网络服务进行远程监控和管理,从而充分满足用户对各种关键业务和数据中心的监控管理需求。

(3)网络设备管理:提供设备的详细信息,包括设备地址、运行时间、设备型号、版本、接口数量、登入方式、路径拓扑展示、会话连接数、CPU利用率、内存利用率、端口流量速率、告警信息等监控,起到网络性能管理、网络配置管理、网络资源管理等作用。

(4)存储管理:平台支持对业内主流存储设备的监控与管理功能,可对支持并开启相关协议的存储设备进行统一管理。

(5)自动化运维管理:预先构建的合规性基准,合规性部署模板和修复措施,基于现有合规内容创建符合外部(如国资委、公安部、网信办)监管要求的行业基准和策略。

(6)告警管理:通过实时告警关联分析,屏蔽重复无效告警,分析生成根因告警;通过实时告警与拓扑提示、通过告警板声光提示、通过手机短信及Email、微信等远程提示,快速通知网络管理员详细准确的故障信息。

(7)报表管理:提供集中的报表管理平台,实现对报表模板管理、Web报表设计管理、周期性报表管理和报表模板的,同时提供实时报表和周期性报表的查看。

3.3安全设计

安全设计包括链路安全上的防火墙、入侵防御、防病毒等以及日志审计、运维审计、漏洞扫描、数据库审计等能力,从而使得智慧运维平台能够满足国家安全等级保护三级的部署要求。为了完善国产化资源池与数据中心环境之间的安全隔离,国产化资源池接入区部署一台国产化防火墙,实现国产化区域与非国产化区域之间的信息交互的安全可靠。

4技术路线

在满足需求的前提下,采用应用国家创新的安全可靠的信息化设备;在满足安全可靠要求的前提下,优先选择成熟度高、适配性强的产品,确保系统的稳定性、可靠性;选择符合相关标准协议的产品,确保产品间可互联互通及今后的可扩展;软件产品优先选用开放式体系架构的成熟产品,尽量减少自行开发工作,确保系统工作稳定。具体技术路线选择上可以从平台软件、基础硬件、兼容性和适配性四方面进行分析确认。

4.1平台软件选择

针对国产化技术改造平台类软件进行国产化分析,所涉及的运维平台、虚拟化等基础平台软件,还包括国产化操作系统,数据库,成品软件相关。对于核心技术使用开源项目的软件,需要进行分析,如对开源技术已进行深度定制开发,同时不受闭源影响,则可以选用。

4.2基础硬件选择

基础硬件设施选用包括服务器、存储、网络、安全等硬件产品,按照核心部件和相关软件的设计研发情况进行选择,优先选择获得国家对安全可靠认证的产品。其他相关国产化产品需要进行可研分析,核心部件选用自主设计生产的产品;对于核心部件使用国外产品,而国内没有可替代的产品,则需要进行专项分析。

4.3软硬件兼容性

需要充分考虑所选择的软硬件产品与既有数据中心平台环境的兼容性与适配问题。在对各厂商软硬件产品分析,平台软件、基础硬件选型过程中,需要充分论证各产品及其技术路线与现有数据中心平台环境是否兼容适配。

4.4适配性测试

为确保软硬件适配性及运行的稳定性,从需求分析审查、设计审查、代码审查、单元测试、功能测试、性能测试、可恢复性测试、资源消耗测试、并发测试、健壮性测试、安全测试、安装配置测试、可移植性测试、文档测试以及最终的验收测试等内容进行测试,及时发现平台缺陷,分析错误产生的原因和错误的分布特征,提升平台运行稳定性。

5平台实践

通过业务状态分布图直观呈现业务系统整体运行情况,核心业务卡片实时展示各个业务系统当前的用户体验层状态,IT基础架构层运行状态,IT架构层指标包括:健康状态、繁忙程度、可用状态、业务告警总览。管理设备类型:除了传统的路由器、交换机外,更能对网络中的无线、安全、语音、存储、监控、服务器、打印机、UPS等设备进行管理,实现设备资源的集中化管理。可以根据网络情况设置多种选项和自动化配置;可以设置多套设备访问参数,运维平台将自动适配每个设备使用的参数;通过网段过滤设置可以更加有选择性地发现网络设备;结合定时发现设置可以周期性的扫描指定网络,自动管理新加入网络的设备。平台还提供了丰富的故障检测工具,例如ping、tracert、telnet等。当鼠标悬浮在某个网络设备或者网络链路上时,显示网络设备和网络链路名称、IP地址、物理位置、网络互联端口、物理跳线连接、负责人等基本信息,网络链路双向实时流量、网络带宽使用率、网络时延、丢包率、错包率和CPU利用率等性能信息。自动对管理的网络设备资源进行周期性的状态轮询和配置轮询,缺省的状态轮询周期是1分钟,缺省的配置轮询周期是2小时,用户可以修改每个设备的状态轮询周期和配置轮询周期。在轮询的过程中,如果发现设备不可达、接口DOWN/UP等重要事件,平台将产生相关告警通知用户,同时会反映在设备的状态上。平台可以从存储组、存储设备,存储池,存储卷等多个层级对存储设备进行监控与管理。所实现的功能包括将多个存储设备组织成一个存储组、在存储设备上划分存储池,在一个存储池中划分存储卷等。平台提供了丰富的预定义报表模板,提供多种报表模板和图表类型,能够满足大部分用户的日常报表需求。并且可以基于预定义报表进行自定义设计,大大简化了用户自定义报表的工作量。可以多种形式展现网络性能监控报表。

6总体效益分析

智慧运维平台能够从单一管理控制台上获取整个数据中心的运维状况,更有效地了解各项服务的运行状态、及时解决系统故障,从而提高整个数据中心的运维水平,并且提高计算资源利用率。

6.1提高业务应用管理水平

能够感知业务应用系统整体运行状态,发现业务系统存在的问题,定位业务故障根因,及时解决相关问题,保障业务系统的正常运行。并且提供领导决策分析、运维监控历史数据分析依据,确保数据的真实性与有效性。通过分析历史数据,生成性能、故障等的量化分析报告,为决策分析提供可靠依据。同时还可通过可视化的监控中心完成对信息系统的全面管理、数据保护、成本管理和风险控制,极大地提升了运营能力。

6.2提升业务运维能力

提供业务服务状态和用户体验详情综合分析,实现业务故障早发现、早报告、早预警、早处置,保障业务高可用性。可以主动地在集群之间均衡工作负载,并且提供容量规划功能,让管理员更准确地分配资源,并且及时回收不再使用的资源。极大地提高了服务器的利用率,在满足总体容量需求的同时减少了每年的硬件采购支出。

6.3加速国产化产品适配

实现对国产化计算资源的灵活调度与弹性分配,充分使用了网络、服务器、安全、操作系统、数据库、虚拟化等国产化产品,极大促进了国产化产品在交通行业内的影响力。

6.4保障信息系统自主可控

依靠自身研发设计,全面掌握产品核心技术,实现信息系统从硬件到软件的自主研发、生产、升级、维护的全程可控,实现对信息系统安全监控管理,防止非法利用信息系统。直观展现业务运行状态,以可视化的方式进行故障定位分析,运维人员可以关注核心告警,快速解决现场问题,大大提升运维工作效率。

7展望

基于国产化数字产品及服务构建国产化资源池,兼容并适配既有软硬件,建立数据中心智慧运维管理平台,为数据中心部署的各类业务系统、服务器设备、存储设备、网络设备和安全设备提供统一监控、管理和运维。动态资源调整特性能够整合服务器,降低IT成本,增强灵活性。所构建的统一指挥、联网联动、信息研判、资源调配、综合管理为基本职能的管理平台将为数据中心关键业务运行状态发挥智慧监控与维护功能,提高各类信息应用系统日常运维的可视化程度、量化运行质量,提高IT系统运行效率,保障业务不间断运行。下一步,国产软硬件研发与适配分析仍是IT行业的重点研究内容,国产数字产品与服务替代仍是各行业的重点任务,全国各领域应积极推进自主平台研发与国产软硬件应用,为提升企业信息化建设水平、助力我国信息领域的自主创新及信息安全提供有力支撑。

参考文献:

[1]刘建兵,王振欣,杨华,等.主动安全网络架构与等保要求[J].信息安全研究,2022,8(01):28-34.

[2]曹龙,吉梁,朱彤.综合性集团网络安全水平评价指标体系构建与实证研究[J].信息安全研究,2022,8(01):101-108.

[3]张浩,秦宏波,侯震寰.上海市互联网数据中心能效状况研究[J].上海节能,2021(12):1359-1364.

[4]焦芳,张朝熙.自动拨测系统对数据中心业务保障的研究与实现[J].电子世界,2021(24):180-181.

[5]华日通讯自主研发国产化信号分析软件产品[J].中国无线电,2021(12):7.

[6]宁金叶,徐谦,罗小丽,等.基于国产化软硬件计算机的高可用集群软件设计[J].电脑与信息技术,2021,29(06):37-40.

[7]赵琪,郭森科,潘成瑶.智慧运维管控平台系统[J].中国交通信息化,2021(10):130-131+134.

[8]王新官.高速公路收费站智慧收费及运维系统[J].中国交通信息化,2021(08):107-109.

[9]卢士达,金玲丽,姚亦凡.智慧电力网络安全态势感知能力建设与提升——数据驱动从传统运维转型智慧运维[J].信息安全与通信保密,2021(08):60-67.

[10]徐世波,张林,郭延红,等.智慧校园背景下的网络运维综合管理平台设计研究[J].网络安全技术与应用,2021(08):98-101.

[11]李胜杰,马名东.智慧建筑运维管理平台初探[J].智能建筑电气技术,2021,15(03):16-19.

作者:郝志强 刘志胜 杨永杰 郗冬冬 单位:山西交通控股集团有限公司 山西省交通规划勘察设计院有限公司