公务员期刊网 论文中心 正文

谈数据分析支持片区用户服务

谈数据分析支持片区用户服务

摘要:数据建模是数据挖掘的重要步骤,而高品质的数据是模型成立的坚实基础。为了保持和保护原始数据的原貌不变,同时减少干扰因素对分析结果的影响,建立中间数据库是有效、便捷的方案。特征宽表与关联数据叠加形成多维度交织的关系凸显特诊数据是本文阐述的建模思路,中间数据库的建设使得终端个体特征宽表、终端群体特征宽表成为可能,最终实现数据挖掘成果。

关键词:中间数据库终端个体特征宽表终端群体特征宽表

1前言

数据仓库、网管系统、统计报表在广电行业运营服务中的使用已非常成熟。为了更好发挥各个支撑系统的实际作用,支持好片区用户服务开展,全新的、符合需求的数据建模方式的研究试验工作相继展开。

2试验环境

选取一个在网PON业务板卡下的覆盖范围为10000户的区域作为试验分析对象,该覆盖范围以PON+EoC的组网,覆盖小区有多层、高层等多种房屋类型(接入网设计风格多样),主要观察对象为使用TVOS2.0交互机顶盒的用户。

3试验用数据平台模型

该数据平台用于建模试验及验证,为简洁、高效,仅搭建了数据仓库所必须需要使用的几个部分。数据平台模型示意图如图1所示。

4平台基本情况

4.1数据源

(1)业务数据来自公司已建成的数据仓库资源,该部分数据已经过清洗处理,数据品质较高可直接使用(包括用户基本信息、产品信息、业务变更、报修信息等)。(2)终端数据来自交互型机顶盒(STB)与宽带终端(EoC)的网管采集数据。由于终端上线与开机的情况受到用户使用习惯的影响,该部分数据经过去“空”、去“零”、异常去除等多种方式存入试验用数据仓库。(3)网络拓扑及网管数据该部分数据描述了每组STB+EoC终端所在的广播网和宽带网络关联网元关系,与每个可管理网元的运行数据(性能采样及告警等)。(4)其他关联数据资源包括实验覆盖范围内可能使用的各种网元及终端的硬件、软件版本、业务产品关联的业务逻辑、网络规划策略等,网络主动维护改扩建等。

4.2处理层

(1)数据仓库用于存储清洗后的数据源。(2)中间库用于对数据仓库的数据预处理。根据建模的需求将不同数据预先整合,既提升整个平台的性能,也有效减少数据仓库中的冗余数量,能有效保护源数据的原貌。(3)试验模型本次试验的关键部分,下文详述。

4.3展现层

根据片区服务的需求以三种形成展现方式使用。(1)可查询定制清单。(2)定制报表。(3)可视化综合分析。

5需要解决的问题和解决方案

最常见并实用的需求如单个用户的历史记录分析。人工解读单个用户/终端数据非常简单,但面对百万级的用户终端数量而言人工是不现实的,计算机面对单个用户/终端的数据多样性特点难度极大。综合片区服务一些需求的特点和人工解读单个用户/终端数据方法。提出在中间库建立终端个体特征宽表和终端群体特征宽表的设想,以这两个宽表为基础,叠加关联数据(如用户报修、网络报修,网络改建、升级,系统告警、用户行为等),将特征数据凸显出来。终端个体特征宽表主要解决因用户使用习惯造成的采样记录的数量问题。将在线的每个终端的日数据记录收敛成一条,宽表的特征信息包含用户基本信息、网络拓扑关系、性能指标等每项都设定收敛策略。终端群体特征宽表则主要解决指定/选定范围群体数据集合问题。在指定/选定范围内终端硬件型号差异、关联网络、网元差异、产品差异等原因都会导致数据无法收敛、离散无序、偏差极大等多因素混杂的状况,使得特征数据淹没。采样逐项进行阈值设定和偏差补偿、校验弱化混杂因素作用的方式解决集合问题。

6试验成果

6.1网络衰减特征

网络衰减问题是接入网运行及维护中最基本的指标,也是试验中最难处理的数据。该项数据存在记录数量巨大,波动不明显,偶发数据容易被淹沉等问题。试验通过个性宽表与群体宽表的对比,网络拓扑的星型结构关联关系,展现出某个群体(个体)与整体数据的偏差。以偏差量由大到小排列,提取用户地址信息归类。经片区服务人员验证。用户网络隐患基本能指向到户内、楼内、PON口下、光节点下等几个层级。该模型可初步定型。

6.2终端软件版本管理

终端个人宽表中软件版本与软件版本升级关联识别出未升级成功用户。片区服务验证发现存在。(1)机顶盒硬件故障(更换后经厂商维修存储器部分受损)。(2)网络不稳定导致反复升级,后期实验中将加入宽带稳定性参数。(3)CPU负核过高。由于升级软件BUG,导致升级后CPU负核过高,经升级软件修复,现象消除。模型基本有效,可供软件升级专项使用。

6.3宽带用户使用体验

宽带用户反映网速慢、网卡是最常见的报障现象。从用户群相宽表的宽带数据与用户业务数据比对发现,其关联性并不完全吻合。用户体验与同一EoC头端共有用户使用情况,与同一PON口共有用户使用相关联,晚间高峰时间网络资源不足的现象有特征数据出现,但不明显。由于试验范围与暴满需扩容案例,该模型将扩大试验进一步验证。视扩大试验验证情况完善模型。

6.4交互应用情况

交互应用与用户使用习惯关联的试验,试验数据中表现出用户交互使用时CPU负核的变化。但在与用户产品等相关数据关联时未发现特征数据,也未发现其他特征,模型试验失败。试验通过五个模型的试探,三个达到了预期的成果,一项可继续扩展,一项失败。经过这五项的试验,证明以网络拓扑为主线,以个体特征、群体特征二个宽表为基础,叠加各种维度的数据可以显现出运营服务所需要的特征数据。这些数据能够给到服务具体的帮助。

7结束语

上述试验只是建模思路的初步探索的第一阶段,后期将向二个方向推进。方向一,将成功建模的实验扩大范围验证,完善并推广使用,对仍有问题和失败的模型调整补充;叠加新的数据维度寻找新的特征数据。方向二,选取有特殊片区服务需求和资深专家给到的片区服务建议用数据模型显示出来,供片区使用。

作者:徐沁 单位:东方有线网络有限公司