公务员期刊网 论文中心 正文

互动点播业务中数据分析技术的应用

互动点播业务中数据分析技术的应用

业务数据分析基本技术介绍

随着信息技术的发展以及计算机的数据存储和处理能力的提升,数据分析技术的应用领域逐渐拓展,各种技术也日趋成熟。目前,在数据挖掘分析技术上已经形成了较为完备的体系,在大多数行业的业务数据分析领域已经形成了固定的技术模式。

1数据源准备

数据源是数据分析技术应用的重要前提,数据来源关系到各种业务分析所需要的数据是否齐全、原始数据质量是否可靠、数据提供的性能方面是否满足相关要求等。对于不同的行业领域,数据来源的渠道各不相同,对于数据分析应用而言,也需要在众多的数据中选取合适的部分进行后续加工和处理。对于大多数信息化技术应用比较广泛的企业而言,主要的业务运营数据源都可以从自身的信息管理系统中取得,如业务支撑系统、企业资源规划和管理系统以及流水线作业信息管理系统等。有部分数据信息是从非常专业的系统中直接采集到的,如专业调度系统、电话交换机以及生产线控制系统等。从这些系统中,可以取得企业运营过程中的基础信息和关键数据,这些数据通常是最能真实客观地反映企业运行情况。此外,数据获取的成本也比较低,稳定性和质量比较好,并且易于管理和重构。然而,就经营分析的角度而言,从企业内部提供的数据还不能满足全方位分析的需要,需要从企业外部获取必要的信息。比如为了深入了解客户的信息,就需要进行相应的市场调研工作,设计一些调查问卷,搜集与业务开展和经营相关的重要信息。另外,在某些特定的场合下,还有可能还需要从其它一些外部渠道去集中获得一些有关客户和市场的数据信息,目前有不少机构专门从事市场信息数据提供的服务工作。从企业外部获得的业务数据往往是针对性较强,有较高利用价值的信息。但这些信息的真实性、稳定性程度就比内部的数据源要低,并且数据获得的成本相对比较高。

2数据仓库技术的应用

目前,数据仓库技术对于大多数经营业务数据分析任务而言,是必备的基础条件之一,尤其是对于规模较大、业务开展较广泛的企业。由于日常运营涉及到的数据来源和种类较多、数据量较大,在进行数据分析处理时需要对原始的信息进行大量的加工处理工作,因此数据仓库技术的应用就是必然的选择。应用数据仓库技术的主要目的是将原始的数据源按相应的要求进行转换并按专门设计的数据结构进行存储。数据仓库技术对原始数据加工处理流程目前一般称为ETL,即抽取(Extract)、转换(Transform)和加载(Loading)。抽取过程是指从各类原始的数据源获取数据的过程,综合考虑信息系统的处理性能和数据时效性以及分析应用需求等因素,数据抽取过程可以是实时的,也可以是非实时的。对于抽取出的数据需要进行一定的转换处理,才能够进行后续的应用,转换过程主要是根据后期应用需求将原始的数据进行过滤、异常处理后再进行格式变换、维度调整以及初步分类汇总等处理。数据加载过程就是将处理后的数据装载到仓库模型中,并根据应用需求进行数据关联关系的调整以及性能优化。在一些专题分析应用场合,还可以将已经加载至数据仓库中的数据进行进一步的归纳处理,形成相关主题的数据集市,以提高数据的可用程度。

数据分析方案的设计和实施

数据仓库建设完成之后,为了实现业务分析的目标,就可以考虑实施一些数据分析方案,选择合适的分析方法和工具建立相应的模型,对数据进行处理,最终得到能够支持业务经营分析的关键信息,这一步对于整个业务数据分析工作而言是一个关键点。数据分析建模工作不仅需要掌握相关分析方法技术,更需要对业务背景和业务分析目标有充分的认识。因为数据分析挖掘建模方法没有严格的定律可以遵循,往往需要在实践中运用一些基本的方法去探索影响业务目标的关键因素,并且需要长期跟踪业务发展情况,不断地完善模型、调整相关参数,才能够得到能正确辅助经营决策制定的方案。此外,随着业务运营模式的调整和市场环境的变化,业务分析模型还可能随时需要重构并且反复验证。目前用于数据挖掘分析的方法有很多,从基本的数理统计方法到目前研究比较广泛的神经网络、遗传算法等。但是并不是越复杂的算法效果越好。在很多场合下,应用较为简便的方法得出的结论更易于描述业务信息,便于理解以及实践操作。现在市场上用于进行数据挖掘和统计分析产品也比较丰富,比较典型的分析工具如SPSS、SAS、STAT等,在一些行业应用领域,还有更加专业的数据分析工具和软件包可供使用。在实际运用过程中,可以根据数据分析的需求和应用范围进行选择。

互动点播业务的业务分析需求

以及数据分析方案设计目前,有线电视运营商在互动点播业务开展过程中关注最多的经营目标是如何提高用户对服务的认可程度、扩大用户规模、避免用户流失以及提升用户的业务贡献价值等方面。在这个过程中同时也需要对点播内容的使用情况进行分析,判断哪些产品的点播频率比较高,以便进行内容安排方面的调整。为了支撑互动点播业务经营分析的目标,首先需要初步选择可能对点播业务使用频率影响比较大的一些关键性因素,并且判断哪些信息是有手段可以收集到的,以及从哪些渠道收集等等。这个过程通常需要对基础业务有一定的认识,此外还需要对信息数据的分布和管理有相应的了解。通常情况下,对于大多数有线电视运营商而言,目前都在建设和使用业务支撑系统。互动业务分析所需要的基础信息大多数都可以从业务支撑系统中获取,例如从客户关系管理平台中可以收集到用户的基本信息,如客户名称、联系方式、业务使用的地址等。另外,客户开通的业务信息以及订购的各种产品信息、业务变更记录信息以及终端信息等基本上都可以从业务支撑系统中获取到。经过一些信息转换和汇总,我们就可以了解到用户业务的在网时间、消费情况、订购记录、离网情况等。从这些基本信息里面可以选择一些业务上感兴趣的因素进行统计分析,以归纳总结出经营分析相关的业务特征。对于互动点播业务相关的另外一些信息,如客户的点播行为记录,一般就不是直接从业务支撑平台上进行采集到。这些数据的来源通常是在互动业务管理平台中,用户在终端上进行点播操作后,互动业务管理平台会记录下与用户点播操作相关的信息。从这些记录中,我们可以了解到用户的点播时间、点播内容、收看时间等等。根据点播的内容,可以在互动业务内容管理平台上关联到其价格、类型、上线时间等信息。综合上述信息后,就可以整理出互动点播业务的使用记录,通过统计分析可以发现用户点播的时间、内容偏好和使用量发展趋势等数据,这些数据可以帮助判断系统的容量以及内容的受欢迎程度等信息。最后,为了综合评估互动业务的发展情况,发现与业务分析目标关联较大的一些因素,可以综合用户的业务记录信息和点播使用情况进行模型构造,并且对结果进行验证和评估,以得到对决策分析有价值的信息。

互动点播业务的数据分析方案的实施应用

根据业务数据分析基本方案设计的思路,可以着手开始实施相应的分析方案。在本文中主要介绍两类数据分析应用案例,一个是基于基础点播行为数据进行的统计分析应用,另外一个是根据用户点播行为数据以及基础业务数据综合分析影响用户的互动业务在线情况的因素。

1用户点播行为数据分析案例

为了了解点播业务的使用情况,可以根据用户的点播行为记录进行数据挖掘分析,以实现总结互动点播内容、时段和使用量趋势等业务特征的分析目标。根据方案设计的结论,从互动业务管理平台中可以取得这类业务分析所需要的全部源数据。但是,互动业务管理平台中的点播记录通常全部是以文本记录的方式保存的,并且由于点播记录的数量较大,一般按照记录数量或者时间间隔进行了拆分。为了利用这些信息就有必要进行相应的数据抽取转换工作。在实际应用中可以使用预先设计的脚本定时从互动业务管理平台中进行数据的抽取,然后经过简单的类型变换后加载至数据仓库中。为了达到分析目标,主要抽取的信息有产生用户点播记录的用户ID、点播内容的代码及分类信息、点播的开始和结束时间等等。原始的点播记录信息转换后,就可以进行下一步的主题分析准备了,例如可以按照点播的时段、点播的内容,以及用户区域等信息进行不同维度的数据分析。图2是对互动点播类业务按每日播频率进行的一个分类统计后用SAS统计工具生成的图形,在生成统计数据前需要从原始数据中分离出点播时段信息,并行分类汇总。从图2中可以发现,点播频率在一天之中的大致分布规律。从点播总量上看,每天点播频率最高的时段是在18:00至22:30左右,峰值在21:00到22:00左右出现,此外在中午12:00左右也有一个高峰时期。点播频率最低的时段大约在3:00至5:00左右。根据每天点播业务频率的分布情况,可以进行相应的网络容量分析,比如通过业务高峰数值可以评估出互动点播平台的并发容量是否足够。另外,根据每日点播频率的分布特征,可以安排相应的业务运营工作部署。例如在业务高峰时段可以集中投放一些广告、通知信息,而一些系统割接和调试工作尽量应安排在使用频率较低的时段内进行。如果需要了解一些特殊的节假日的点播频率分布特征,可以在原始数据中进行重新过滤筛选,生成类似的频率分布图并与图2进行比对,然后分析其特点。从互动业务点播数据还可以按内容代码维度进行分析,以统计出与互动视频节目内容相关的数据,也可以将不同维度的数据进行组合分析,进一步挖掘出业务方面感兴趣的信息。

2影响互动业务用户在线状态因素的综合分析案例

互动业务经营分析的另外一个重点就是用户的流失特点分析,其目的在于找到影响用户在线状态的主要因素,并且根据这些信息和目前的业务状态去预测未来一段时间内可能流失的用户情况。另一方面可以针对影响用户在线状态的主要因素实施有针对性的市场营销策略,尽可能避免用户流失情况的产生。此外,在通过分析影响互动在线状态的主要因素后,也可以从中发现进一步发展扩大用户规模的一些线索。为了实现上述业务目标,首先需要确定分析数据来源。由于是综合因素分析,首先需要使用业务支撑系统中用户的互动业务状态变更信息以及其它一些属性特征信息。此外,用户的点播行为数据也是一项重要的数据源,因此也需要引入到模型中。由于最终目的是需要分析影响用户在线状态的主要因素,而在某一个观测时间点用户的在线状态一般认为是一个二值型的变量,因此可以使用逻辑回归(logisticregression)方法进行建模。然后将在此时间点前一个时段的用户点播次数、用户的在网时长、终端特征等作为自变量。在本案例中,按照某一个时间段内用户在线状态是否发生变更这一特征,选择一个用户的样本使用SAS软件的proclogistic过程进行分析。SAS的分析报告中还给出了模型的相关参数以及各变量的参数估计情况。根据分析结果中的卡方值和P值可以了解模型对数据的适配性和稳定性。从分析结果给出的参数估计信息中可以了解不同自变量对于互动用户在线状态的影响情况。用户的点播次数、在线时长以及终端属性等参数都会影响到用户的在线状态。从参数估计中可以看出点播次数较高的用户,其流失的比率相对较低,另外使用高清互动终端用户流失率也相对较低,并且终端类型因素有较高的预测能力。在网时长似乎对用户的在线情况影响不大,但实际建模的过程中需要考虑套餐赠送的情况,因此最好重新调整参数模型后再进行分析。根据分析的结果可以得出相关的结论,互动用户的点播频率越高,其连续使用的可能性就越大,并且使用高清终端用户连续在线的概率比使用标清终端的用户更大。因此在后续的分析过程中就可以预测目前点播频率较低的用户流失的风险较大,在进行针对性的营销活动时就可以设法引导用户更多地进行互动业务的体验,并且鼓励其进行终端升级,以提高这部分用户在线的概率。当然在分析过程中可能会发现一些使用频率非常高的用户意外流失了,这就值得进一步跟踪分析,因为很有可能这些用户选择了竞争对手提供的类似服务。

结束语

有针对性的经营分析工作对于目前广泛开展各类增值业务的有线电视运营商而言显得非常重要,数据分析技术的应用对于提升企业业务分析能力以及制定各类营销决策而言有较大的促进作用。在运用业务数据分析技术的过程中,不仅需要对数据分析技术方法本身有足够的掌握,更重要的是需要深入理解业务的特点和经营分析目标,并且在实施数据分析方案的过程中累积经验,对已经建立的分析模型进行调整和优化,才能不断挖掘出对经营决策制定有价值的业务信息。(本文作者:章鹏、唐月 单位:重庆有线电视网络有限公司、国家广电总局广播电视规划院)

相关热门标签