公务员期刊网 论文中心 正文

标签库推荐下互联网电视智能运营平台浅析

标签库推荐下互联网电视智能运营平台浅析

[摘要]互联网电视已经成为视频传输的主要通道之一,与有线电视、IPTV并驾齐驱。随着人工智能技术的发展,基于标签库推荐的智能运营平台已经成为互联网电视赖以发展的重要基础。本文通过深入剖析智能运营推荐平台及其支撑体系,总结智能运营推荐的四种模式,探索互联网电视的内容运营价值和流量变现能力。

[关键词]互联网电视;标签库;智能运营

与发达国家互联网电视行业有所不同,在我国,互联网电视是指通过公共互联网传输,以电视机为接收终端,由国有广播电视机构提供可控可管视频内容服务的新型媒介形态。[1]随着2010年我国三网融合进入实质推进阶段,互联网电视产业有了长足发展。到2013年,我国互联网电视机顶盒和智能电视一体机的出货量迎来爆发式增长,以乐视、小米、阿里为代表的大批互联网企业进军互联网电视产业,2013年也被称为中国互联网电视发展元年。我国互联网电视产业在经历了早期的规模化圈地发展之后,2014年后迎来了“史上最严监管”。随着监管力度的不断加强,内容提供商、内容服务牌照商、集成业务牌照商、网络运营商、硬件设备商和IP服务商等产业链各方不断调整策略,探索新的发展模式。近年来,互联网电视产业将满足用户需求作为产品的终极向导,更加重视大数据和智能化技术的运用,深耕内容,拓展运营,不断满足用户低频度需求、高场景度需求和体验性需求,开发利基市场和长尾市场。至2018年我国互联网电视用户覆盖超过2亿户,互联网电视家庭覆盖率超过40%,成为视频传输的主要通道之一,与有线电视、IPTV并驾齐驱。[2]互联网电视具有双向互动的独有优势,能够采集到数以亿计用户每天产生的海量数据信息。互联网电视牌照商运营主体应如何有效分析和挖掘数据,进行判断和分析,实现高效率的价值匹配,将海量内容和增值产品智能化推荐给用户,提升内容运营价值和流量变现能力,已成为互联网电视产业的核心竞争力所在。从现阶段互联网电视产业的内容运营形态来看,已由单一依靠人工推荐转向基于标签库的智能运营推荐,从运营管理角度来看,这极大解放了屏幕运营的生产力,从运营成效角度来看,实现了千人千面,为用户提供了更多元的产品形态。

一、标签库的分类与作用

标签库是互联网电视智能运营推荐平台的核心要素,标签库的创建和完善是一切运营策略生成的基础。根据不同主体,标签库分为内容标签库、用户标签库和广告标签库三种类型。由于针对的主体不同,各标签库获取数据的来源也不尽相同。内容标签库的数据来源不仅包括内容运营系统中媒资库的基础属性标签,也包括从豆瓣、时光、1905等影音资料库网站上实时抓取公开数据而得到的用户定义标签。基础属性标签包括视频分类(如:电视剧、电影、纪录片、动漫、动画片等)、视频类型(如:科幻、喜剧、动作、悬疑、奇幻等)、导演、演员、出品年代、获奖情况等。用户定义标签则包括用户评分、评论数量、评价标签(如:漫威、超级英雄、真实事件改编等)、协同过滤推荐标签(如根据用户的评分、评价、点赞、分享等历史行为数据,向喜欢《飞驰人生》的用户推荐《羞羞的铁拳》、《西虹市首富》等协同过滤推荐标签)。建设内容标签库的主要目的在于通过对内容进行标签矢量化处理,有效进行数据分析。例如:电影《流浪地球》通过标签矢量化处理后,形成的向量集{2019,科幻,灾难,太空,刘慈欣,小说改编,国产片,9.5分,…}成为识别这部影片的标签代码。当媒资库的视频内容全部完成标签矢量化处理后,则实现了内容标签库的初步创建。内容标签库也会随着视频内容的不断增加,用户定义标签的不断调整,人工定义标签的不断丰富、对视频名称进行语义分析和关键字提取使标签不断补充等手段而得以持续性改进和完善。用户标签库的数据来源于从运营商运营支撑系统中提取的用户基础属性标签和通过终端日志上报大数据分析平台并清洗沉淀下来的用户行为标签。基础属性标签包括用户属性标签和终端属性标签两大类,前者包括地域、手机号码、性别、年龄、行业等,后者包括出货地市、终端型号、终端版本、终端状态、激活时间等。用户行为标签包括娱乐行为标签、收视行为标签、消费行为标签、内容偏好标签和复合标签等五大类,其中娱乐行为标签包括游戏时长,游戏次数,点击次数、下载次数等;收视行为标签包括有线或无线收视、收视时长、开机次数、收视次数、活跃情况、点击次数等;消费行为标签包括每用户平均收入(AverageRevenuePerUser)、最近购买时间、消费片单、消费金额等;内容偏好标签则是根据一段时间内用户收视内容所对应的内容标签库而生成;复合标签则是针对用户的多种标签组合而再定义生成,例如将打上内容偏好为韩剧、收视时长一周内超过3小时、收视次数一周内大于3次等标签的用户综合定义为“韩剧爱好者”。建设用户标签库的核心在于对用户基础属性和行为进行标签化处理,将用户按照不同的维度进行矢量化,建立用户的全景视图,其目的是实现快速圈人的精准推荐和精准营销。广告标签库则是将广告媒资库中的内容信息通过人工定义的方式进行标签向量化处理。例如,完成标签矢量化处理后,通过一条向量集{赛车,越野,冒险,运动,公路,科技,德国,…}来标签化一则奔驰SUV的广告宣传片。广告标签库的核心作用是能够将广告标签与用户标签和内容标签进行相似度匹配,进而实现基于标签库的智能广告推荐。

二、智能运营推荐平台及其支撑体系

在基于标签库的智能运营推荐平台及其支撑体系的运行中,先由终端生成终端日志和播放行为日志,日志内容经过联机在线处理和非实时处理后,进入到大数据采集和清洗环节,数据处理完毕后再进行标签向量化处理形成用户标签库、内容标签库和广告标签库,然后通过相似度算法匹配生成榜单推荐、内容运营推荐和广告运营推荐,最后通过内容运营系统和广告运营系统识别对应内容和广告的元数据,实现用户终端的个性化推送。(图1)

1.终端日志和播放行为日志

终端日志收集了用户在使用终端时间段内的所有操作日志。按照日志类型大致分为开关机日志、播放行为日志和其他行为日志等。因终端日志每天产生的数据量较大,故采取非联机处理方式,按日上传分析。播放行为日志则仅仅收集了用户在播放内容过程中产生的操作日志,属于终端日志的一部分,比终端日志的数据量小很多,故采取联机在线处理方式对播放行为日志进行实时分析。

2.日志联机在线处理和非实时处理

日志联机在线处理是指将播放行为日志,比如播放内容与时段、播放与暂停的时间、暂停到下一次播放所经过的时间等,实时地上传到大数据中心进行处理。日志非实时处理则是将一天内的所有终端日志,比如开关机时间、终端心跳、遥控器点击操作等,以非实时集中的方式上传到大数据中心进行处理。

3.大数据采集和数

据清洗按照日志处理的方式不同,大数据采集分为实时采集和非实时采集两种,所使用到的技术也有差异。前者通常使用kafka采集工具将数据采集到Spark或Storm中,再经过数据清洗转换,生成实时用户收视行为标签,供智能运营推荐系统使用。后者使用Flume采集工具将数据采集到Hadoop分布式文件系统(HDFS)中,经过数据清洗转换后,再将结构化数据提供给数据仓库(Hive),最终转换到关系型数据库(RDBMS),形成所需的标签库数据。(图2)

4.标签库建设和智能运营推荐

通过智能规则和人工规则对视频内容、用户基础属性与行为、广告信息进行标签矢量化处理,完成对内容标签库、用户标签库和广告标签库的建设。标签库的建设与不断完善将有助于有效建立榜单、广告、内容与用户之间的相互联系,为智能运营推荐提供基础保障。在榜单运营推荐、广告运营推荐和内容运营推荐过程,运营人员通过相似度算法,分别将视频内容标签与媒资库中已创建的榜单标签、将广告标签与用户的观看内容标签、将视频内容标签与媒资库中的其他视频内容标签进行匹配。根据匹配结果,系统以元数据的形式推荐较高相似度的榜单、广告和视频内容。

5.内容运营推荐与广告运营推荐

根据智能运营推荐的元数据,内容运营系统和广告运营系统分别查找对应的视频内容和广告内容,并将其推送给用户终端。用户终端再次生成终端日志和播放行为日志,进入下一轮智能推荐运营,循环往复,形成信息甄选、推送、反馈和修正的闭环,使内容推荐越来越精准,越来越高效。

三、智能运营推荐的四种模式

1.基于视频内容的智能运营推荐

基于视频内容的智能运营推荐主要是通过内容标签(Tag)建立相关性链接。这种智能运营推荐模式主要分为四个步骤,即提取内容标签、进行运营策划、制定相关规则、生产推荐榜单。基于视频内容的智能运营推荐主要运用内容相似度的推荐算法,计算向量相似度的算法有很多,包括余弦相似度、欧式距离、皮尔逊相关性等。通过这类相似度算法,可以计算某部影片A(标签向量{a1,a2,a3,a4,a5,a6…})与另一部影片B(标签向量{b1,b2,b3,b4,b5,b6…})内容相似度c(c处于0-1之间,值越接近1,影片A与影片B的内容相似度越高)。由于我国采取的是“可管可控”式的互联网电视发展模式,在智能运营推荐过程中,人工参与必不可少。基于视频内容的智能运营推荐主要有两种方式:一种是先智能推荐后人工筛选,一种是先人工策划制定提取规则后再智能排序。以《流浪地球》为例,这部电影在内容标签库中所定义的标签包括科幻、中国大陆、灾难、太空、刘慈欣、小说改编等。在第一种方式中,先通过计算《流浪地球》这部影片的内容标签与内容运营系统中其他视频标签之间的内容相似度,再根据相似度从高到低生成智能推荐榜单,比如:1、星际穿越(相似度0.842)、2、火星救援(相似度0.751)等,最后由人工根据智能推荐榜单内容进行筛选并构思策划主题。在第二种方式中,先由人工根据《流浪地球》这部电影的内容标签策划多个运营专题,比如“2019国产科幻影片”“小说改编科幻电影”等,再通过人工制定规则分别按照“2019”“中国大陆”“科幻”和“小说改编”、“科幻”等标签与内容运营系统中的视频内容标签进行匹配和提取,形成推荐榜单。通过人工规则提取的榜单也同样需要根据相似度高低生成榜单中的内容排名。依照不同的智能运营推荐方式,依照不同的策划主题,最后生成的推荐榜单也不尽相同。

2.基于用户群体行为标签的智能运营推荐

基于用户群体行为标签的智能运营推荐模式首先是通过播放行为日志获得某一地区的用户在一段时间内(通常为一周或一个月)的收视内容排行,然后通过大数据计算完成收视内容排行对应的标签计数,并根据标签权重生成词云,最后再依据群体用户偏好标签词云进行运营策划,创建推荐榜单。比如,某一地区一周内的群体用户偏好内容标签词云主要包括幽默、励志、国产剧、时尚、奇幻、小说改编等关键词。在先智能推荐后人工筛选方式中,系统根据智能规则将内容运营系统中的视频内容标签与群体用户偏好标签词云进行相似度匹配,生成智能推荐榜单,比如:1、大话西游2、美人鱼3、我不是潘金莲等,然后人工再根据榜单内容进行筛选和主题策划。在先人工策划制定提取规则再智能排序的方式中,先由人工根据词云中群体用户的偏好标签进行专题策划,比如“2018年国产励志电视剧”和“小说改编的奇幻剧”等,再分别提取“2018”“励志”“电视剧”和“科幻”“小说改编”等标签,最后再与内容运营系统中的视频内容标签进行匹配提取,形成推荐榜单。

3.基于用户收视播放行为的智能推荐

基于用户收视播放行为的智能推荐则是基于用户的收视播放行为数据,通过联机在线的处理方式,将海量视频内容与用户的兴趣偏好相匹配,实时为用户提供个性化的榜单和视频内容。例如用户在一段时间内收看了电视剧《都挺好》,智能推荐平台基于《都挺好》这部电视剧的内容标签与所有已在系统中创建的榜单和视频内容进行相似度匹配,获得排名靠前的榜单,比如“姚晨”、“家庭亲情推荐榜单”等和影视剧,比如“蜗居”“金婚”“小别离”等。由于用户的播放行为日志采取的是联机在线处理方式,推荐榜单和视频内容能够基于用户个人收视偏好实现实时更新,达到增加用户粘性和实现精准运营的目的。

4.基于标签库的广告智能运营推荐

基于标签库的广告智能运营推荐包含两种使用场景:一是广告定向投放,二是广告智能推荐。广告定向投放需要首先定位广告的目标用户群体,然后将其定位转换成用户标签库能够识别的标签代码,再通过用户标签筛选出目标用户群体,进而实现基于用户群体的精准广告投放。广告智能推荐则是首先需要对媒资库中的广告信息创建标签,再将广告标签与用户观看的视频内容标签进行相似度匹配,然后智能推荐与视频内容具有高相似度的广告内容,实施广告的精准投放。人工智能已成为互联网电视产业发展的重要推手。通过基于标签库推荐的智能运营平台,互联网电视能够为用户推荐高质量的个性化产品和服务,不断创造主动服务的能力,实现有效而充分的价值流动。借力人工智能技术,未来互联网电视将通过为用户提供更优质的体验、更高效的服务和更多元的内容产品,满足客厅用户的个性化需求,带来更大规模的“客厅回归潮”。

注释:

[1]张国涛:《OTTTV———触及电视全产业链的挑战》,《传媒》2013年第9期。

[2]格兰研究智慧家庭研究部:《2018中国互联网电视发展白皮书》,

[3]成洪荣:《互联网电视发展八大趋势》,

作者:张帆 单位:湖北大学新闻传播学院