公务员期刊网 论文中心 正文

农技推广论文:农技服务系统建构思考

农技推广论文:农技服务系统建构思考

本文作者:张华千、滕桂法、刘小利 单位:河北农业大学

随着短信平台使用人数的增加,短信量呈几何数量增长,传统的工作模式在面对海量信息以及处理重复或冗余信息方面显的力不从心。专家要花去大量时间处理重复性的问题,系统的工作效率将为变得很低,专家资源得不到合理配置。因此,规范短信息服务,在整个智能应答短信平台的构建当中是极其重要的[2]。短信技术的低门槛性、短信平台的快捷性和高效性是值得肯定的。本文借鉴了垃圾短信过滤方面的经验,在原有农技推广短信平台的基础上,设计了一种具备智能应答功能的农技推广短信平台。

智能应答短信平台

智能应答短信平台自上而下主要分为应用层和实现层(包含业务单元与管理单元)、数据层和接入层。其中,应用层与实现层主要通过HTTP与WebService服务接口实现无缝接入;数据层负责管理短信平台相关数据库,将短信过滤和分类形成目标短信,并预留接口对接专家数据库以实现智能应答等扩展应用。三大通信运营商短信网关通过接入层与短信平台对接。体系结构如图1所示。应用层分布主要包括农技推广单位在信息化进程中建立起来的各种B/S和C/S结构的信息管理系统以及各类数据库系统。这些系统都有点对点或者点对多点的信息的需求,系统架构和编程语言不尽同,因此宜采用WebService技术实现这些异构系统到短信平台的统一接入。实现层根据业务与管理的联系将短信平台划分为诸多模块,做到了业务与管理形式上分离、逻辑上紧密联系。实现层不同功能模块通过不同的协议或算法实现其具体功能,如通过SMS(ShortMessagingService)协议处理短消息文本,MMS(MultimediaMes-sagingService)处理相关文本或图片请求,通过数据路由控制算法控制数据与运营商网关对接过程中具体的路由跳转方法,通过调度算法来协调各功能模块间业务逻辑。数据层为短信平台系统提供数据支撑与应用扩展。本文的关键即在数据层中进行改造,从而实现自动应答功能。数据层的核心是数据库接口模块。短信平台数据库及扩展应用服务(本文扩展了专家数据库)通过数据库接口模块进行数据的通信和共享。短信分类器具备将海量短信分类并转化成可以与专家数据库进行完全或模糊匹配的标准短信的功能。接入层通过SMPP(ShortMessagePeertoPeer,短信息点对点协议)与移动通信运营商的短信网关通信。由于国内的三大电信运营商在互联网短信网关的通信上制定了不同的协议标准,如中国移动的CMPP协议、中国联通的SGIP协议和中国电信的SMGP协议。因此,在接入层相应地将接入模块分为中国移动接入模块、中国联通接入模块和中国电信接入模块,以保障不同手机号段的短信都能接入到相应的运营商网关中[3]。

传统的短信平台在农技推广中一般是以农户、短信平台和专家队伍“三点一线”的模式进行工作的。优点是业务模式简单、技术门槛低和易于操作;缺点是忽视了农户与专家知识水平上的巨大差距,没有全面地考虑到农户田间作业的季节性特点,最终往往形成农户对反馈短信的含义一知半解;专家对一个重复问题多次做出相同解释,浪费服务资源;农闲时专家工作较为轻松,农忙时问题量庞大,反馈结果难以实时反馈,农户长时间得不到专家的建议,造成经济损失。智能应答短信平台综合考虑了传统短信平台的优缺点,引入了短信分类与自动应答功能。传统短信平台工作统程如图2所示,智能应答短信平台工作流程如图3所示。对比图2和图3,不难看出传统短信平台与智能应答短信平台在工作流程上的不同之处。传统的短信平台中没有对于短信内容的判断,只是机械地接收。智能应答短信平台在海量短信到达短信平台之后首先进行短信内容的分类与过滤,之后通过扫描专家数据库进行自动应答工作,这样的工作模式更有针对性,也更加合理。

智能应答短信平台具有传统短信平台的基本功能,同时具备自动应答功能,因此在农技推广中有更加广阔的应用前景。提供的主要服务有:面向农户的自助和实时咨询服务;个性化订制;群发信息服务;定时发送提醒服务;与农技推广应用系统集成(如气象系统、病虫害防治系统、农业信息化服务系统等)。

关键技术解决方案

智能应答短信平台需解决的关键技术包括专家数据库的建立[4]和短信分类器的设计。

短信分类器借鉴了文本数据挖掘[5-6]、BP神经网络[7]、垃圾短信过滤相关方面的经验。短信分类是指根据一个己经被标注的训练短信集合,找到内容属性(特征)和短信类别之间的关系模型(分类器),然后利用这种学习得到的关系模型对新的短信进行类别判断。从数学的角度来看,短信分类是一个映射过程。映射规则f是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则,随着类别集合Y的不断扩充,映射规则f也相应随之改变。短信分类器的工作流程包括两大步,即分类规则建立和短信分类。首先,分类规则建立,给定训练短信集合;然后,把训练集的文本统一表示,常用的是向量空间模型(VectorSpaceModel,VSM)表示法,再通过特征提取降维;最后,通过各种分类模型建立起一个分类规则;接着是短信分类过程,给定一条新短信,经过向量表示、特征提取后送入分类规则进行判断,输出该文本所属类别(一个或多个)。对于分类结果不太明确的结果在人工神经网络中进行第2次竞争,对结果进行排序,筛选出最优分类结果。特征提取主要分4个步骤:短信预处理、分词、去噪和短信文本特征表示。短信预处理指根据短信内容处理一些乱码、符号等。一般通过编写正则表达式,根据实际需要进行贪婪或非贪婪的匹配,祛除一些诸如“#%*”之类的符号。分词的过程类似于验证码识别技术当中的分割技术,根据短信内容将短信文本切分为一些有意义关键词(如农技推广、果树、出现和病虫害),目的是方便与专家数据库进行匹配。去噪处理指祛除或统一短信中含有“噪声的”数据,即删掉与短信真正要表达的含义相差比较远的数据。例如,祛除中文语气词“哎、啊、撒”和英文中的“hi,hello”,中文近义词“果子,水果”统一表示成水果。短信文本特征表示是将短信内容在特征空间中量化,方便后续的特征提取降维,筛选出真正可以传达农户意图的向量属性,进行分类。

智能应答短信平台中的专家数据库通过数据库接口模块与短信平台的数据库进行通信,是短信平台自身数据库的扩展。专家数据库的建立主要分为数据表的设计和触发器设计两个部分。专家数据库中的数据表字段主要分为待匹配问题、解决方案、查询率和优先级。

首先,应建立待匹配问题与相应解决方案对照数据表。待匹配问题字段的数据源来自短信平台,通过群发功能向广大农户征集的短信意见,通过短信分类器处理后存储在短信平台自身数据库中的记录以及资深专家在相关研究领域遇到的新问题或成果。待匹配问题字段只记录问题分类,通过分类索引与描述问题特征的数据表进行匹配。描述问题特征的数据表可以参考汉语行文习惯,采用主谓宾的方式插入数据。例如,某农户发送短信是“我家的枣树不知道为什么打了农药以后还是生虫子”,数据表中对应的3个字段为“枣树”、“生”和“虫子”。专家根据自身的时间安排,抽出集中时间登录短信平台进行统一作答,建立一个稍具规模的专家数据库。

查询率是为了记录同一个或同一类问题最近一段时间被提问的次数与相同时间被提问总次数的比值百分化,通过设定一个阈值来衡量查询率。查询率高于阈值的被标记为热点问题,不等农户再频繁地询问,采用定时群发的方案,提醒广大农民引起注意;而查询率远低于阈值的被标记为冷门问题,在系统负荷量加重的时候,通过降低其优先级,暂不处理,使负载恢复平衡。

优先级可根据实际需要建立和查询率之间的算法,编写业务逻辑来实现控制优先级的大小,从而达到优化专家数据处理、相应的速率的目的。专家数据库中的触发器主要触发轮询时间控制器对短信平台自身数据库的扫描和短信平台代码模块中负责发送短信息的SendMessage()函数。轮询时间控制着专家数据库与短信平台自身数据库访问的频率。默认情况下,在农闲时可以将时钟周期设置较为长一些,在农忙的时候设置短一些,并以标志位flag标志激活状态。flag为0时,时间控制器处于休眠期;为1时,开始工作。当触发器满足轮询时间控制器的时钟周期时,自动将flag标志位置1,触发轮询时间控制器。轮询时间控制器扫描并读入短信平台自身数据库中记录送与短信分类器分类后,通过专家数据库给出解决建议,同时将该短信置为已读,下个时钟周期到来时不予处理。智能应答短信平台的自动应答功能是由专家数据库中的触发器触根据条件发SendMessage()函数后进行发送的,按优先级排列好的反馈结果被送入发送队列等候,根据触发器的触发条件通过SendMessage()函数发送至运营商网关进行后续处理。

结束语

强化农技服务体系建设,提升农技推广与农业信息服务能力,是当前各级农技推广部门都在思考的问题。智能应答短信平台有其极为广阔的应用前景。本文主要针对农户海量短信分类进而自动应答的解决方案,没有涉及到彩信方面的自动应答,对于影响短信息传递、引起短信服务中心网络阻塞的原因研究的还不够透彻。尽管如此,相信随着3G技术的普及,国家在农业信息化方面的资金投入逐步加大,SP服务商开发更多应用服务来开发自己的用户,智能应答短信平台必将在农技推广方面为广大农民提供更加丰富的服务[8]。因此,就农业信息短信服务平台的合理性与准确性考虑,将物联网和云计算等新兴信息技术思想与短信平台相结合,是今后的一个研究方向。