公务员期刊网 精选范文 语音识别技术范文

语音识别技术精选(九篇)

语音识别技术

第1篇:语音识别技术范文

【关键词】 语音识别 通话 大数据 互联网

该文主要致力于解决通话中的语音识别技术,长期可推广至QQ语音聊天等即时聊天软件中,相较于目前大多数语音识别软件需要手动打开更为主动,让用户感觉不到软件的存在,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,大大提高了效率,并对听力有障碍的人士有更为重要的意义。

一、语音识别基本原理

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板,然后根据此模板的定义,通过查表就可以给出计算机的识别结果。 [1]

二、通话中语音识别技术

2.1技术原理:

1、基本架构:Smartalk通话系统基于“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务,并加以对手机GPS位置、通讯录、社交软件信息的分析,在“云”的辅助下对之进行处理和交换。Smartalk架构分为4个部分:客户端、语音视频服务、语音识别服务、云数据处理分析。利用“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务可将用户在通话中涉及的地点、人名、电话号码等关键词提取出来并加以分析对行程和下一步操作提供帮助。

2、基本平台:本系统基于APIcloud开发,兼容云端和第三方SDK,可跨平台(Android、IOS、Windows等)使用,采用标准的c++语言实现。

2.2功能实现:

1、基于“云之讯”开放平台的通话系统:云之讯融合通讯开放平台为企业及个人开发者提供各种通讯服务,包括在线语音服务、短信服务、视频服务、会议服务等,开发者通过嵌入云通讯API在应用中轻松实现各种通讯功能。

2、基于“科大讯飞”开放平台的语音识别系统:。讯飞开放平台使用户可通过互联网、移动互联网,使用任何设备方便的介入讯飞开放平台提供的“听、说、读、写”等全方位的人工智能服务。目前开放平台向开发者提供语音合成、语音识别、语音唤醒、语义理解、移动应用分析等多项服务。

3、语音识别与云端大数据结合分析:。利用基于“云之讯”通话系统和“科大讯飞”语音识别系统实现了实时的语音识别,加以云端大数据的结合,和实时的分析用户当前的需求和问题,及时的跟用户产生交流反馈,并根据用户长期的使用时间分析智能提前推送相关信息。

2.3未来展望:

基于大数据和互联网+技术的日益发展与完善,并随着通信传输速度的逐渐提高,可在实时的条件下分析与推送更多丰富的内容,加以与即时聊天软件的结合,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,并对听力有障碍的人士有更为重要的意义,未来的市场前景广阔。

三、语音识别技术应用

3.1 语音指令控制在汽车上的应用:

语音控制人员只需要用嘴说出命令控制字,就可以实现对系统的控制。在汽车上,可用于汽车导航、控制车载设备。如车灯、音响、天窗、座椅、雨刮器等。

3.2语音识别技术在医疗系统中的应用:

医疗语音识别技术,已有厂商开发了基于云平台的语音识别系统,可直接内嵌到医院电子病历系统中,让医生通过语音输入病人信息,填写医疗记录,下达医嘱信息。

四、相关市场调研

1、国内外市场分析:2015年全球智能语音产业规模达到61.2亿美元,较2014年增长34.2%。其中,中国智能语音产业规模达到40.3亿元,较2014年增长增长41.0%,远高于全球语音产业增长速度预计到2016年,中国语音产业规模预计达到59亿元。[2]

2、相关应用发展:拉斯维加斯消费电子展(CES)上展示的MindMeld。在通话中,如果参与者点击应用的一个按钮,那么MindMeld将利用Nuance的语音识别技术,分析此前15至30秒对话。随后,MindMeld将确定对话中的关键词,以及其他多个信息来源,查找具有相关性的信息,并在屏幕上向用户提供图片和链接地址。[3]

参 考 文 献

[1] 吴坚.基于web的salt语音识别技术应用研究[D].湖北工业大学, 2006

第2篇:语音识别技术范文

关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.

第3篇:语音识别技术范文

不过一旦我们离开了办公室,许多人不假思索地向智能手机发出语音命令,无论这意味着语音拨号手机、向谷歌报出搜索词语,还是询问Siri今日天气如何。

市场调研机构Opus Research的高级分析师兼创始人丹?米勒(Dan Miller)表示,提供语音技术的公司已投入巨资,研发“个人数字助理”概念,比如苹果的Siri以及出现在许多谷歌手机上的谷歌语音操作(Google Voice Actions),它们懂自然语言命令。他表示,实际上最近在语音识别技术方面的突破大多出现在移动设备端的基于云计算的自然语言搜索领域。

主要进展就是,语音工具现在离用户更近了――出现在我们日常使用的手机和平板电脑上,许多工具在云端使用,这提供了立即处理功能和不断扩展的语言数据库。不像老式的桌面端软件,这些新工具不需要语音训练,这归功于算法方面取得的进步。

当然,今天的语音识别技术并非尽善尽美。即使在移动设备上,语音识别软件也并不适用于每个人。而有些自然语言句子仍然让智能化程度最高的语音控制系统都犯难,比如“告诉我的老板我开会要迟到”。Nuance、微软和苹果等公司已建立了庞大的语言数据库,供自己的语音识别产品使用。但即使在今天,这类软件有时还很难懂得牛肉制品“汉堡包”(hamburger)与德国城市“汉堡”(Hamburg)之间的区别。

米勒说,我们需要在云端运行更高程度的人工智能。他说:“我们离目标越来越近。各个层面都面临挑战,但正在取得进展――不过可能永远不会尽善尽美。”

可是,虽然越来越好的结果正在促使移动设备采用语音识别技术,但这项技术在工作场所还没有产生太大的影响:步入美国的随便一个企业园区,很难看到有员工在下达语音命令。我们将探讨什么因素在阻碍语音识别技术,并介绍这项技术在办公桌前和办公室都有望造福员工的几个方面。

工作站前的语音

对于视力欠佳的用户或患有重复性劳损(如腕管综合症)的那些人来说,通过语音控制电脑大有意义,可用于浏览及操控界面和应用程序、进行搜索以及口述内容很长的电子邮件和工作文档。其他用户也能从中受益,尤其是打字很慢的人、移动用户以及想记录会议纪要的与会人士。

米勒表示,该技术现在就出现在世人面前。基本的语音控制功能多年前就内置到Mac OS X和Windows中。今年夏天,苹果将为其OS X美洲狮版本添加语音到文本口述功能。去年,谷歌往台式机和笔记本电脑上的Chrome浏览器引入了最初出现在移动设备上的语音发起的搜索这一功能。

至于更高级的口述和个人电脑控制功能,专用的语音识别软件(如Nuance公司的Dragon NaturallySpeaking)这些年来逐步改进。在美国某杂志的测评人员拉蒙特?伍德(Lamont Wood)进行的测试中,最新版的NaturallySpeaking Premium从语音到文本的转换准确率超过99%。

伍德表示,对他来说,通过语音写东西的速度大约2倍于通过打字写东西。其他用户获得的效果有所不同,这取决于他们的打字速度以及使用语音软件的熟练程度。他还指出,使用最新的降噪耳机意味着这种软件不会受到背景声音的困扰,在过去这常常是个问题。

那么,为什么没有更多的人通过语音与电脑进行交互呢?米勒说,人们往往很怕难为情。在办公室环境,不是每个人都习惯于脱口说出自己的想法和言语,要是只有少数人在这么做,更是如此。

不过,他认为移动设备语音搜索有助于让语音技术总体上更受欢迎。他表示,最近的一项调查显示,11%的调查对象称自己习惯于将Siri用于语音搜索。目前这个比例并不高,但是随着越来越多的人采用,而且越来越习惯,在办公室使用语音应用软件对许多人来说似乎更加切实可行。这将遵循总体趋势:人们先在家里或私下使用技术,然后希望在工作场所也能使用。

此外,研发人员在探究语音的新用途,尤其是在游戏和娱乐领域(比如在Xbox上开始播放电影)。语音命令在各个场合似乎都很自然,这只是个时间问题。米勒说:“人们很快会发现,同样可以通过语音控制CAD软件、个人电脑及其他个人设备和办公工具。”

值得关注的是,语音硬件在办公室已经很普遍。任何一台新购的办公笔记本电脑都已经内置了视频会议功能,带网络摄像头和高品质麦克风。当你步入许多公司的会议室,会看到带高级麦克风的免提电话。新机型甚至会对准讲话的那个人,降低背景噪声。

J. Markowitz咨询公司的著名语音技术专家朱迪思?马科维茨(Judith Markowitz)也认为,硬件不是阻碍语音技术在办公室流行起来的因素。他表示,问题在于让自然语言命令得到更广泛的应用。而自然语言命令只是另一种交互方式,就像我们敲打的键盘或点击的图标那样。

她说:“语音无法查明是否存在过热问题,也无法提醒你有约会。那是后端系统或应用软件的任务。Siri的语音识别部分也没有这种功能。自然语言理解能力、人工智能和应用程序的功能共同造就了Siri这款出色的个人助理。语音技术把语音输入转换成Siri的后端及其他iPhone应用软件能使用的一种形式。”

马科维茨表示,如果开发人员决定为企业应用软件添加语音命令和声音提醒,语音在办公室就派得上用场。米勒赞同这个观点,不过他指出,这有点像先有鸡还是先有蛋的情况。开发人员将语音功能添加到应用软件之前,希望知道企业环境的用户习惯使用的语音(而且不会妨碍同事),但是只有这些功能广泛出现,用户才有可能习惯使用它们。

米勒表示,想让语言更被办公室环境的用户所熟悉,一个简单的方法就是为企业应用软件添加语音提醒。比如说,应用软件可能告诉你数据中心存在一个问题,而不是显示文本提醒信息。用户可以根据需要,将提醒由语音方式改为文本方式。

当然,两位专家都一致认为,语言并不是在每种计算环境下都是最合适的输入方法。它给艺术家、摄影师、视频编辑和程序员带来的帮助不像给普通的办公室员工、管理人员和IT人员带来的帮助一样大。Photoshop中精细的像素级编辑可能根本无法得益于语音输入,不过人工智能可能会发展到这个程度:我们说“修复照片的左下角1/4部分”,Photoshop就会进行相应的操作。

办公室周围的语音

Nuance公司总经理彼得?马奥尼(Peter Mahoney)认为,遍地开花的云计算将有助于推动语音技术,从电脑扩大到工作场所的其他地方。比如设想一下:能够使用内嵌式麦克风在会议室口述电子邮件,或者坐在大厅等待时查阅日程表,哪怕你把移动设备落在办公桌上。

他表示,这一幕要成为现实,语音系统就要连接到其他办公室系统。比如说,语音系统可能连接到公司的联系人和日历系统,知道你的会议日程表(及其他与会者的日程表)。它还可能连接到建筑物的安全和网络管理系统,那样它能告诉你是否在办公室、登录到办公电脑上。

互连系统可以在白天收集关于你的数据,而且正如人的大脑保留短期记忆那样,它会确定你的具体背景。这可能意味着,语音系统知道你晨会要迟到,因为你没有登录到电脑上;它可以查阅你的会议日程表,找到相应的一个或多个联系人,告知你会迟到。

马奥尼表示,如今这些信息往往是孤立的。但他预测,在今后一两年,语音技术会逐渐变得有更强的互连性。“它可能会先联系日历程序,知道你要会见约翰,然后日历程序会通过语音联络联系人数据库。”

米勒表示,许多公司已经在现有的系统中拥有关于联系人和角色的信息,比如活动目录列表和人力资源数据;许多公司还有内部建筑图。那么,到底是什么因素在阻碍这一切呢?

马奥尼表示,自然语言命令正在改进,但系统不是足够清楚地明白信息的上下文。他说:“需要构建数据模型,找到人们可能会问的前100个问题,然后找到合适的信息源,以明白那些问题,比如地图应用软件。”毕竟,这与Siri等虚拟助理在移动设备上进行的操作没什么太大的不同:查询不同的信息源(基于云和本地),找到相关信息,发送提醒信息,等等。

马奥尼设想,随着互连系统在将来扩大语音技术的应用范围,它们还有望改进语音软件的准确性和理解能力。借助无处不在的云连接,语音系统可以根据你所在的位置、所做的事情、身边的人以及接下来要做的事,明白你想表达的意思。“即使你没有明说,系统也知道你想表达的意思。”

链接:语音应用软件如何知道你说的是什么?

Opus Research公司的丹?米勒表示,今天的语音识别系统使用统计语言建模,这本质上是一种最佳猜测,结合你整个句子的上下文,猜测想要说的意思。比如说,今天的系统借助前后单词,知道你想说的是“you’re”(你是),而不是“your”(你的)。

要是说话者口音重,或者采用罕见的方言,这些系统还是经常无能为力。为了明白这些人说的话,语言系统必须建立一个发音库、去除任何背景噪音,并不断拿所说的单词与已正确识别的那些单词进行比对。

据语音技术咨询公司NewSpeech的总裁比尔?肖尔茨(Bill Scholz)博士声称,方言和重口音的主要问题是,语音程序并不分析声音模型以寻找语音方面的变化。他表示,典型的语音合成器可能有几百万个声音样本,但这还是不足以应对各种方言、不常用的俚语或含糊的话。不过,随着系统不断积累更多的语音数据,模型会日趋改善。

第4篇:语音识别技术范文

语音识别ASR(Automatic Speech Recognition)系统的实用化研究是近十年语音识别研究的一个主要方向。近年来,消费类电子产品对低成本、高稳健性的语音识别片上系统的需求快速增加,语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。

语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。

嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。

对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。

语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。

笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。

1 硬件平台

本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。

该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。

UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

2 嵌入式语音识别系统比较

以下就目前基于整词模型的语音识别的主要技术作一比较。

(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。

DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。

DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。

(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突况。因此,HMM算法具有良好的识别性能和抗噪性能。

基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。

在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。

(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。

3 基于HMM的语音识别系统

下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。

3.1 前端处理

语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。

模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧

移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。

3.2 声学模型

在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:

πi=P{X0=Si},i=1..N

以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:

系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:

Pxn=Si{On}=P{On|Si}

因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。

在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。

由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。

DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。

笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。

3.3 识别性能

笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。

表1 汉语数码识别率

DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。

表2 59词命令词集识别率

浮 点定 点无静音模型98.59%98.28%有静音模型98.83%98.55%可以看到,在硬件能够支持的情况下,CHMM的识别率比DHMM有很大的提高,同时识别速度也完全可以满足使用要求。

第5篇:语音识别技术范文

关键词:PTT;语音识别;通信

中图分类号:TP391 文献标识码:A

Earthquake site intercom communication optimization technology based on speech recognition

XU Nian, LI Wei, CHENG Fei

(Earthquake Administration of Jiangsu Province,Nanjing 210014,China)

Abstract: Nowadays, using walkie-talkie call is an essential method of communication when the earthquake emergency rescue. But when rescue workers call, it is necessary to press PTT by hand,which could influence the work convenience of rescue workers. Based on this, the paper uses the latest digital processing technology and the incorporated algorithm to identify only the human voice,so that the outside sound and shock are not recognized. After that, for the rescue workers in the state of speech, automatic identification could be gotten to produce PTT, and the call could be achieved. Hands of rescue personnel are completely liberated, and intercom speech are automatically launched. It is concluded that the proposed optimization communication method could improve the efficiency of the rescue,therefore gain significant benefits.

Keywords: PTT;speech recognition;communication

0 引言

地震应急救援是我国防震减灾事业3+1体系的重要组成之一。最大限度地降低地震灾害损失是抗震救灾工作的核心设定目标,而实现这一目标的基础环节之一就是提高地震应急救援水平。我国的地震应急救援系统和管理体系迄今为止仍有待完善,2008年的汶川地震和2010年的玉树地震救援工作已经清晰表明了应急救援的强大背景支撑作用,与此同时更进一步揭示了在突发地震灾害面前应急救援技术及应用的广阔施展空间与不断增长的现实需求。特别地,已有研究指出,稳定可靠的对讲机自动对讲和多功能、全方位的语音通话在地震救援现场正在担负和执行着日趋显著、且不可或缺的使命任务与功能角色。这种通信方式的优化对于提高地震救援效率则有着不言而喻的实用价值与积极推动意义。本文即针对这一课题内容展开研究论述。

1 基本原理

语音识别是新兴的人机交互技术之一。研究可知,语音识别系统则由语音信号的预处理、特征提取、语音模板库以及匹配判决这4个部分构建组成。在此,给出语音识别系统的院里构成如图1所示。

如图1所示,对于语音识别系统各组成部分的效果实现可提出如下设计分述:

1)预处理

预加重。预加重过程可以使语音的高频部分得到提升,减小语音的动态范围,增加信噪比,使信号的频谱更趋平滑,利于展开频谱分析。

分帧与加窗。采用一个有限长的窗序列,并利用其滑动来实现对原始语音信号的分帧,另外采用交叠分段方法使相邻帧之间过渡更为流畅。

2)端点监测。端点检测是指从一段语音信号中检测出说话的起始点与终止点,删除无声段,以降低特征提取的计算量,缩短系统的训练与识别时间,进而提高准确度与识别率。常用的端点检测方法主要基于2个参数:短时平均能量和短时平均过零率。

3)特征提取。在语音信号处理中,可以采用如下特征:语音信号能量、基音周期、共振峰、LPCC及MFCC等。其中,LPCC是依据说话人的声道模型得来的,整体实现思路是对语音信号进行线性预测分析,再将所得到的线性预测系数启用倒谱运算,该种参数优点是计算过程清晰,且能够优质描述元音信号,但其缺点却在于对辅音信号的描述性能欠佳,且极容易受到噪声的干扰而产生失真。而MFCC参数的获取则是基于人耳的听觉特性,其完整思路是将语音信号的频谱通过带通滤波器转换为基于美尔频率尺度的非线性频谱,接下来就是对滤波器的输出设计展开对数及离散余弦变换,由于该参数为符合贴近人耳的听觉特性,因此相比较而言即LPCC参数具有较好的抗干扰能力。

4)模板匹配。动态时间规划(DTW)是模板匹配法中核心经典的算法之一。DTW算法通过不均匀地扭曲或弯折待测语音信号的时间轴,使待测语音特征和模板特征彼此对齐,并通过不断地在2个模板之间搜索模板中对应矢量最小距离的匹配路径,最终得到一个规整函数,这个函数可使2个模板中的矢量匹配时累计距离最小。因此,DTW是一种结合了时间规整和距离测度的非线性规整技术。

2系统软件设计

本项目软件主要在CCS上获得开发实现。CCS是TI公司开发的用于开发DSP应用程序的可视化集成开发环境,具体支持C2000、 C5000、 C6000系列,包括代码编辑、调试工具、可执行代码生成工具以及实时分析工具,可用于汇编语言和C/C++语言混合编程。

基于CCS的TMS320VC5409A的标准软件开发流程如图2所示。

由图2可以看出,软件开发过程中涉及到C编译器、汇编器、链接器等开发工具,重点包括了C编译、汇编、链接和调试总共4个阶段,具体步骤如下:

1)用C编译器将C语言源代码程序自动编译为C5X的汇编语言源代码程序;

2)用文本编辑器编辑得到符合C5X汇编器格式要求的汇编源程序;

3)调用汇编器将该源文件导入汇编,如果源文件中调用了宏,汇编器还会到宏库中搜索该宏;

4)汇编后,将生成格式为公共目标文件格式的目标文件(.obj),称为COFF目标文件;

5)调用链接器对目标文件提供链接,如果包含了运行支持库和目标文件库,链接器还会到所保护的库中搜索所需的成员。

6)链接之后,生成COFF执行文件(.out);

7)将COFF执行文件下载到C5XDSP中展开运行,同时也可借助调试工具对程序进行跟踪调试或优化。另外,还可利用交叉参考列表器和绝对列表器生成一些包含调试信息的表。

3系统硬件设计

3.1基本组成

语音识别受送话器主要由耳机、麦克风部分和主机部分组成,详细原理框图如图3所示。

3.2控制处理电路

控制处理电路相当于人的大脑,是语音识别受送话器的核心构成。该电路由信号滤波、模数转换、识别、存储、延时、收发控制、产生提示信号、灵敏度调节等各部分组成,每一独立功能均由软件程序调试控制完成。在此,针对该控制处理电路的基础功能模式流程展开设计解析,具体论述如下。

3.2.1 信号滤波、模数转换、语音实现

控制处理电路将收到的前置放大电路送来的信号首先进行滤波、去除外带无用的信号,而后进行模数转换,即编码,将模拟信号转为数字信号。

语音实现部分,本文研究选用了MC145483。这是一款功能全面的音频编解码器,MC145483的主要外接管脚有PCM数据输入端DR,PCM数据输出端DT、芯片主控制时钟MCLK(频率可为256kHz,512kHz,1.536MHz,2.048MHz,4.096MHz)、接收帧同步信号FSR(8kHz)、发送帧同步信号FST(8kHz)、接收端的位时钟BCLKR(256kHz到4096kHz)。MC145483可以提供高质量的语音通信,而且电路简单,通过调节相应的电阻比值即可改变麦克风和扬声器的增益数值。研究可得,语音实现电路如图4所示。

图4 语音实现电路图

Fig.4 Phoneticalisation circuit diagram

至此,MC145483则通过数字输入/输出接口连接至DSP芯片。由于DSP芯片是专门针对数字信号设计和开发的,所以在数字信号分析和处理的领域中,比通用CPU芯片的处理速度更快,效率更高,稳定性更好。本次研究最终选择了TMS320VC5409芯片。总而言之,MC145483可将输入的模拟音频信号经过抽样、量化、编码后变成数字音频信号发送给DSP处理,也可从DSP接收经过其处理后的数字音频信号,并将其通过DA转换后还原为模拟音频信号输出。

3.2.2 信号识别、存储、延时

这一功能是控制处理电路的重点与关键。收到转换后的数字信号后,通过分析判断是否为人的讲话声音。如果不是,系统选择忽略;如果是,则将数字信号进行存储,同时使系统转为发射状态。再将存储的数字信号经过数模转换,即信号解码,恢复为模拟信号,经过不到1s的延时送至输出放大电路输出。信号识别可以确保系统运行高度可靠,而延时则可以实现信号的理想成功传送。

3.2.3 受送话结束提示音

为了获得最佳使用,设置受送话结束提示音。受送话结束提示音分为送话结束提示音和受话结束提示音。下面将基于各自实现阐释。

1)送话结束提示音。结束讲话时,系统需判定使用者讲话是否结束。判定的方法是在使用者结束讲话后1~2s内没有重新讲话,便可视作讲话结束。在1~2s后系统将由发射状态自动调为接收待机状态,同时发出“嘀”的提示音,告知使用者系统目前已处于接收状态。

2)受话结束提示音。当使用者接收到对方电台的声音时,接收的声音一般是连续的,在对方讲话期间,使用者是不能发送的。在对方停止讲话后,系统会产生一个“嘀”的提示音,通知使用者对方讲话已结束,可以讲话发射了。

3.2.4 发射屏蔽信号

发射屏蔽信号主要用来在接收时屏蔽发射功能,这是另一重要设计组成部分。其实现作用如下:当使用者在接收对方讲话期间,因为电台处于接收状态,对方电台则处于发射状态,此时是不能发射的。即使己方电台发射,由于对方电台也同样处于发射状态,对方也是听不到使用者讲话的,相应地使用者也不能听到对方的讲话了。这种现象是人为原因造成的通信线路紊乱。为了避免这一现象的不利效果的干扰出现,设计时处理电路会监视收到的信号,在对方处于讲话期间,即便使用者发声讲话,处理电路也将屏蔽讲话信号(此种状态下,即使不使用通信系统,电台同样不能在对方讲话期间发射),只有在对方讲话结束,即受话结束提示音响过以后才能讲话、发射,确保不会产生通信紊乱现象。

4应用效果

2016年5月23~25日,“2016年中国杭州G20峰会地震安全保障・华东地震应急联动协作区应急支援演练” 在杭州临安举行,来自江苏、福建、安徽、江西、浙江和上海五省一市地震局的6支队伍参加了演练。江苏局研发的骨传导数字语音识别受送话器在地震现场搜救科目中发挥了高效作用,有效提高了救援效率。得到了中国地震局应急救援司领导和参与专家的一致好评。

5结束语

骨传导数字语音识别受送话器在江苏局的应用,首要优势即是控制消除了对外界声音和冲击等的辨识接收。当救援人员讲话时,自动识别产生PTT,就可以实现通话。救援人员的双手获得了彻底解放,讲话时对讲机自动发射,这种通信方法的优化,对于提高救援效率,已然呈现出显著现实益处与良好的方法指导意义。

参考文献

[1]李宁,徐守坤,马正华,等.自适应语音识别算法仿真研究[J].计算机仿真,2011,28(8):181-185.

[2]张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社,2010:189-189.

[3]余建潮,张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计,2009,30(5):1189-1191.

第6篇:语音识别技术范文

【关键词】 语音识别 客户服务系统

一、背景

不断的提升客户服务品质,持续的改善客户感知是企业在竞争中制胜的法宝。随着移动互联网的发展,引入新技术支撑客户服务系统由传统的被动、应答式客户服务向主动、开放、智能服务的转变成为必然趋势。

二、传统IVR客户服务系统存在的问题

1.IVR语音导航复杂冗长,用户体验差。传统的IVR客户服务系统中客户需要面对复杂、冗长、繁琐的IVR导航菜单,用户需要逐层听取菜单提示,根据引导一步步进行按键操作才能得到服务,这容易给用户造成较差的体验,传统的按键式IVR自动语音服务面临越来越明显的挑战。同时,由于用户不能获取便捷的自助服务,大量服务涌入人工座席,宝贵的人工座席资源大量投入于提供简单、重复、低价值的劳动中,使得呼叫中心的整体工作效率难以提升,运营成本居高不下,客户满意度也受到了影响。

2.传统IVR依靠主叫及DTMF信号实现客户识别及交互,使得用户与系统的交互受到很大的限制不利于“主动、智能”服务。

三、什么是语音识别技术

语音识别技术,也称为自动语音识别,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入。与声纹识别技术(Speaker recognition)及说话人确认不同,声纹识别技术尝试识别或确认发出语音的说话人,而语音识别技术尝试识别其中所包含的词汇内容。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

四、语音识别技术在智能客户服务系统中的应用

语音识别技术在电话信道上的应用已成为最重要的应用之一,因此在新一代客户服务系统中引入了语音识别技术作为用户的输入手段,客户可以直接用语音与系统进行交互,这样大大提高了工作效率,提升用户感知。

1.基于语音识别的IVR菜单扁平化智能应用。引入语音识别技术,创建智能IVR导航,使系统成为能听懂自然语言的互动式语音应答系统,将传统的IVR树形的按键操作,转换为扁平化的系统对话,使客户能直达原子业务节点接受服务,以缩短了通话时间,降低IVR业务节点放弃率,提升用户自助服务效果,提升客户体验,分流客户服务,减轻人工服务压力,提升人工服务价值。

2.与声纹识别技术结合对客户进行差异化服务。客户服务资源是宝贵的,将有限的客户服务能力高效的用在提升客户的感知上,需对客户进行差异化服务。准确的识别客户等级及客户服务内容的紧急程度是实现差异化服务的基础,语音识别技术结合声纹识别技术,能突破目前传统IVR客户服务系统识别仅能根据客户主叫号码及DTMF信号的限制,从服务内容,说话人识别的角度判定客户服务的等级,有效拦截的骚扰用户,提高客户服务资源的利用率。

3.基于语音识别的人工座席智能应用。在人工服务中,实现客户语音的“可视化”,完成客户需解决问题的词条及关键字的识别,辅助座席人员快速的进行相关知识库知识节点的搜索匹配,提高客户座席人员的工作效率和服务能力。

4.基于语音识别的质检评估应用。客户服务人员的质检、考核评估,通常是基于语音抽检方式进行,为了提高对服务质量的管控,通常需要进行大量的语音抽检,这需要占用了大量的人力资源。通过语音识别技术,对服务语音进行关键字及语气的识别匹配,实现系统自动质检检查,可有效提高质检检查的覆盖率,对关键服务质量问题进行有效过滤,减轻后台质检人员的工作量,提高质检工作的效率,提升服务质量的管控。

五、影响语音识别系统的应用的主要因素

第7篇:语音识别技术范文

从几年前苹果Siri将语音迅速升温推至消费者面前,到现在语音助手几乎已成为智能手机、汽车电子、智能家居的标配,从人们过去在路边招手打车到现在先用微信与出租车师傅说好再出门……似乎,智能语音产业已经迎来生机盎然的春天。语音一时间成为舆论的焦点:“语音将彻底替代鼠标、键盘”,“语音将成为移动互联网主流信息入口”,“谁掌控语音谁就将掌控一切”……看好、赞扬语音之声不绝于耳。

但一个技术从萌芽期开始不断发展,要酝酿多久才会到爆发期?智能语音产业是真的到爆发期了,还是被提前过度炒作了?智能语音产业现状和未来发展方向如何?中国智能语音企业又该如何选择适合自己的成长路径?带着这些疑问,本报记者先后采访多位智能语音专家,力求探知一二。

莫错失赶超良机

智能语音是新一代的人机交互技术手段之一。就像人与人之间对话交流一样,智能语音是要通过语音实现人与机器之间的交互,即机器能听懂,并能回答提问,实现对话互动。“智能语音技术主要包括语音识别、自然语言理解和语音合成三个环节,完成让机器听懂人说话,再让机器说人话的过程。这种交互需要基于海量的语料库,通过模型实现语音识别和语义理解,包括对语法、分词、情景,甚至是情绪等的理解,再通过知识库系统找到答案,然后通过语音合成技术说出答案,来回交互。”在接受记者采访时,中国语音产业联盟副秘书长李德升这样给出他对智能语音的理解。

百度语音首席研究员贾磊在第十八届中国国际软件博览会的演讲中介绍,百度语音就是通过语音识别、语义理解和后台资源来实现“你说我听”、“你说我想”和“你说我做”的过程,打造人机交互的闭环过程。

人机智能语音交互,说起来容易做起来难。20世纪50年代,AT&T开发出第一个语音识别系统Audry;20世纪80年代,智能语音技术研究由传统的基于标准模型匹配的技术思路开始转向基于统计模型的技术思路;21世纪初,智能语音从技术研究走向实用并进入产业化,进入呼叫中心、家电、汽车等领域;而近期,以苹果Siri为重要引爆点,智能语音应用才开始向移动互联网等新兴领域延伸,产业进而不断积累、发展。

智能语音技术是人工智能的研究领域之一,其原理涉及声学、语言学、数字信号处理和计算机科学等多个学科,研究周期长,投入成本大,技术壁垒高。全球和中国智能语音市场基本形成寡头垄断的格局。随着智能语音产业的快速发展,产业竞争进一步加剧,也吸引了IT巨头和中小创业团队争相进入,与传统语音技术提供商共同角逐智能语音市场。

在国际市场,既有像Nuance这样的占据全球62%语音市场的传统语音技术巨头,也有谷歌、苹果、微软、IBM等IT巨头的竞争参与。在国内市场,李德升告诉记者,目前我国语音技术厂商基本分为三类:一类是传统语音技术厂商,一般从科研院所基础研究脱胎,包括像科大讯飞(中国科技大学)、捷通华声(清华大学、中科院声学所、北京大学)、中科模识(中科院自动化所)、中科信利(中科院声学所)等;第二类是互联网厂商,包括百度、腾讯、搜狗等,它们为给其广大的互联网用户提供更好的增值服务,普遍采用战略合作或者收购等方式,掌握智能语音技术,推广语音服务;第三类是创业企业,像云知声、思必驰等,它们专注于某些行业领域,比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。

近几年来,移动互联网蓬勃发展,基于互联网海量数据的深度神经网络技术有力推进,智能家电、汽车电子、可穿戴设备等领域加速应用,汽车、医疗、智能家居、教育等行业应用不断拓展,智能语音作为新的信息入口,开始引领产业重大变革。

这一两年来,我国智能语音市场也是风起云涌:2012年8月中国移动以13.6亿元战略投资科大讯飞,科大讯飞受二级市场机构投资者追捧市值超过200亿元;云知声创立仅一年就先后获得两轮投资,其中一次融资金额高达1亿元;2013年5月,捷通华声宣布来自百度、清华大学战略投资;2013年8月,百度正式宣布向开发者开放语音生态系统,包括底层的语音识别技术应用程序开发接口(API)、百度语音助手软件开发工具包(SDK);同样在这个月腾讯在微信5.0中增加语音输入功能,一出来便风靡大众,微信APP已经成为消费者每天必刷的强大APP之一;直到最近,2014年4月12日,云知声组织创业公司牵头成立“全智能交互联盟”;2014年4月29日,科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入;5月20日晚,锤子科技首款智能手机Smartisan T1,借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业一片欣欣向荣。

“智能语音是人机智能交互的手段之一,而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。产业变革是以技术为先导的。在PC/互联网时代,我国技术企业在计算机技术尤其是操作系统等方面,因为起步晚,赶超微软、谷歌等国际技术公司比较难,但在智能交互这个技术领域,相对而言,目前中西方起步差不多,如果我们能把握好现在的机会,好好练内功,发展我们自己的包括智能语音在内的交互技术,也许在这方面我们可以真正和国际公司一较高下,真正从中国制造走向中国创造。”北京捷通华声语音技术有点公司(简称捷通华声)董事长张连毅这样告诉记者。

与张连毅持相同观点的还有科大讯飞信息科技股份有限公司(简称科大讯飞)副总裁江涛和北京云知声信息技术有限公司(简称云知声)CEO黄伟。在他们看来,智能语音是难得的一次产业良机,错过语音,中国技术企业很难再有机会赶超国际了。

磨一根针 破一片天

“做语音是需要慢慢熬的。”这句话记者不止听一个被采访人说过。

1989年从清华大学毕业任职紫光推进OCR(图像扫描识别),中间赴美,2000年与中国科学院声学所研究员吕士楠共同创办捷通华声的张连毅称自己是语音乃至整个智能交互行业的老兵。在他看来,从“入口说”、“门槛说”到“血统说”再到“技术说”,这两年来的语音热其实更多是一种炒作,而这种炒作对行业本身未必有多大好处。“我只认可‘技术说’。因为语音只是交互的方式之一,智能语音就是一门技术,它与应用结合,这项技术就能创造出巨大价值。而这门技术的特点是厚积薄发,需要慢慢积累,所以这就决定智能语音产业是要用一根针刺破天的专业领域,而不是用一个铁锤砸出一片声势的产业,必须专注、专业,精耕细作,深耕久酿。”

而所谓的积累,在云知声CEO黄伟看来,就是算法、数据和团队经验的积累。他告诉记者,作为创业型公司,“云知声的优势不在于数据积累,而在于算法。从云知声成立第一天起,我们就用了比对手少一个数量级的数据来训练算法模型,最终达到甚至超越对手产品性能,这个过程我们也积累了丰富而宝贵的团队经验。而现在开放的语音云平台已经让我们有了很多用户数据,我们的数据短板已经得到了弥补。”

黄伟毕业于中国科学技术大学,后加入摩托罗拉并带队研发出世界上首个手机声纹认证系统。国际金融危机期间,摩托罗拉将整个语音识别团队出售给Nuance。黄伟拒绝被Nuance收编,于2009年7月加入盛大网络旗下的创新院,2010年10月创建了语音分院,2013年年底正式出任公司CEO。黄伟告诉记者,在技术方面云知声先后四次升级语音识别内核,目前识别准确率达96.26%,技术领先,并且可提供中、英、粤多语言识别;在商业化方面,云知声单月签约额突破千万元,合作伙伴超过3200家,云知声智能语音已广泛应用在移动互联网、智能家电、车载、可穿戴设备、呼叫中心、教育、医疗等领域。

无独有偶,科大讯飞副总裁江涛也同样是语音界的老人。毕业于中国科技大学自动化与计算机专业的他是科大讯飞的元老,作为科大讯飞创业团队成员,一直在从事语音技术在通信和互联网方向的应用推广。在江涛看来,语音技术和其他技术一样,都在沿技术成熟曲线不断发展。几年前苹果Siri带动语音走进向上发展阶段,那时整个产业被看好,很多资本投入进来至一个高潮,而现在是高潮过后走入技术成熟曲线下行阶段,很多人开始悲观,资本撤离,只有坚持下来的公司能做成。他判断,带语音走入下一波上行曲线的动力很可能是可穿戴设备、智能家居、智能汽车等。

江涛向记者回忆,在上世纪90年代,当时公认语音做得最好是南北二“王”,南“王”就是中国科技大学的王仁华老师,他也是科大讯飞第一任董事长,也是他支持科大讯飞现任董事长刘庆峰创业的;北“王”指的就是清华大学的王作英老师,语音识别和语音合成做得都很不错。在江涛看来,语音成为人机交互的主要信息入口这是大势所趋,毋庸置疑,只是语音真正价值的实现还有赖于技术的成熟和应用的普及。应用的普及需要慢慢来,引导、教育市场,培养人们的使用习惯要一点点推进,但要全面推广、普及还是需要过程的。“几年前要是有人在电梯里对着自己手机喃喃自语大家都会觉得奇怪,不知道这人干嘛呢,但现在因为微信的普及,这种行为习惯已经被接受认可。”

而对于技术的成熟,江涛同样认为是需要专注投入、不断积累的。江涛向记者介绍目前的语音识别技术现状,他以环境从嘈杂到安静的程度为横轴,以人说话的清晰程度为纵轴,划分四个象限。在第一象限,也就是环境也安静、人说话也清楚的情况下,目前各家语音厂商技术实力差距不大,语音识别率都很高。在第二象限,也就是环境嘈杂、网络不好的情况下,目前科大讯飞做得很不错。噪音大、网络信号时断时续非常影响语音识别效果。“车载语音识别最大的对手就是噪音。2013年8月,奔驰在全球对云技术提供商进行选型的报告中分别按不同时速(每小时60、100、140公里)测噪,科大讯飞是唯一在100公里时速上识别率超过90%的厂商。”江涛自豪地介绍。在第三象限,也就是环境不错、人发音不太配合(最典型的各种口音)的情况下,看的就是对语言种类,尤其是方言的支持程度。云知声实现对粤语、英语的识别支持。科大讯飞除了实现对粤语、英语的识别支持,2014年以来陆续支持对河南话、四川话、东北话等方言的识别。江涛透露今年还会陆续支持湖南话、山东话、武汉话、合肥话、闽南话的方言识别。除了口音之外,语速、讲话模式等也会对语音识别带来不同挑战,比如演讲与开会的语音识别的识别算法和模型都不一样。“今年年底科大讯飞将推出一个产品实现普通话开会过程中,将语音转变为文字,识别率很高。”江涛透露。而在第四象限,即环境又不好、发音又不好的情况是世界性的难题,很难有谁能攻克。

各展所长 开放竞合

随着谷歌、微软、IBM等IT巨头加快对智能语音领域的布局,以及Nuance在中国的本土化不断加强,国内语音企业将面临越来越大的竞争压力。相较于Nuance等国际巨头,国内语音企业在研发力量、创新能力、集成应用、行业应用拓展等方面还有不小差距。国内语音企业间的合作、并购、整合步伐也相对要缓慢一些。

对于国内语音企业的发展,作为行业专家的李德升给出了他的见解和建议。他认为,在传统语音技术厂商中,科大讯飞的实力有目共睹,而捷通华声的语音合成在铁路交通、金融电信等领域也有较高的市场占有率,很多高铁、公交站等的报站语音是捷通华声做的。对于这类厂商,李德升给出的建议是得专注于语音,引入互联网思维,真正做大做强。对于百度、腾讯、搜狗等互联网厂商做语音,李德升认为他们具有最丰富的互联网语音资源,更重要的是他们有技术实力、有用户、有互联网思维,这些厂商最有可能可以和国外竞争者一较高下。而对于第三类语音创业企业,李德升的建议是尽量采取合作方式,与互联网厂商合作,专注于特定行业领域积累实力,既不能小富即安,也不能贪高大上,只要积极进取,踏实经营,还是有非常大的成长空间的。

“其实,以苹果为代表的软硬件一体化厂商做语音是为了卖硬件产品,互联网厂商大多是从帮助用户搜索的角度做语音,相对于创业型的语音企业,科大讯飞的优势就在于语音的宽度和厚度积累,优势就在于多年来对语音识别、语音合成、语音评测与语义理解各方面立体的投入和研究,目前拥有全方位立体的语音技术产品。”江涛说,在语音推广方面,科大讯飞坚持两条腿走路:一是坚持移动互联网能力开发,一是通信、教育和安全等重点行业推进。逐步拓展移动互联网能力的三驾马车是手机、汽车和智能电视。目前科大讯飞手机语音已经有四亿的用户,每天活跃用户达四千多万。在教育领域,科大讯飞的语音合成、语音评测在广东高考英语口语考试,西部中小学的英语教具和日常教学中已经发挥很大作用;而在安全领域,公安部第一个跟企业合办的部级重点实验室――公安部声纹实验室就设在科大讯飞。

江涛也坦言,相较于百度等互联网巨头做语音,传统语音技术厂商确实存在一些劣势,“在整个大的开发平台、云存储、位置服务和构建整个生态系统方面,互联网公司确实值得我们学习。我们还是要专心做好自己所长,聚焦在语音和语义方面,真正做好开发者服务,基于语音和语义构建生态系统,尝试推广人机交互广告等。”

“互联网巨头要拥有语音这个技术,不被别人卡住喉咙,但他们有自己的主业,不会放太多精力在语音上。”张连毅如此判断,“语音技术厂商只要做好自己的技术和产品,保持开放合作就能获得良好的发展。”除了夯实智能语音市场,捷通华声更要做的是实现包括智能语音、图像识别(OCR)、生物特征识别在内的全方位的人机智能交互。

第8篇:语音识别技术范文

两种识别技术的应用模式

汇丰银行的系统兼容两种安全模式。首先,汇丰银行面向 iPhone 5S、iPhone 6以及 iPhone 6S 的应用将会利用手机的内置指纹识别器以确认用户的身份,这一点和手机进行解锁及支付等操作中的指纹验证并无二致。而在语音方面,语音识别系统将会用超过 100 个识别码对用户的语音进行比对,包括节奏、口音、发音等等。除此以外,语音识别系统还可以辨别由不同的喉咙结构、鼻道以及声道所发出的语音。

这两种技术是否会让生活更为便利?汇丰银行希望通过语音识别技术为用户免除需要记忆密码之苦,现阶段,电话银行系统所使用的密码、密令等验证信息给用户造成了较大的不便。此外,Touch ID的整合无疑也会加快手机银行应用的登录速度,用户账户的安全性也有了保证。

声音识别系统的工作原理

由声音识别企业“Nuance”公司所提供的技术内置有所谓的“Voice ID”(即声音密匙)功能,它可以记录并分析用户的说话方式,进而辨别用户口部、舌头、喉部和呼吸的特有发音方式,用户仅需经过快捷的训练环节即可正常使用。在后续登录时,用户将会被要求读出特定单词的发音,系统会对发音进行比对。

有一个问题,模仿者有可能骗过系统吗?

计算机接受声音的方式和人耳接受声音的方式非常不一样。模仿他人的声音也许是可能的,但想要在超过 100 个识别码上骗过计算机几乎是不可能的,况且计算机还会辨识用户的体征和行为模式。

如果那天我碰巧因为感冒而声线有所不同会怎么样?

即便是在因感冒而出现声线不同的情况下,Voice ID 系统还是能够识别出用户的声音,因为它所分析的声音构成因素有许多。即便是在感冒的情况下,你的口音、节奏、发音以及其他体征状况还是不会发生变化。

另外,在信号不好的情况下也会是一样,除非你的通话出现了中断等情况。

如果我身处大街等较为嘈杂的地方又如何?

绝大多数智能手机都内置有噪音消除技术,这项技术可以阻隔绝大多数的外界噪音。而 Nuance 公司和 Voice ID 系统则会对剩余的噪音进行处理。除非你在登录的时候碰巧遇上防空警报等显著的噪音,日常生活的正常噪音不会影响你的登录操作。

其他银行有没有使用语音识别技术?事实上,以巴克莱银行(Barclays)为首的其他银行在数年前已经开始面向少量用户使用语音识别技术,其中巴克莱银行的语音识别技术仅对少量优质的富裕客户开放。截至目前,我们尚未获悉这些银行有被非法入侵的纪录。

指纹识别是否足够安全

iPhone 在主页按钮上整合了 Touch ID 传感器,而你的指纹则被苹果公司保存在一个加密的模块当中。每当用户用手指接触主页按钮的时候,iPhone 会将 Touch ID 所读取的指纹和储存在加密模块当中的指纹进行比对,进而给出允许或拒绝接入的判断。用户的指纹数据不会被外泄给任何公司,包括苹果公司在内。

有可能用断指进行解锁吗?

回答是不可能的,只要罪犯了解Touch ID的工作原理,你的手指都会非常安全。

Touch ID 传感器会通过两种方式读取指纹。首先它会通过电容传感器检测由人体皮肤所释放出来的电荷,这一点和触摸屏检测触屏动作时的工作原理一样。此外,它还会使用无线电频率扫描仪来读取活体皮下组织的指纹。由于第二种方式只对活体皮下组织有效,因此断指并不能通过扫描,除非罪犯能以某种方式让其保持鲜活状态。

Touch ID

有没有被入侵的可能

如果非要说Touch ID 有没有被入侵的可能,确实有。

但尽管如此,想要入侵 Touch ID 也绝非易事,首先你需要一套价值超过 1000 英镑的设备和材料,你还需要掌握犯罪现场侦察人员的技能,并收集到需要原用户完整、清晰的指纹。入侵条件非常苛刻,一般的犯罪组织难以满足。

尚未使用其他生物体征识别技术

语音和指纹仅仅是生物识别种类的其中两项,其他目前正在使用或开发的技术包括:

1.心率识别技术,这项技术所使用的是每个人独特的心率模式;

2.血管分布模式识别技术,这项技术会检测每个人特有的皮下血管分布情况,最常用的是手掌、手腕以及手臂等部位;

3.虹膜识别技术,这项技术会通过设备的摄像头辨认用户的虹膜;

4.视网膜识别技术,和虹膜识别技术相似,这项技术会通过设备的摄像头辨认用户的视网膜。

我们曾经在电影中看到过有人通过取出他人眼球的方式来解锁保险库,这个怎么解释?

除了语音和指纹识别技术外,其他生物体征识别技术皆尚未得到广泛应用,因为这些技术在易用性、速度以及可靠性等维度上仍然有所欠缺。

有些识别系统甚至能够辨别用户使用键盘、鼠标、触摸屏等输入设备的模式,每个用户在使用这些设备时的速度、模式、压力以及习惯都有所不同,因此也可被用于用户登录的辨别工作上。但目前这类识别系统尚不会被银行等严肃的机构采纳。

这种情况也不会发生。首先,想要在保存眼球完整度的情况下取出眼球非常困难,而且想要通过视网膜扫描仪的验证,被扫描的视网膜需要保存在有血液流动的鲜活状态。虹膜扫描仪通常也会检测用户的虹膜是否发生运动,失活的眼球显然不符合这个条件。

相关链接

第9篇:语音识别技术范文

 

关键词:自然语言处理 语言翻译 人工智能  

一、引言  

近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。  

二、自然语言信息处理技术简介  

自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。  

三、智能应用  

通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。  

(一)自然语言信息处理在文本方面的智能应用  

在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。  

如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。

(二)自然语言信息处理在语音方面的智能应用  

在语音方面,自然语言处理技术主要应用在自动同声传译、机器人聊天系统、语音挖掘与多媒体挖掘以及特定人群智能辅助系统等方面。其中,自动同声传译主要涉及到语音建模、识别以及语言翻译等方面,采用自然语言处理技术可以对自动同声传

[1] [2] 

译的每个方面都能得到提高,最直接的部分就是语言翻译部分,同时还可能涉及到语音与文本的转换。特别是在语音和文本的转换方面,目前在中文出来中出现的一个问题是音似问题,即音似字不同的情况,对这种情况如果能采用自然语言处理技术来对其进行校验,将能提高其转换的效果,从而提高转换的质量和准确性。机器人聊天系统涉及到更加广泛的内容,如自动回答系统。在机器人聊天系统中不可避免的涉及到语音与文本的转换、自动回答以及逻辑推理,通过自然语言处理技术将能在意义理解、逻辑推理和知识应用等方面得到明显提高,从而使得应答的速度和回复的针对性和准确性等方面都得到一定的提高,从而提高聊天系统的应用性。在语音挖掘与多媒体挖掘方面,自然语言处理技术的应用主要体现在增强意义理解和提高检索速度这两个方面。通过该技术一方面能根据准确的获取语音所包含的意义,从而为搜集信息提供基础。同时,由于采用该技术也有助于数据挖掘中的对相关信息的检索和归纳。  

随着人工智能、计算机视觉等技术的快速发展、自然语言处理技术将能应用于诸如自动场景解说系统等。也就是自然语言处理技术再结合图像理解技术和逻辑推理技术,就能准确的描述当前场景发生了什么事情,如果能和上一个场景进行比较就能及时的描述场景的变化,并通过有效的组织就能实现对场景的自动描述。再进一步利用人工智能技术、知识库及语音生成技术就能实现场景的自动解说,甚至能实现如自动足球运动这样快速场景变换的解说。同时,还能对特定人群提供辅助,如为盲人提供辅助的系统,帮助盲人识别物体以及其他的一些帮助。也可以应用于语音控制,语音控制目前也具有广泛的需求,可以应用在很多方面,将自然语言处理技术、语音建模技术、计算机技术以及控制技术相结合就能实现语音控制,甚至能应用于工厂的智能控制和管理。  

四、结论