公务员期刊网 精选范文 语音识别范文

语音识别精选(九篇)

语音识别

第1篇:语音识别范文

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。专家预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

由于朗读方式的连续语音和通常自然口语化语音(Spontaneous)发音方式有很大的不同,电话语音通常包含更多的环境噪声、信道噪声和语音失真,因此如何有效提高自然口语化语音电话语音和广播语音识别性能是目前重要挑战。目前语音识别技术研究开始重点向电话语音和广播语音识别研究方向发展。利用目前已经比较成熟的技术,开发针对各种应用的语音识别产品,包括语音专用芯片、嵌入式语音识别系统、口语对话系统、声纹识别系统等,也是目前语音技术领域的热点之一。

语音识别整体模型

大词汇量连续语音识别系统的研究主要集中在声学模型和语言模型两个方面。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时性和连续性等。语音识别和理解是一项非常困难的任务,必须建立在从声学、语音学到语言学的知识为基础的语音处理机制上,才有可能获得高性能的自动语音识别系统。目前主流的语音识别的理论是基于统计模式识别原理。语音识别系统通常假设语音信号是由一系列编码组成。输入的语音波形首先被转换为一组离散的参数矢量。通常用O=o1,o2,∧,or表示语音发声一组待识别的特征参数矢量(观察矢量),其中每个矢量时间间隔典型取值为10ms~20ms。识别器的作用是把输入的语音特征矢量映射为潜在的文字序列。

语音识别的整体模型就是要把可利用的语音学和语言学信息用一个统一的模型来进行描述,以得到尽可能正确的句子识别。假设一句语音可以由字串W=w1,w2,∧,wr组成,识别系统要完成的任务是在给定观察矢量情况下,寻找最大可能(概率最大)的字串W。汉语和西方语言识别系统不同的地方在于汉语中的同音字和同音词比较多,汉语语音识别系统必须包含音字转换的过程。

建立语音识别模型的任务就是要把检测到的声学层语音信息通过适当的数学公式将识别结果W与O的关系表示出来。目前被认为最有效的语音识别模型就是基于统计的隐含马尔可夫模型。根据统计模式识别理论,在已知特征O的条件下,选择可以利用各种信息使后验概率最大。具有最大后验概率的结果为系统最可能的识别结果。

语音识别整体模型反映了实际中语音识别系统要解决的四个具有挑战的问题。首先,一个稳健的特征参数提取算法是必须的,并且该参数能很好地适用于语音的声学层模型。第二,必须根据不同语言的发音特点,建立具有很好鉴别力的声学层模型。模型参数必须能够从并不充分的语音数据中训练出来,并表现出稳健性。第三,必须建立一个语言模型,根据前面的历史语言模型能够指导向前搜索的过程。完善的语言模型还必须包含处理新词的能力,并且尽可能做到和文本的内容无关。第四,由于词汇数量是巨大的,一个实用系统必须有适合声学模型和语言模型的剪枝算法。

语音识别特征

选取语音的识别特征参数是语音识别系统中非常重要的一个方面。选取的特征应该对发音模板有较大的区分度和抗噪声性能。语音信号可以看成是准平稳的随机过程。在10~25ms的时间范围内语音信号可以被认为是平稳的,因此可以分帧对语音信号进行分析。对语音识别系统,典型帧长取值为25ms,帧移为10ms。汉明窗(Hamming)通常在分析中使用以提高分析准确性。预加重滤波器通常被用于补偿由于嘴唇辐射引起的高频频谱的衰减。

目前比较有效识别参数为Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients MFCC)。MFCC参数都符合人耳的听觉特性,在有信道噪声和频谱失真情况下,该参数表现的比较稳健。由线性预测系数(Linear Prediction LP)导出倒谱系数也是一种常用的语音识别参数,在安静的环境下,线性预测倒谱系数和MFCC系数的性能相差不多。近来研究表明用感觉加权的线性预测(Perceptually Weighted Linear Prediction Cepstral Coefficients PLPCC)倒谱系数能有更好的识别稳健性。

在语音信号特征提取过程中,通常做一个不精确的假设,即不同帧间的语音是不相关的,由于人发音的物理条件限制,不同帧间语音必须是相关的,变化是连续的。可以用一阶差分系数和二阶差分系数来近似描述语音帧间的相关性。通常把分析得出的语音信号的倒谱特征称为语音的静态特征,而把这些静态特征的差分谱称为语音信号的动态特征。这些动态信息和静态信息成互补,能很大程度提高系统的识别性能。更好的语音动态特征可以用语音的帧间相关模型来描述,但是,其运算量较大。

简单增加语音特征参数的数量并不一定能够提高系统的识别率。增加模型参数的虽然能提高系统的鉴别能力,但同时也增加了系统的混淆性。因此如何有效的选取特征参数是一个重要问题。目前一种从多种参数中选取重要特征的方法是使用线性鉴别分析(Linear Discriminant Analysis LDA),通过LDA可以把原始的特征参数变换到一个维数更低的矢量空间,其改进方法包括异方差区分分析(Heteroscedastic Discriminant Analysis HAD)和混淆数据分析(Confusion Data Analysis CDA)。

声学模型

识别系统的声学模型是识别系统的底层模型。声学模型是语音识别系统中最为关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。人的发音在每一时刻都受到其前后发音的影响,为了模仿自然连续语音中协同发音作用和鉴别这些不同发音,通常要求使用复杂的声学模型。声学模型的设计和语言发音特点密切相关。

汉语的发音特点和西方语言有很大的不同。汉语的每个字发音较短,为带调单音节。它属于有调语言,调对区分汉字的意思起了很大的作用。汉语的每个发音中的辅音部分发音相对较短且词间的连音程度不如英语那么强。针对汉语的这些发音特点,目前的研究表明取半音节作为识别系统的识别单元就能够很好的描述汉语语音的细节。这些半音节通常称为声母和韵母,当然如果详细考虑到声母的左半连接关系和韵母的左半和右半连接关系,还可以细化为声韵母的三音子(Triphone)模型。进一步考虑前面两个和后面两个发音关系,还可以细化为五音子。三音子通常比二音子的数目大很多,可多达上万个。太多的模板,则要求非常大量的训练数据,才能达到稳健的参数估值。

基于一种语言学知识构成的判决树(Phonetic Decision Trees)方法可以结合语言学知识,由数据驱动方法根据语音数据多少,针对由语言学总结出来的发音特点对不同三音子构成在最大似然准则下进行聚类。保证生成模型在给定的数据下,模型参数能够稳健的估值。该方法收到良好的效果,有效地提高了系统的识别率。对统计模型语音识别系统来说,语音训练的数据相对来说总是不够的。提高模型参数估值稳健性的另一种办法是使用捆绑技术,捆绑技术使一些不同的发音模型在某些状态上共享模型参数,这可以很大程度上减少对训练数据的要求。

目前隐含马尔可夫模型HMM仍然是大词汇量语音识别算法的主流,它能对语音的时变性和动态性有很强的模型能力。HMM的从左到右状态转移模型,很好地描叙了语音发音特点。HMM可以分为连续密度隐含马尔柯夫模型、半连续隐含马尔柯夫模型和离散隐含马尔柯夫模型。通常连续密度隐含马尔柯夫模型精度最高,但计算量较大。每个发音音素通常采用3个状态隐含马尔柯夫模型。其结构如附图所示。考虑到在不同的帧上噪声、清音、浊音的短时能量和过零率有重叠的部分,语音信号的端点检测准确率不可能很高,尤其是在噪声较大的环境下。为解决这个问题,还必须设计能够模拟语句开头、结尾静音模型,以及句子中词间短暂停顿静音模型,要注意的是这两种静音模型有不同的统计特性和模型结构,必须分别加以考虑。

语音识别系统这一层模型通常称为声学模型,它是识别系统的最基础部分,对系统性能起到最关键的作用。近年来基于概率图模型和基于随机段模型的识别算法研究也取得显著进展,其识别率在一定程度上好于隐含马尔可夫模型的识别系统,并开始受到重视。

语言模型

一个识别系统必须在每一时刻检测是否遇到语音的发音边界,这样许多不正确字或词的猜测将会从不正确段的语音中识别出来。为了消除这些猜测字词之间的模糊性,语言模型是必须的。语言模型可以提供字或词之间的上下文信息和语义信息。由于语音信号的复杂性,不同音的发声类之间存在着叠接现象,有些单音如果没有前后联想即使人来分辨也是很困难的。通过语言模型可以提高声学模型的区分度,语言模型可以是语言中一些规则或语法结构,也可以是表现字或词的上下文之间的统计模型。目前比较成熟的方法是统计语言模型,它通过对大量文本文件的统计,得出了不同字词之间先后发生的统计关系。

语言模型是近年来自然语言处理领域研究的热点之一。虽然语音识别的声学模型可以做到于任务无关,但常规的语言模型目前还做不到这点。由于语言模型都是通过特定方面内容文本训练而成的,因此从新闻语料训练出来的语言模型,不能够用于识别文学方面的有关内容,这是常规语言模型的主要缺点之一。

语言模型不仅能用于语音识别,而且在音字转换、汉语分词、词性标注中也有应用。汉语的同音字现象很严重,虽然汉语只有无调拼音408个,有调拼音1254个,但平均一个有调拼音要对应5、6个汉字,有的高达十几个。汉语可读的文本是汉字形式,所以音字转换是语音识别的重要步骤。

语言模型不仅可以用于语音识别系统中,还可以用于一般的音字转换系统中。

在转换中可以用基于词的语言模型或基于字的语言模型。实验表明,基于词的语言模型要比基于字的语言模型更精确。表中对应音字转换的数据是在三元文法语言模型下转换字正确率的百分比。

表中的Perplexity通常称为语言模型困惑度或分支度,它可以用于度量语言模型的性能,表明在语言模型的限制下,每个词后面平均能够连接词的个数,其值越小说明语言模型越有效。反过来,如果保持系统识别率不变,则Perplexity越大,系统对语言文法的限制也越宽松。从表中可以看出,基于词的语言模型确实比基于字的语言模型效果好。基于词的模型Perplexity低,而且音字转换准确率高,但是构造基于词的语言模型比较复杂,构造起来也比较麻烦。

链接:说话人自适应

说话人之间的差异对非特定人语音识别系统造成的影响主要有两方面原因: 1.当某一使用该系统的说话人语音与训练语音库中的所有说话人的语音都有较大的差别时,对该使用者的语音识别将很难进行; 2. 训练一个较好的识别系统需要采集数量很大的说话人的语音用于训练,让训练语音库覆盖更为广泛的语音空间,这样虽然可以减低原因1中的影响,但同时会造成识别系统参数分布较广,而不是较为尖锐的分布,造成识别性能的普遍下降。

特定人识别系统虽然可以克服非特定人系统的以上缺点,但该系统需要使用者录入大量的语音用于训练,给使用者带来很大的不便,对于大词汇量的识别系统,所需的语音训练的数量是令人无法忍受的。

近年来,人们采用说话人自适应(Speaker Adaptation, SA)算法有效地解决了特定人和非特定人系统各自的缺点。该方案利用系统使用者的少量训练语音,调整系统的参数,使得系统对于该使用者的性能有明显的提高。与非特定人识别系统相比, 说话人自适应系统由于考虑了用户的特殊信息,因此识别性能优于非特定人语音识别系统; 而与特定人语音识别系统相比,说话人自适应系统纳入了非特定人识别系统的先验信息,需要用户提供的训练音数量远低于特定人语音识别系统,有更好的实用性。因此非特定人+自适应成为当前各语音识别系统采用的实用框架。

第2篇:语音识别范文

【关键词】 语音识别 通话 大数据 互联网

该文主要致力于解决通话中的语音识别技术,长期可推广至QQ语音聊天等即时聊天软件中,相较于目前大多数语音识别软件需要手动打开更为主动,让用户感觉不到软件的存在,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,大大提高了效率,并对听力有障碍的人士有更为重要的意义。

一、语音识别基本原理

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板,然后根据此模板的定义,通过查表就可以给出计算机的识别结果。 [1]

二、通话中语音识别技术

2.1技术原理:

1、基本架构:Smartalk通话系统基于“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务,并加以对手机GPS位置、通讯录、社交软件信息的分析,在“云”的辅助下对之进行处理和交换。Smartalk架构分为4个部分:客户端、语音视频服务、语音识别服务、云数据处理分析。利用“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务可将用户在通话中涉及的地点、人名、电话号码等关键词提取出来并加以分析对行程和下一步操作提供帮助。

2、基本平台:本系统基于APIcloud开发,兼容云端和第三方SDK,可跨平台(Android、IOS、Windows等)使用,采用标准的c++语言实现。

2.2功能实现:

1、基于“云之讯”开放平台的通话系统:云之讯融合通讯开放平台为企业及个人开发者提供各种通讯服务,包括在线语音服务、短信服务、视频服务、会议服务等,开发者通过嵌入云通讯API在应用中轻松实现各种通讯功能。

2、基于“科大讯飞”开放平台的语音识别系统:。讯飞开放平台使用户可通过互联网、移动互联网,使用任何设备方便的介入讯飞开放平台提供的“听、说、读、写”等全方位的人工智能服务。目前开放平台向开发者提供语音合成、语音识别、语音唤醒、语义理解、移动应用分析等多项服务。

3、语音识别与云端大数据结合分析:。利用基于“云之讯”通话系统和“科大讯飞”语音识别系统实现了实时的语音识别,加以云端大数据的结合,和实时的分析用户当前的需求和问题,及时的跟用户产生交流反馈,并根据用户长期的使用时间分析智能提前推送相关信息。

2.3未来展望:

基于大数据和互联网+技术的日益发展与完善,并随着通信传输速度的逐渐提高,可在实时的条件下分析与推送更多丰富的内容,加以与即时聊天软件的结合,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,并对听力有障碍的人士有更为重要的意义,未来的市场前景广阔。

三、语音识别技术应用

3.1 语音指令控制在汽车上的应用:

语音控制人员只需要用嘴说出命令控制字,就可以实现对系统的控制。在汽车上,可用于汽车导航、控制车载设备。如车灯、音响、天窗、座椅、雨刮器等。

3.2语音识别技术在医疗系统中的应用:

医疗语音识别技术,已有厂商开发了基于云平台的语音识别系统,可直接内嵌到医院电子病历系统中,让医生通过语音输入病人信息,填写医疗记录,下达医嘱信息。

四、相关市场调研

1、国内外市场分析:2015年全球智能语音产业规模达到61.2亿美元,较2014年增长34.2%。其中,中国智能语音产业规模达到40.3亿元,较2014年增长增长41.0%,远高于全球语音产业增长速度预计到2016年,中国语音产业规模预计达到59亿元。[2]

2、相关应用发展:拉斯维加斯消费电子展(CES)上展示的MindMeld。在通话中,如果参与者点击应用的一个按钮,那么MindMeld将利用Nuance的语音识别技术,分析此前15至30秒对话。随后,MindMeld将确定对话中的关键词,以及其他多个信息来源,查找具有相关性的信息,并在屏幕上向用户提供图片和链接地址。[3]

参 考 文 献

[1] 吴坚.基于web的salt语音识别技术应用研究[D].湖北工业大学, 2006

第3篇:语音识别范文

【关键词】语言识别;隐含马尔可夫模型

一、语言的实质

人们平时在说话时,脑子是一个信息源;人们的喉咙(声带),空气,就是如电线和光缆般的信道;听众耳朵的就是接收端(信宿),而听到的声音就是传送过来的信号;语言在这一过程中充当信息载体的角色,即消息。这就是人类通过语言交流的实质。

二、语音识别

语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面子语言。通俗地说就是让机器能够听懂人说的话。所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。

三、HMM原理

隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:

1.隐含状态S

是马尔可夫模型中实际所隐含的状态,这些状态之间满足马尔可夫性质。这些状态通常无法通过直接观测而得到。

2.可观测状态O

在模型中与隐含状态相关联,可通过直接观测而得到,可观测状态的数目不一定要和隐含状态的数目一致。

3.初始状态概率矩阵π

表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1、P(S2)=P2、P(S3)=p3,则初始状态概率矩阵 π=[p1 p2 p3].

4.隐含状态转移概率矩阵A。

描述了HMM模型中各个状态之间的转移概率。其中Aij = P( Sj | Si ),1≤i,,j≤N.

表示在 t 时刻、状态为 Si 的条件下,在 t+1 时刻状态是 Sj 的概率。

5.观测状态转移概率矩阵 B

令N代表隐含状态数目,M代表可观测状态数目,则:

Bij=P(Oi | Sj), 1≤i≤M,1≤j≤N.

表示在 t 时刻、隐含状态是 Sj 条件下,观察状态为Oi的概率。

总结:一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系。

当人们观测到语音信号o1,o2,o3时,要根据这组信号推测出发送的句子s1,s2,s3。显然,人们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述,就是在已知o1,o2,o3,...的情况下,求使得条件概率:

P(s1,s2,s3,...|o1,o2,o3....)达到最大值的那个句子s1,s2,s3,...。例如,当人们听见(ni shi shui a),按经验、语言环境就能判断出对方所说的是“你是谁啊”的概率最大,而不是其他的句子。

四、HMM基本步骤

对HMM来说,有如下三个重要假设,尽管这些假设是不现实的。

假设1:马尔可夫假设(状态构成一阶马尔可夫链)

P(Xi | Xi-1…X1)=P(Xi | Xi-1)

假设2:不动性假设(状态与具体时间无关)

P(Xi+1 | Xi)=P(Xj+1 | Xj),?坌i,j

假设3:输出独立性假设(输出仅与当前状态有关)

P(O1,…,OT | X1,…,XT)=?装P(Ot | Xt)

隐藏的状态和可观察到的状态之间有一种概率上的关系,也就是说某种隐藏状态H被认为是某个可以观察的状态O1是有概率的,假设为 P(O1 | H)。如果可以观察的状态有3种,那么很显然 P(O1 | H)+P(O2 | H)+ P(O3 | H)=1。

这样,我们也可以得到一个另一个矩阵,称为混淆矩阵 (confusion matrix)。这个矩阵的内容是某个隐藏的状态被分别观察成几种不同的可以观察的状态的概率。

下图明确的表示出模型的演化,其中绿色的圆圈表示隐藏状态,紫色圆圈表示可观察到状态,箭头表示状态之间的依存概率,一个HMM可用一个5元组{N,M,π,A,B}表示,其中N表示隐藏状态的数量,我们要么知道确切的值,要么猜测该值,M表示可观测状态的数量,可以通过训练集获得,π={πi}为初始状态概率,A={aij}为隐藏状态的转移矩阵Pr(xt(i) | xt-1(j)),B={bik}表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵,Pr(ot(i) | xt(j))。在钐转移矩阵和混淆矩阵中的每个概率都是时间无关的,即当系统演化时,这些矩阵并不随时间改变。对于一个N和M固定的HMM来说,用λ={π,A,B}表示HMM参数。

在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。

五、向前向后算法

下面介绍前向后向算法的参数学习过程,在学习的过程中,不断更新HMM的参数,从而使得P(O | λ)最大。我们假设初始的 HMM 参数为λ={π,A,B},首先计算前向变量?琢和后向变量 ?茁,再根据刚刚介绍的公式计算期望?孜和ζ,最后,根据下面的3个重估计公式更新HMM参数。

参考文献:

第4篇:语音识别范文

关键词:语音识别;信息技术;发展趋势

中图分类号:TP391.42 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02

近年来,随着科学技术的进步,语音识别技术的发展,通过语言操纵机器的梦想正在逐步变为现实。语音识别是语音信号处理的一个重要的研究方向,经过50多年的积累研究,尤其是近20年来,语音识别技术取得了显著进步,并且广泛应用于商业,比如苹果的siri系统。本文从语音识别的发展历史、发展方向来着重分析未来语音识别技术的发展趋势。

1 语音识别技术的发展历史

1.1 语音识别技术在国际的发展

早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT& T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的高潮,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query (电话语音识别)引擎等。

1.2 语音识别技术在国内的发展

我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。

现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

2 语音识别技术的技术实现及困难

语音识别技术的实现方式是声音通过转换装置进入机器,而机器配有“语音辨识”程序,程序将得到的声音样本与数据库存储的样本进行比对,输出最匹配的结果,转化为机器语言,进而执行命令。真正建立辨识率高的语音辨识程序组,是非常困难而专业的,专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并具有较高辨识度。

2.1 语音识别的技术实现方式

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。

(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:

单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;

音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力

(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。

(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。

2.2 语音识别遇到的困难

目前,语音识别研究工作进展缓慢,困难具体表现在:

(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

3 语音识别技术的发展趋势

3.1 进一步提高可靠性

目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;

3.2 增加词汇量

目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;

3.3 微型化并降低成本

语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

4 结束语

21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着Internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源和现代化服务,所以,如何将这一技术可靠的、低成本的应用于商业和日常生活,是语音识别技术的发展方向和趋势。

参考文献:

[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用,2010:14-17.

[2]盛青.语音自动识别技术及其软件实时实现[J].西北工业大学,2001:45-47.

[3]廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010:34-36.

[4]陈方,高升.语音识别技术及发展.CIO时代论坛,2009:67.

第5篇:语音识别范文

很小的时候爱看科幻小说,在那样的小说中,曾经看到过科幻小说家预言未来的人会长成什么样子。按照达尔文的进化理论,未来的人脑袋将会变得极其之大,而四肢则渐渐退化。因为人类通过聪明的大脑,逐步让四肢从繁琐的工作中解放出来,最终就会变成脑袋庞大而四肢退化的模样。而语音识别(Speech Recognition)就是在这种科幻进程中解放我们双手的一项重要技术。

让机器直接能够听懂人类的语言,一直以来都是人类梦寐以求的愿望。可是语音识别技术虽行之有年, 但进展却似乎缓慢。当记者走进中科院声学所的中科信利语音实验室,才切身体会到,其实语音识别离我们并不遥远。

哼唱识别系统

不久前,中科院声学所的中科信利语音实验室开发出了一种“哼唱检索系统”,无需鼠标键盘,对着话筒哼唱出歌曲的旋律就可以检索到哼唱歌曲的曲名。当记者在中科信利语音实验室的会议室,面对屏幕,拿着话筒哼起一段邓丽君的《甜蜜蜜》的旋律时,大概只用了6~10秒,检索系统就自动检索出来了所哼唱旋律的歌名,并附上了完整的歌词。

“哼唱检索系统是通过旋律匹配进行检索的。”博士毕业论文专门研究哼唱检索系统的语音助理研究员李明介绍说。哼唱检索系统根据歌曲旋律的走势来匹配检索,而不是通过音调。因为音调的基准会有所不同,这就大大降低了检索识别的适用性。所以,对于哼唱检索系统的使用者而言,哼唱节奏的快慢,以及记得歌词与否,都对检索识别没有影响。正是因为此,这套系统在由美国伊利诺斯大学负责主办的国际音乐信息检索评测比赛(MIREX)中,以92%的准确度获得了第一名的好成绩。

任何系统都不能只存在于实验室中,哼唱检索系统业理所当然要走出实验室。“我们的哼唱检索系统已经在河北等地的移动彩铃业务中应用了。”中科信利语音实验室研究室主任颜永红说。“用户通过哼唱一段旋律,就能查找到自己听过却不知道名称的歌曲或彩铃,然后进行点播和下载。这种大规模的商业应用,已经进入了成熟阶段。”颜永红还表示,实验室正在着手和互联网几大音乐内容提供商合作,相信在不久的将来,就可以实现在互联网上哼唱一段旋律来检索歌曲名称。

提高识别率

对于中科信利语音实验室研究出来的这套哼唱识别系统,还有一个更好的应用前景就是在KTV等场所的歌曲检索。对于爱好唱歌的人而言,一定都有过这样的经历: 往往熟悉一首歌曲的旋律,却记不住歌曲的名称。特别是在KTV点唱时,K友常常会遇到这样的问题,想唱却又找不到歌名。哼唱检索系统正好解决了这样的问题。试想,当有一天,我们在KTV中点歌时,不必再通过繁琐的手动操作界面,而只需要通过口头来完成,那种感觉又岂是方便两个字能简单概括的。而这种搜索模式的实现,其实只要在KTV的点歌系统中嵌入哼唱检索系统的技术就可以了。

但是,中科信利语音实验室开发出来的哼唱检索系统对哼唱的环境是有所要求的。“我们的检索环境要求是要相对安静的。”李明这样介绍说。那么,对于KTV中过于嘈杂的语音环境,哼唱检索系统,如何发挥他的威力呢?

“目前语音识别技术需要解决的问题,一个是对噪音环境的处理,一个是对不同口音的识别,再一个就是要不断提出好的算法。”颜永红这样对记者说到。语音识别技术的基本原理就是对输入的语音信号进行分析,抽取语音特征参数与存储器中的语音模板的参数进行匹配识别。因此,语音识别技术不仅对识别的背景、噪声干扰有要求,同时,对说话者的清晰程度、连贯程度,以及是否口语化是否带口音,也都有要求。这些正是导致语音识别技术识别率不高的主要原因,也是导致语音识别技术一直没有能够大规模展开应用的瓶颈。

如何提高识别率一直都是语音识别技术不断挑战的问题。基于目前的语音识别技术,语音识别的应用,应该是相对小众的,而且面对特殊人群的。例如,某一领域,相对安静背景的语音识别的应用,又或,就目前而言,语音识别技术对于盲人群体的作用与帮助要大大高于一般的正常人。

语音识别搜索

语音识别技术一个很有效的应用,就是语音识别搜索。“语音识别搜索主要有三种方式: 原声搜索、旋律匹配搜索和语音搜索。”中科信利语音实验室副研究员赵庆卫博士告诉记者。原声搜索是针对原始声音进行完整匹配的搜索。除人声外,其他周遭的一切声音都可以针对原声搜索出其位置。而哼唱检索系统就是典型的旋律匹配搜索。至于语音搜索,是指针对某一特定人员的语音进行筛选搜索的方式。

在信息疯狂膨胀的时代,对于浩瀚信息中的有效资源搜索毫无疑问是相当重要的。而且,信息已经不单纯是以往的纯文本,而是逐步发展到了音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音、视频文件已经不足以满足用户的需求。通过语音识别对音、视频内容的搜索已经开始广泛应用。

美国的Blinkx就是最先开始应用语音识别进行内容搜索的网站之一。而在国内,openv.tv也露出了做专业的电视及视频搜索引擎的意图。当文字搜索已经发展到几乎没有上升空间的时候,微软、Google这些技术巨头也开始瞄准未来的语音、视频搜索市场。

未来无限大

语音识别芯片的应用范围其实十分广阔: 电话通信中的语音拨号、汽车的语音控制、工业控制及医疗领域的人机语音交互界面、个人数字助理(Personal Digital Assistant,PDA)的语音交互界面、语音智能玩具、家电的语音遥控等。解放双手,丰富沟通,是在这些领域应用的共性。

除此之外,语音识别还可以给我们带来更多的便利。“语音识别的关键一个是发音评估,一个是内容识别。”赵庆卫说。除了哼唱检索系统以外,中科信利语音实验室在音频水印、发音纠正、语种识别等方面都有成果。音频水印是以编码方式嵌入音、视频文件,主要应用于音、视频文件的版权保护、保密通信以及广播监听。发音纠正软件可以对说话人的发音进行评估和分析,特别有助与用户的语言学习。据赵庆卫介绍,这种发音纠正已经用于国内部分地区推广普通话的进程中了。

“市场每年;都在变大。”谈及语音识别市场的未来时,颜永红如是说。根据半导体行业的摩尔定律,硬件成本过高是导致语音识别技术无法在家电等领域应用的主要原因。“早在2002年,技术上就已经实现在电话上应用语音识别技术了,但是却只能用在部分高端手机上。”颜永红说。

第6篇:语音识别范文

关键词:连续语音识别;关键技术;创新

谈到语音识别,就不得不提到李开复------前微软研究院院长,他在哥伦比亚大学时主攻的就是语音识别,即通过机器来识别语音。语音识别是现代社会背景下的一门新兴学科,它最主要的功能就是可以让计算机听懂人说的话,进而为人们提供更高效且方便的服务。它是人类和计算机之间利用语言进行交流 的桥梁,也是一门与多种学科紧密联系的实用技术。现阶段,人们对连续语音识别的研究已经取得了一定的成就。目前,我们研究语音识别的重点正在向特定应用领域口语的识别和理解方面转变。在这个研究中,有几种关键技术,下面我们就对其中几种关键技术进行简单的分析。

1、词语定位技术

词语定位技术,在语音识别技术中非常重要的技术。主要通过对关键词进行定位,这种技术跟语言的语法特点有很大关系,是将语句中的关键词语提取出来的一种定位技术。比如主语,谓语,宾语就是关键语素,先将这些语素定位对于完善整句话有着非常重要的意义,因为这些语素已经勾勒出了语句的骨架。打个比方,盖个房子要加钢筋,来增加建筑物的强度和支撑作用,关键语素就是语句意群的钢筋。通常词语定位是通过设置并及时更新关键词库来实现的。

2、关联搜索技术

在确定完基本语素后,就要根据语素之间的关联性,进行搜索,那些语素是一个意群,同在一个意群中的语素如何排列。利用相关性确定意群非常重要,因为词语词之间不是任意搭配的,而是有规律的,这种规律就是语法,包括书面语语法和口语的语法。语法是语音识别的规则,因此是非常重要的。关联的方式在语法的约束下主要有以下几种:1.相关词语出现的概率;2.相关词语的词性;3.相关词语出现的语境的重复率等等。

连接词识别就是说,系统中存储的HMM针对的是孤立词,但识别的语音是由这些词组成的词串。由于这一技术是一个连接序列,即根据给定发音序列来找到与其最匹配的参考模块词,所以,下面的问题必须得到解决:(1)在序列中,有些时候即使知道词长度的大概范围,也不知道词的具体数量;(2)除整个序列的首末端点之外,序列之中每个词的边界位置并不知道。

3、抗阻碍性

在语音识别系统中,阻碍无处不在,具体说来,阻碍包括以下几个方面:1.方言带来的语音识别的阻碍;2.口音带来的语音识别的阻碍;3.外界干扰(噪声)带来的语音识别的阻碍;4.系统设备局限性带来的语音识别的阻碍等等。

一般情况下,在实验室(环境相对安静)中训练合格的语音识别系统用在实际环境(环境与训练的实验室环境不相匹配)的时候性能就会明显下降。所以,运用顽健语音识别技术就是为了研究一些补偿技术借以提高系统在不同环境中的性能。

根据语音系统中噪声的特点,我们研究出了一些抑制噪声的方法,如根据信号与噪声在各个尺度上的小波谱表现不一样的特点,可以运用小波变换的噪声抑制;根据含噪语音信号能量谱就是噪声信号和语音信号能量谱之和这一特点,可以运用EVRC编码噪声抑制方法,等等。

4、搜索策略技术

在利用计算机来识别语音的时候,未知的模式,即从输入语音中求出的特征参数,与事前所定的标准模式是否一致,这个问题必须检查。目前语音识别的实现主要是通过声音识别芯片分析声音的波形来实现的,人的说话声音有音调、音色的不同,因而所形成的生意的波形也不同,芯片通过比对声音图谱来确定语音内容,达到声音识别的目的,这也就是声音识别的原理。然而,在实际情况中,由于语音具有许多的不确定的因素,想达到完全一致比较困难。搜索策略是连续语音识别研究中的一个是否重要的课题。它的基本思路是,把帧作为搜索单位,在每一时刻对每一条路径都假定当前帧有可能是这一路径的后续,借此进行一个完整的搜索。

总体来说,搜索策略技术受到容量的限制。所以,我们必须确定应该保留哪些路径,这就要求我们确定一定阀值,这个阀值既不能过严也不能过宽。对于这个问题,我们一定要采用合适的算法,如传统的帧同步算法、基于统计知识的帧同步搜索算法原理和受词法约束的词搜索树等算法都是比较适合这一部分的。

结论:

    本文总结了连续语音识别中几种关键技术,并对它们进行了简单的介绍和分析。目前连续语音识别技术的研究并不成熟,它要向正确的方向健康发展就必须把词语定位技术、关联搜索技术、抗阻碍性技术、搜索策略技术等技术都正确运用于实际工作中。

参考文献:

[1]冯丽娟,吾守尔·斯拉木.维吾尔语连续语音识别技术研究[J].现代计算机:下半月,2010,(1)

第7篇:语音识别范文

一、语音情感识别技术发展趋势

语音情感识别是人工智能、心理学和生物学等多学科交叉的新兴领域。蕴藏在语音中的情感信息是人们相互交流的重要信息,例如同样一句话,说话人在不同的情感状态时所表达的含义会截然不同。当今人们不断深入对情感信息处理的研究,也越来越重视语音信号中情感信息处理的研究。语音信号具有便携性好和采集方便等优势,因此语音识别技术在智能人机交互、人机交互教学、娱乐业、医学、刑侦与安全领域得到了广泛的应用。

1997年,美国麻省理工大学的Picard教授首先提出了情感识别的概念,随后美国麻省理工大学、美国洛杉矶南加州大学、新加坡南阳理工大学等高校科研机构陆续并展了情感识别领域的研究。在国内,东南大学、中科院自动化研究所、清华大学、东南大学、西北工业大学、江苏大学等高校和科研机构也都开展了情感识别方面的研究。

二、语音情感识别模块构成

语音情感识别技术是根据人在不同情感下的语音信号非平稳性特征等比较明显的特点,通过提取语音的音质特征、韵律特征和频谱特征等声学特征来判断情绪的变化,语音情感识别模块大体包括语音采样、语音预处理、语音特征提取、语音特征处理、特征识别、情绪判断几个部分。

首先可设定采样的频率和时间长短,对语音进行采样并进行去噪、加窗、分帧等预处理,然后根据对不同情绪判断的需要分别提取语音的音质特征、韵律特征和频谱特征等声学特征如基音频率、共振峰、Mel频率倒谱系数、能量、样本熵等,再将提取的多种特征通过各种时频分析方法进行处理,如短时傅里叶变换(FFT)、希尔伯特变换(Hilbert transform)、经验模态分解(EMD)等,之后将特征参数送入相应的函数识别器(常用的一般为支持向量机SVM)识别特征参数的归属范围,最后根据多种语音特征融合后的识别结果来综合判断采样语音的情感种类。

三、语音情感识别技术应用的必要性

随着社会进步和生活水平的改善,客户对呼叫中心热线服务质量的要求也在不断提高,而呼叫中心主要通过电话与客户交流,依赖语音获取信息,与客户的接触渠道比较单一,这就需要我们结合国内外发展的新形势来积极寻求提升服务质量及客户感知的新方法以应对如下问题。

1 海量录音抽样质检的限制性

客服质检人员每天从几万条录音中只抽取几百或几十条录音进行质检,录音抽取范围一般是客户做出满意度参评或客服代表的专席转接的录音,无形中限制了录音质检的范围,而实际的问题是录音可能客户既没有参评、客服代表也未进行专席转接,故此很难发现录音背后隐藏的客户实际问题,录音质检的目的也会因此而大打折扣。

2 投诉处理缺少统一的标准

面对客户各种不同情况的投诉录音,不同的投诉处理人员会有不同的判断标准,继而会执行不同的处理流程,带给客户与客服代表的感知也会因此而有所差异,对客户投诉的判责依赖于个人感知的成分较多,缺少说服力和理论依据。

3 客户情绪感知的滞后性

若客户带着情绪或疑问拨入热线却在音调上故作平静,客服代表将很难在第一时间了解客户的切实想法和真实情感,无法对症下药、做出准确的应答,进而会放大客户的痛苦,激化客户的不满情绪,严重影响客户的感知。

4 客服代表的服务热情降低

客服代表常年工作在一线,每天面对大量不同客户近乎相同的问题,重复给出近乎相似的答案,容易产生一定的职业疲劳,在与客户的互动中会出现语音语调平淡的问题,自己本身却察觉不到,无形中影响了客户的感知和呼叫中心的服务质量。

四、语音情感识别的具体应用

结合目前国内外语音情感研究新兴领域的语音情感识别技术,可构建语音情感分析模块,针对以上提到的几点问题,实现在客服代表与客户人机交互的过程中的四项重要作用。

1 自动将语音筛选分类

语音情感识别模块可以将海量的录音根据客户情感的不同区分成不同的客户情感录音库,质检人员可以根据质检的需要和目的将分类后的情感录音库做为抽检录音的来源,再辅以日常常用的抽检标准进行质检,这样就精简了录音的抽检范围,提高了录音质检的针对性,增强了质检工作的目的性,更易于发现实际存在的问题。

2 投诉校准

语音情感识别模块可以通过采样客户的投诉录音,综合判断客户和客服代表情绪的归属类别,为投诉的判责提供标准和理论依据,进而规范和统一后续的处理流程,这样,即使不同的投诉处理人员也会给客户和客服代表做出相同的处理结果,使投诉处理工作更具有说服力。

3 客户情绪及时识别

语音情感识别模块可以通过实时采样客户的声音,在客户电话接入的前几秒对客户的情绪做出判断,特别是针对客户带着情绪或疑问拨入热线却在音调上故作平静、人耳难以识别的情况下,进而通过情感识别系统的反馈信息及时提醒客服代表客户情绪的异常,客服代表可以灵活转变问题处理的方式从而缩小客户的痛苦,提高客户的满意度。

4 客服代表服务热情实时提醒

第8篇:语音识别范文

关键词:语音识别;LD3320;STM32F407;W25Q128

随着科技的发展,人们的操作模式从最初的按键操作到触屏操作,再到现在的语音操作,其越来越便捷,越来越人性化。语音操作的基础就是语音识别技术(Automatic Speech Recognition),简称ASR,其目标就将人类语言转换为计算机可读的输入。语音识别作为一门交叉学科,从产生到现在已取得了显著的进步,现在已逐步走向市场,并且人们预计,语音识别技术在未来10年将会应用于人们生活的各个领域。

根据发音人的不同,语音识别技术可分为特定人语音识别和非特定人语音识别两类,前者只能识别一个或几个人的语音,而后者则能被任何人使用。本文设计的多鼍坝镆羰侗鹣低尘褪粲诜翘囟ㄈ擞镆羰侗鹫庖焕啵其以嵌入式微处理器STM32F407为核心,采用ICRoute公司的LD3320语音识别芯片,并配以存储空间为16M字节的W25Q128芯片,能够实现2000个场景共计识别句100000条的语音识别操作。

1 系统整体结构

如图1所示,整个系统主要是由STM32F407处理器、LD3320语音识别芯片以及W25Q128Flash芯片构成。其中STM32F407处理器用于切换场景和场景关键词更改;LD3320语音识别芯片用于语音识别,W25Q128Flash芯片用于存识别句,两种都是通过SPI总线与处理器相连。整套系统与外部其他系统则是通过串口进行通信。

2 系统硬件介绍及存储空间设计

2.1 系统硬件介绍

2.1.1 STM32F407ZGT6处理器

STM32F407ZGT6采用Cortex_M4内核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3个SPI、6个串口等。基于其强大的配置,所以本系统的处理器选用该芯片。

2.1.2 LD3320语音识别模块

LD3320语音识别模块是ICRoute公司的一款产品,其特有的快速而稳定的优化算法,能够完成非特定人语音识别,识别准确率高达95%。该模块每次最多可以设置50条候选识别词或识别句,只要单个词或句长度不超过10个汉字和79字节的拼音串,同时我们可以对识别内容动态编辑。模块的通讯方式有并行和串行两种,根据需求的不同可以选择不同的通讯方式。除了语音识别这一功能之外,模块还支持MP3播放功能,只要MCU将MP3数据依次送入芯片,就能够从芯片的PIN引脚输出声音。

2.1.3 W25Q128Flash芯片

W25Q128是华邦公司推出的大容量SPIFLASH产品,容量为128Mbit,即16M。该芯片将16M空间分为256块,每块64KB,每块又分为16个扇区,每个扇区4KB。由于W25Q128的最小擦除单位为一扇区,也就是说每次擦除4KB。

2.2 存储空间设计

由于W25Q128芯片每次擦除的单位为4KB,而每句识别语句至少有80字节,一个场景有50句识别语句,所以一个扇区用于一个场景是不够的,因此我们将两个扇区划为一个场景;图2是单个场景数据存储关系图,图中每个场景占8192字节,每条识别语句占100个字节,其中第一个字节为识别语句编号,范围为1-50;单个场景的第一个扇区可以存储40条识别语句,第二个扇区可以存储10条识别语句,其中第4000B-4096B和5096B-8190B保留,不存储数据,整个场景的最后两个字节用于存储场景编号,范围为1-2000。W25Q128共有4096个扇区,理论上可以划分2048个场景,但是我们只划分2000个场景,也就是4000个扇区;还剩下96个扇区,剩下的第1-50扇区用于存放每个场景的相关信息,计算可以得到每个场景有1KB的存储空间,然后我们将最后一个扇区的最后两个字节存储现在所在场景编号,剩下的空间保留。

3 系统软件设计

3.1 通讯协议格式设置

整个系统主要具有场景切换和场景识别语句存取功能,表1是部分对应协议格式。

3.2 初始化函数及操作函数介绍

STM32处理器与其他各个模块建立通信连接,除了连接好对应IO口后,还需要对各个IO进行初始化,这样才能进行数据的收发,以下是主函数中相关初始化函数:

NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先设置系统中断优先级分组

delay_init(168); //初始化延时函数

LED_Init();//指示灯初始化

KEY_Init();//按键初始化

IWDOG_Init();//看门狗初始化

USART1_Init(9600);//初始化串口1

W25QXX_Init();//W25Q128初始化

LD3320_Init();//LD3320初始化

while(W25QXX_ReadID()!=W25Q128) //检测是否存在W25Q128

{

LED0=!LED0; //如果检测不到W25Q128指示灯1会不停闪烁

}

第9篇:语音识别范文

关键词:Mel频率倒谱系数;支持向量机;语音识别;特征提取

中图分类号:TP399 文献标识码:A 文章编号:1672-7800(2012)003-0153-02

作者简介:李玲俐(1977-),女,湖北洪湖人,硕士,广东司法警官职业学院讲师,研究方向为数据挖掘与模式识别。

0 引言

语音识别是一种模式识别,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术3个方面。目前一些语音识别系统的适应性比较差,主要体现在对环境依赖性强,因此要提高系统鲁棒性和自适应能力。支持向量机(Support Vector Machine,SVM)是基于统计学理论发展起来的新的机器学习方法,采用将数据从低维空间映射到高维空间的思想,由支持向量来决定最优分割线,SVM先自动找出对分类有较好区分能力的支持矢量,然后构造出分类器来最大化类与类的间隔,因此有较好的适应能力和较高的分准率。

本文在现有语音识别技术基础上,提出一种MFCC(Mel Frequency Cepstrum Coefficients,Mel频率倒谱系数)+SVM的语音识别方法,实现对几种英文单词的分类。实验结果表明,该识别方法具有较高的准确率。

1 语音识别系统

语音识别过程一般分为3个阶段:信号处理、特征提取和模式识别,如图1所示。

1.1 MFCC特征提取

特征提取是数据挖掘和模式识别中的一个重要步骤。其目的是从原有特征数据中提取出与特定任务,如分类、压缩、识别等密切相关的新特征(或特征子集),以有效地完成特定任务或进一步减少计算量。

研究者通常使用经典的特征提取技术,如MFCC、连续小波变换(Continuous Wavelet Transform,CWT)和短时傅里叶变换(Short-Time Fourier Transform,STFT)来提取语音片段的特征。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系,计算得到的Hz频谱特征。由于MFCC具有良好的识别性能和抗噪能力,在语音识别中得到广泛的使用,而且研究人员仍在对MFCC的各种参数进行实验和调整,并通过同其它模型的协同工作来找出提高识别率的方法。

MFCC参数的提取包括以下几个步骤(如图2所示):

(1)预加重。通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。

(2)分帧。根据语音的短时平稳特性,语音可以以帧为单位进行处理。n为每一帧语音采样序列的点数,本系统取n=256。

(3)加窗。为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡,需要让语音帧乘以一个窗函数。目前常用的窗函数是Hamming窗。

(4)对每帧序列s(n)进行预加重、分帧加窗后,然后经过离散FFT变换,将s(n)取模的平方得到离散功率谱S(n)。

(5)计算S(n)通过M个滤波器Hm(n)后所得的功率谱,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个参数Pm,m=0,1,…,M-1。

(6)计算Pm的自然对数,得到Lm,m=0,1,…,M-1。

(7)对L0,L1,…,Lm-1计算其离散余弦变换,得到Dm,m=0,1,…,M-1。

(8)舍去代表直流成分的L0,L1,…,Lm-1,取L0,L1,…,Lm-1作为MFCC参数。

1.2 SVM分类器设计

在线性可分的情况下,SVM构造一个超平面H,设线性可分样本集为(xi,yi),i=1,2,…,n,U∈{+1,-1} 是类别标号。所有在这个超平面上的点x满足:

w・x+b=0

其中:w为权重向量,b为分类阈值。根据结构风险最小化原则,在保证分类间隔最大,即寻找最优分类面的条件下,w和b必须满足如下条件:

yi[(w・xi)+b]≥1

xi为训练样本,在此约束下,求解最优超平面问题可以转换为求函数:Φ(w)=12w2=12(w・w)的最小值。最优问题的解由Lagrange函数的极值点给出:

L(w,b,α)=12w2-∑li=1αi{yi[(w・xi)+b]-1}

αi为Lagrange乘子,对w和b求偏导,并令所求式为零,求得:

∑li=1yiαi=0

对于线性不可分的情况,可以通过非线性变换转化为某个高维空间中的线性问题。即将SVM中的内积x・y由核函数K(x,y)所取代。常用的核函数有:

(1)多项式核函数K(x,xi)=[(x・xi)+b]d,其中d是多项式的阶数。

(2)Gauss核函数K(x,xi)=exp-x-xiσ2 ,其中σ是Gauss函数的宽度。

(3)Sigmoid核函数K(x,xi)=tanh[v(x,xi)+c],其中v和c是尺度和偏置参数。

由经验观察可知,Gauss核函数比其它两种核函数优越,所以本文选用Gauss核函数,对于给定的核函数。最优分类函数为:

yi=sgn∑xi∈wiyik(xi,xj)+

2 实验设置及结果分析

本实验使用的语音信号采用Windows自带的录音软件录制,录音背景为普通环境,录制的语音以Wave 格式保存,采样频率为8KHz,16bit量化,单声道。对10(5男5女)个人进行录音,语音样本分别为6个单词,并且每个人每个词发音9遍,得到540个采样数据。随机抽取2/3的采样作为训练样本集,1/3作为测试样本集。

由上述语音识别系统得到每一种语音的正确分类的样本数,并采用

识别准确率=正确识别的样本数样本总数×100%

得到表1所示的识别结果,包括每种待识别单词以及总计得到的正确识别数和识别准确率。

3 结束语

本文提出了一种采用MFCC特征提取参数,以SVM作为分类器识别几种容易混淆的单词的方法,结果表明,该语音识别方法具有结构简单、高识别精度的特点,可以在语音识别系统中得到实际应用。当然,今后的工作中还要考虑将SVM理论和其它分类方法结合起来,如SVM和隐马尔可夫模型(HMM)相结合、将多类SVM等综合方法应用于更多的语音识别领域。

参考文献:

\[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.

\[2\] 陈刚,陈莘萌.一种考虑类别信息的音频特征提取方法\[J\].计算机研究与发展,2006(11).