公务员期刊网 论文中心 正文

语音识别中计算机仿真的应用

语音识别中计算机仿真的应用

摘要:文章阐述了一种改进的基于自适应模型的语音识别方法。概括归纳了实现这种方法的三大模块:语音数据采集模块,基于自适应模型的语音识别模块和体现应用的结果显示模块。

关键词:计算机仿真;语音识别;算法

引言

当下对于语音识别技术的研究处于初期阶段,但现在市面上出现的大量语音识别的产品例如DragonDictation,Siri等表明语音识别技术还拥有巨大的发展与应用空间。

1提出背景

目前大多数的语音识别设备在算法上都是基于传统的GMM方式,传统的GMM方式的核心思想是利用多个高斯分布的概率密度函数组合来描述特征矢量在概率空间的分布状况。传统的GMM方法需要先计算所有说话人模型的识别概率p,然后取识别概率最大的说话人模型作为识别结果。而人类在进行说话人识别时,是一边听取语音,一边做出判断,同时排除掉绝对不可能的说话人,在若干相似说话人之间选择,当有很大的把握性时,做出最终判定。这不同于目前的机器识别方法,总是取固定时长的语音数据,且对所有的说话人均同等对待。传统的GMM模型在说话人集合很大时需要大量的数据收集和较长的处理时间,会影响到分辨说话人身份的准确性。所以我们需要一种更加高效,高可靠性的方式来改进当前主流的语音识别算法,更好的服务于当前信息化社会。

2自适应模型

自适应[1]是指处理和分析过程中,根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳的处理效果。在特征提取阶段,根据不同的说话人,选取不同长度的语音提取特征,对于易于区分的说话人,只选取少量语音就可以正确识别,对于难于区分的说话人,提取大量语音进行识别,从而在整体上减少了提取特征的时间;在识别阶段,只选取少量语音进行总体说话人识别模型的识别概率计算,而选取较多的语音,对前期选取的识别概率较高的说话人模型计算识别概率,从而一方面保证不降低识别率,一方面大幅度减少识别时间。

3研究目标及主要内容

3.1研究目标。我们研究的主要目标是通过MATLAB模型仿真功能,实现基于自适应的语音识别技术来确定说话人身份。在收集到语音信号的后,完成对信号的处理,主要是基于MFCC的特征提取实现语音库的搭建,之后使用自适应的语音识别技术,将原先采集到的信息和后续说话人所说的语音在自适应的模型下进行比对,来确定说话人是否为本人,并且借助设别对结果进行显示,最终实现一个输入-处理--输出的语音识别平台搭建。

3.2研究内容。以MATLAB软件为主要工具,配合所搭建的输入设备,显示设备完成一个可以应用的说话人身份识别系统的搭建。(1)深入研究语音信号的采集方式,能够将通过设备将采集到的语音信号进行处理,并在MATLAB中实现编程,为后续的语音识别提供素材。(2)通过研究自适应模型的原理,设计基于其原理的算法,将(1)中经过处理后的语音信号与应用时输入的语音信号进行识别,通过MATLAB完成计算,这一步是整个研究中最重要的部分,运算完成将给出处理结果。(3)搭建显示设备,我们将MATLAB和单片机进行通信,MATLAB将识别结果传输给单片机,我们通过单片机来提供一个显示说话人身份识别信息并与用户交互的平台。

4技术路线

4.1语音数据采集模块。目前所有的语音识别方式都需要一个语音库来进行匹配。基于自适应的语音识别也要在语音库的搭建上进行如下操作。4.1.1采集说话人语音。使用录音笔在消音室中采集到说话人的声音,我们会将模拟信号转成数字信号,并且进行处理。为了得到高质量的声音信号,确保语音库的精确性,我们选择在消音室完成声音采集工作。4.1.2特征提取及语音库搭建。模拟信号进行A/D转换后,我们要对数字信号进行处理,这里我们使用MFCC这种主流的语音信号特征提取方式来进行提取。MFCC[2]是基于了Mel频率的倒谱系数,我们输入样本音频,对样本音频预加重,分帧,加窗,再做傅里叶变换,进行Mel频率滤波,进行Log对数能量提取等操作从而完成采集的语音的特征提取。这一步的核心还是将采集到的模拟信号按照A/D转换使其成为可以通过MATLAB调用的数据。

4.2基于自适应模型的语音识别模块设计。这个模块是我们的研究最核心的部分,我们基于这个模型来实现主要功能。4.2.1当说话人为陌生人,先排除。传统的语音识别主要是将采集到的信号和原来收集的所有信号进行比对从而确定说话人身份,但这样做有时会浪费时间,也可能出现误差。而自适应模型首先去做的就是特征抽取,将已经采集到的语音数据进行处理,寻找到他们的共同特征,当需要识别的信号不符合这种特性的时候,我们首先要将其排除,这样,在排除陌生人说话时会更加简便。在我们对说话人识别前先把陌生人给排除,在说话者不是陌生人的情况下,我们会减少很多干扰因素,能够节约识别时间,提高识别精度。4.2.2当说话人已经在语音库中,确定其身份。我们的算法主要是研究的对象是已经将语音信息导入到语音库中的人群,这里我们要用到SVM[3]技术,SVM是一个可以把低维下线性不可分的问题变成一个高维线性可分问题的技术。在我们自适应语音识别说话人身份时,我们需要对收集到的语音数据进行分类。例如我们收集到1000组语音,按照收集到的语音特征分成250组,每组4个人。当说话人开始识别,我们先去找到这个说话人属于哪个组,然后在这个4人小组里面在进行区分,这样,我们把原先需要一一匹配的说话人识别仅仅需要几步就可以实现。

4.3体现应用的结果显示模块。使用一块单片机与一块显示屏,通过Matlab中的设备控制箱将识别结果传送到单片机,单片机依据识别结果在显示屏进行显示。

5结语

和当前主流的传统高斯混合模型相比,我们设计出的基于自适应的模型结构,可以很大程度上减少在声音识别前所需要收集的数据量,节约空间,同时由于自适应算法的优越性我们也能够在提高语音识别的可靠性,很大程度上减少在识别过程中由于外部因素所造成的误差。

引用:

[1]丁博,王怀民,史殿习.构造具备自适应能力的软件[J].软件学报.2013(07)

[2]李泽,崔宣,马雨廷等.MFCC和LPCC特征参数在说话人识别中的研究[J].河南工程学院学报.2010(06).

[3]李书玲,刘蓉,张鎏钦等.基于改进型SVM算法的语音情感识别[J].计算机应用.2013(07).

作者:申子健 陈爱月 徐波 单位:南京邮电大学通信与信息工程学院