公务员期刊网 精选范文 语音识别系统范文

语音识别系统精选(九篇)

语音识别系统

第1篇:语音识别系统范文

【关键词】隐马尔可夫;语音识别;单片机

在这个高科技的信息时代,计算机占着极为重要的地位,人机通信是人与机器之间进行信息通讯,使机器按照人的意愿工作,传统的人机通信是通过键盘、按钮以及显示器等机器设备实现的,在许多场合都不是很方便,其最理想的通信方式就是通过语音进行识别。实现人与机器通过自然语音的方式进行信息通讯,不仅可以简化日常工作,更可以提高工作效率,带给人们极大的方便。而实现这个理想最关键的部分就是语音识别技术。

1语音识别概述

1.1语音信号的产生

物体的振动产生声音,正在发声的物体叫做声源,声音在介质中以声波的形式传播。语音是指人的发声器官振动所发出的负载一定语言意义的声音,发音器官主要有肺部、气管、喉部、咽、鼻腔、口腔和上下唇,每个人的声道各不相同,从而各自发出的声音也不相同。

语音信号主要有模拟信号和数字信号两种表现形式。模拟信号是人直接通过耳朵听到的信号,是时间和幅值均连续的物理量,由于其数据量过大、有较多的随机因素等原因不能直接被作为计算机的识别信号。数字信号是时间和数值均离散的二进制数字量化的模拟信号,是计算机语音识别技术的基础。数字信号相比模拟信号有以下优点:可以实现很多复杂的信号处理工作;具有可靠性高、价格低廉、反应迅速等特点;有利于区分出干扰信号等。所以要想使计算机按照人类的自然语言要求工作,关键的就是将模拟信号转换为数字信号。

1.2语音信号的处理

根据讨论,若要对语音信号进行处理必须先对此信号进行预处理,即将模拟信号转换为数字信号,再整理、分析、理解转换后的数字信号,并过滤掉多余的信息。主要包括数字化、预加重和加窗分帧三部分。

数字化就是把语音模拟信号转换为数字信号的采样与量化过程,采样是在相同间隔的时间内抽取信号而得到离散的序列,并将其转换为数字。量化则是在有限的区域内分布采样后的信号。预加重是通过一个高通滤波器使频谱变得平坦,防止衰减作用,不受有限字长效应的影响。以“帧”为单位对语音信号进行截取,使信号有短时平稳的特征,加窗则可以让截取的信号波形更加平滑。

1.3语音信号的模块处理

在语音识别中,常使用的基本算法有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

1)隐马尔可夫模型

隐马尔可夫模型(HMM)在当前语音识别系统中占据主流地位。它是一种随机概率模型,其使用大大降低了模型的复杂度。早在20世纪六七十年代就开始研究的统计信号模型。HMM是在Markov链的基础上发展起来的,但实际问题要更为复杂,所观察到的事件与一组概率分布相关。它是一个双重随机过程,一个是Markov链,这是基本随机过程,它描述状态的转移;一个是随机过程描述状态和观测值之间的统计对应关系,观察者不能直接看到状态,而是由感觉感知到的,因此称之为“隐”Markov模型,即HMM。

2)人工神经网络法

ANN现在已经成为了另一个热点,是非线性系统,具有DTW和HMM没有的对比、概括、推理能力。

3)动态时间规整技术

DTW是模板训练和模式匹配中出现最早的技术,使用动态规划技术在孤立词语音识别中具有良好的成果,但是其计算量较大,很难被使用到现实中的语音识别。目前已经被其他的算法所替代。

2语音识别系统设计思路

语音识别技术正在不断的发展中,在硬件平台上实现语音识别以取代繁琐的工作成为其发展的必然趋势。本文就是对基于单片机的语音识别系统的研究。由于单片机本身存在着处理速度慢、存储能力不强大的缺陷,所以此次设计是基于孤立词的语音识别系统。

语音识别系统的模型库训练工作原理是:特定人的语音信号进入系统,系统对进入的语音信号滤波,目的是为了消除需要的语音频率之外的其他杂音,进而数模转换,将输入的语音模拟信号数字化,有利于计算机进行识别。数字化后的语音信号再通过预处理、加窗分帧。对于剩下的语音信号送入HMM模板与模板库进行训练和匹配,再将最佳的结果传输给用户。

3系统模块设计及系统测试

此次设计是基于单片机的语音识别系统研究,有以下几点要求:该系统必须使完整的语音识别系统,有简单的显示功能,提高系统的识别性能,体积尽量减小。

工作原理首先采集语音信号,输入完成后通过滤波采集需要的语音信号,再通过数模转换器进入控制器,再与标准语音库中的语音信号进行对比,找出最接近该段信号的语音,再将识别出的语音通过LCD显示模块显示给用户。

系统检测首先确认是否有按键按下,当检测到有按键按下时,表示系统开始运行,如果没有按下,则表示系统处于非工作状态,只有当有按键时,才可以工作。进而开始接收语音信号,首先对语音信号进行滤波消除杂音,然后通过数模转换电路,将模拟信号转换为数字信号,预处理、端点检测后,与事先存储好的信号进行比对,得到最后的识别结果,将识别出来的结果,送往LCD液晶显示器上显示出来,展现给用户。

此次设计通过MATLAB软件实现对语音信号的调试。在接收语音信号时,有可能产生外界的干扰噪声,这就需要我们通过一系列复杂的公式计算,对该信号进行处理,进而在送由单片机进行下一步的工作。

4结束语

语音识别技术是实现人与计算机进行直接对话,让计算机自动对人所说的话进行识别、理解并执行的技术手段。语音识别技术的应用已经成为一个被受关注的新型技术产业,它的实现能够简化人们在以往工作中的繁琐,未来语音识别还要向低成本、高性能方向不断发展。

【参考文献】

第2篇:语音识别系统范文

摘 要: 为了提高语音识别的可靠性和高效率性,设计了以“MCU+DSP”的双CPU结构为核心的语音识别系统,其中以DSP[1]芯片作为硬件平台的主处理器,完成语音识别所需的计算。MCU用以完成对DSP运算的协助工作,控制机器人各部分动作,其性能达到了实时处理的要求。

关键词: 拟人机器人; 双CPU; 语音识别系统; 硬件设计

中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2013)01-01-02

Design of hardware of speech recognition system in humanized robot

Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng

(North China of Technology, Beijing 100144, China)

Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.

Key words: humanoid robot; double CPU; speech recognition system; hardware design

0 引言

随着超大规模集成电路和数字信号处理器(DSP)的快速发展,DSP的应用越来越广泛,涉及到各个领域如语音处理,图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来,已研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确,满足了对信号快速、实时、精确处理的要求,所以很适用于语音识别。

1 拟人机器人语音识别方法概述

语音信号分析是语音识别的前提和基础,只有分析出可表示语音信号本质特征的参数,才可能利用这些参数进行高效的语音通信,才能建立用于识别的模板或知识库。语音识别率的高低取决于对语音信号分析的准确性和精确性,虽然语音信号具有时变特性,但在一个短时间范围内其特性相对稳定,因而可以将其看作是一个短时平稳过程。任何对语音的分析和处理均建立在“短时”的基础上,一般认为语音信号在10-30ms的短时间内是相对平稳的。

拟人机器人语音识别方法如图1所示,采集到的语音信号输入后,首先对语音信号进行预处理,预处理主要包括:语音信号电压放大采样、反混叠失真滤波、预加重、自动增益控制、分帧、加窗、语音增强、端点检测以及A/D转换等环节;然后是信号特征量的提取(本文对信号的特征量进行Mel频率倒谱系数[2](Mel-Frequency Cestrum Coefficients)处理);最后对建立好的参数模板进行对比,测试的依据是失真度最小准则,如本文用到的动态时间规整DTW[3](Dynamic Time Warping)。

2 系统硬件设计

通过针对拟人机器人的特点,对系统进行分析和方案设计,最终确定本系统的框图如图2所示。本系统的硬件基于一个以DSP(TMS320VC5416)为主处理器的硬件平台,硬件平台主要包括:语音输入输出模块、主处理器DSP模块、存储器模块、单片机MCU模块、485串口通信模块。其中语音输入输出模块实现了语音信号的采集和输出;主处理器DSP模块(TMS320VC5416)主要完成语音识别所需的计算,其性能能够达到实时处理的要求;存储器模块包括一片FLASH和两片SRAM,用FLASH作为DSP的可编程存储器,SRAM分别作为DSP的数据和程序存储器;单片机MCU模块完成对拟人机器人的运动控制;485串口通信模块实现单片机MCU和PC机之间的通信。

2.1 主处理器DSP模块介绍

TMS320VC5416(简称VC5416)是TI公司的C54X家族的成员之一,它是基于先进的改进哈佛结构的16位定点DSP。它具有C54X的共同特点,高性能低功耗,具有高达160MHz的主频,核心电压1.5V,运行于此频率时功耗仅为90mW;拥有一条程序总线和三条数据总线,片内集成有高度并行性的算术逻辑单元(ALU)、专有硬件逻辑、片内存储器和片内外设等。

片内可屏蔽ROM中固化有启动装载程序(BOOTLOADER)和中断向量表等。系统上电时,BOOTLOADER自动把用户代码从外部存储器搬移到程序空间。复位以后,中断向量表可被重新映射到程序空间的任何(128Word)的开始处。为了与慢速的外设通信,VC5416提供了等待状态发生器,通过软件设置等待周期的个数,不仅降低了系统硬件设计的复杂性,而且为系统带来了很大的灵活性。VC5416片内集成了软件可编程的锁相环时钟电路,它只需要一个参考时钟输入就可以得到31种不同频率的输出时钟,最大的乘率因子(在寄存器CLKMD中设置)为15,最小的为0.25。这样,一方面可利用较低频率的外部时钟源产生较高频率的CPU时钟,另一方面在不工作时可降低CPU时钟频率至外部频率的四分之一,从而降低了CPU的功耗。  2.2 语音输入输出模块介绍

第3篇:语音识别系统范文

关键词:连续语音识别;动态范围调整;归一化;算法

中图分类号:TN912.34

当噪音引起连续语音信号失真时,提取的连续语音特征曲线也会在时域和频域内失真[1]。如果用带噪特征去匹配纯净语音的特征模型,会造成带噪特征与模型之间的不匹配,这就导致了识别率的下降。

在连续语音识别中为了减少上述不匹配的问题,有三种主要解决技术。一是多条件或者多类型的训练方法,也就是使用带噪数据来进行训练[2]。虽然这个方法能够在特定的噪音环境下可以得到较好的识别精度,但是如果噪音环境发生变化识别精度还会急剧的降低。换言之,如果待识别数据与模型数据的条件(环境)不同,如:信噪比或者噪声类型,在待识别数据和模型之间仍会存在不匹配的现象。二是采用自适应模型方法[3],通过自适应模型来减少不匹配的问题。这种训练模型方法同时使用纯净和噪音数据来进行训练,这又会导致模型的区分度不高,同样会是识别精度下降。三是采用特征归一化方法,这种方法虽然不能从根本上改变待识别特征与模型之间的不匹配,但是在一定程度上会保留模型的区分度并减少由于环境变化导致带噪语音失真的影响。本文主要研究第三种方法。

语音增强和特征补偿方法以恢复语音特征为目的,但是特征归一化方法只是对语音特征的某些统计信息进行改变,并期望由此减少噪声引起的失真。不论是语音补偿还是特征补偿,都需要改变语音的特征向量,而传统的归一化方法只是对语音特征统计信息的范围进行处理,提出的算法在保证原有语音统计信息的前提下,适当改变部分语音特征向量。从而减少由噪音引起的语音特征曲线的失真。

动态范围调整方法属于归一化方法的一种,能够对干净和带噪语音的特征统计信息处理到相对较小的一个范围内。归一化方法能够根据一些模板值减少噪音特征在统计信息上的影响。相比使用归一化方法之前,在干净语音特征和带噪语音特征之间的不匹配部分会显著减少。语音增强一般应用在时域和频域中恢复语音特征的质量。特征补偿方法通常应用在加强连续语音系数在对数滤波阶数和频谱域使用。

减少待识别语音特征和模型的不匹配的方法虽然不是提高语音识别鲁棒性的唯一方法,但却是一种很有效的方法。通过这种方法可以减少待识别特征和模型之间的不匹配使得识别性能得以提高。

1 噪音对孤立词语音数据的影响

加法性噪音和乘法性噪音是影响语音信号最普通的两种噪音类型。例如:加法性噪音包含背景噪音,交通噪音,等等。乘法性噪音主要是传输过程中产生的信道失真。例如麦克风自身的噪音,房间的反射噪音等等。干净的语音信号首先被信道失真所干扰,进一步被加法性噪音干扰。

包含噪音的频谱可以用如下公式描述:

噪音干扰在增益部分和直流分量部分的影响是不同的,如图1所示:在孤立词识别中,很多实验表明使用DRA方法对加法性噪音和乘法性噪音都具有很好的性能。

图2展示了噪音影响在孤立词中的性能。在图2中,有两条不同的特征曲线,曲线表示了干净语音和10db信噪比的噪音特征在第二项MFCC中。者两条曲线来源于同一个语音数据。

然而,由于噪音严重的影响,噪音下的MFCC特征曲线的动态范围要小于干净语音的MFCC特征曲线的动态范围。如果使用干净语音特征建立HMM训练模型,能够获得理想的模型并在同等条件下获得更高的识别率。但是对噪音下的语音识别,由于上述的原因,自动语音识别系统无法在任何噪音下获得正确的识别结果。虽然DRA归一化方法能够在孤立词识别中获得较好的识别结果,但直接用于连续语音识别并不是特别的理想。

图2展示了在孤立词中不匹配的峰值。DRA归一化方法算法使用最大值的方法将频谱系数范围标准化到一个统一的范围。在每个维度,DRA方法将干净或者带噪语音频谱系数的动态范围调整到同一个标准范围中。但在孤立词识别中,特征曲线中的峰值是有限的。归一化方法非常适用于孤立词识别。而连续语音识别特征曲线的峰值要远多于孤立词识别,归一化方法并不直接适用。

2 噪音对连续语音数据的影响

对连续语音特征曲线来说,不匹配的峰值随着语音特征曲线的增长而增加,语音特征曲线的动态范围随着噪音的增加而减少。因此简单的归一化算法不能有效适用连续语音识别。

我们的目标是缩小待识别噪音特征曲线与干净的语音特征曲线之间的差异。经过噪音鲁棒性方法和DRA方法,语音信号中的直流分量的不同得以减少,特征曲线中不匹配的峰值也得以减少。

基于前面提到的孤立词识别的归一化方法,我们可以假设噪音没有改变原有的特征曲线的统计顺序,也就是在语音特征曲线上会存在很多峰值,如第一高峰值,第二高峰值,等等。在连续语音特征中,全局的统计信息的匹配就在整个训练数据集中显得比较重要。一般来说,这些特征曲线上的峰值信息代表了元音的语音特征。随着训练量的增加,这些峰值信息一般会集中到相对稳定的区域。但实际上,噪音通常会改变特征曲线的统计顺序。如果能恢复部分特征曲线上统计信息的顺序,就能增加这些峰值的匹配几率。

虽然通过上述的图示可以看出通过归一化方法可以增加干净语音特征曲线和带噪语音特征曲线的拟合程度,连续语音特征曲线中存在较多的峰值,带噪语音特征曲线会改变一些峰值的统计信息,因此把归一化方法简单的使用到连续语音识别中无法达到如图的拟合程度。提出的算法可以尽最大可能恢复带噪语音的峰值统计信息。

使用DRA归一化能提高特征曲线的峰值匹配概率。孤立词特征曲线通常不含静音部分,但在连续语音中,语音之间存在由于思考或者换气产生的静音,在此部分仍然使用归一化方法在过渡位置会放大只有噪音的信号特征。这就导致了连续语音特征在此部分无法匹配。

根据上面的讨论,可以通过下面两步对特征曲线进行处理。

第一步:从连续语音数据中提取所有的短句子。

估计无音部分。连续语音包含许多无音部分和只有噪音的部分,因为这些部分不适合使用DRA。在下一步中消除连续语音特征曲线中各个动态范围的不平衡性。

第二步:把选取出来的短句子分成更小的片段,在每个片段中使用归一化方法。

如果片段的长度接近短句长度,导致识别结果与传统DRA方法接近,如果片段的长度特别小,则导致识别精度急剧下降。根据实验得到经验数据当片段长度为80帧时,识别精度最高。不同片段长度得到的识别结果如下图:

3 小结

在训练过程中使用大量的数据可以使各个音素的模型逐渐集中在某一个范围。对于测试数据来说,音素的范围很有可能与模型不在同一个范围内,待识别音素是有限的,不可知的。

使用噪音鲁棒性方法和DRA在建立区分度较高模型方法,这些鲁棒性方法在发音较短的孤立词识别中展现了良好的识别性能,并说明了这些方法无法直接在连续语音识别中的原因。

虽然在带噪语音特征曲线和干净语音特征曲线仍然有不匹配的峰值,需要指出的是,对比使用传统的DRA算法,减少了不匹配的峰值。由此可以看出,使用提出的算法调整带噪语音特征曲线可以增加峰值部分的匹配几率。使用该算法在干净和噪音环境下可以提高整体的识别性能。特别指出的是,提出的算法大幅提高了在噪音环境下的连续语音识别性能,根本原因就是相对于传统的DRA,选择了更合适的调整值,适当的放大了峰值。该算法在语音频谱系数的对数系数特征里也适用。

参考文献:

[1]张雄伟等编著.现代语音处理技术及应用[M].机械工业出版社,2003.

第4篇:语音识别系统范文

关键词 空间增强;谱减法;连续语音识别;自适应;双通道信号

中图分类号 TP393文献标识码 A文章编号 10002537(2014)03006306

虽然自动语音识别(ASR)系统的研究已投入了大量的人员和资金,但是它还不能够像电话一样,作为日常生活的一部分完整地融入到人们的生活当中.其中一个最主要的问题就是自动语音识别系统在噪声和混响环境下,特别是二者混合环境下的识别性能过于低下[1].在大多数情况下,为获得可接受的识别性能,只能依赖于麦克风阵列的使用,即通过使用大量按照特定位置放置的麦克风来获取语音输入和空间信息.大量的ASR研究,使用麦克风阵列得到方向增益,以改善噪声与混响环境中获取信号的质量;采用模式识别技术中的谱减法来消除噪声和处理语音训练集与测试集不匹配问题[2].

在日常应用中,普通用户既不可能随身携带麦克风阵列也不可能精确地放置它们.目前,日常使用的麦克风是与双通道耳机相对应的,它能得到双通道语音信号,却不能得到复杂的空间信息.如果依然采用传统的信号增强方法(例如广义旁瓣抵消技术)来处理双通道信号,以作为语音识别系统的预处理端,那么噪声的消除反而会带来无法接受的语音失真.

谱减法[3]作为另一种消除噪声的技术,可以不依赖麦克风阵列获取输入信号,但是却存在三大缺点:(1)噪声估计误差过大导致噪声消除时语音失真;(2)增强后的语音中含有明显的“音乐噪声”;(3)混响未被处理.

为解决上述问题,本文基于双声道语音信号简单的空间特性,综合使用改进的广义旁瓣抵消空间增强技术和改进的谱减法技术作为语音识别系统的噪声消除和信号放大的预处理端,并基于HTK开发工具设计一个识别性能优异的语音识别系统.

1 系统描述

图1 系统结构

Fig.1 System structure

图1为本系统的整体构架.它由空间增强、谱减法模块和自动语音识别模块3个主要部分构成.

1.1 空间增强模块

因为空间线索是语音识别的主要部分和远场麦克风语音识别的组织焦点,在该ASR系统中,采用PASCAL “CHiME”[4]组织提供的双通道含噪语音信号,利用该信号简单的空间特性可以得到表现优异的噪声估计.

有许多经典的使用麦克风阵列的方法来放大目标信号,例如通过延迟求和方式的波束形成,自适应噪声消除(ANC)以及独立成分分析(ICA).它们使用麦克风阵列得到方向增益,以改善在噪声与混响环境中获取信号的质量.

1.2 噪声消除模块

通常的ASR系统在处理含噪信号时性能大幅度下降,因此,噪音消除是该系统中常见且必须的组成部分.当前主流的噪声消除技术可以分为3大部分.(1)使用时域滤波技术,例如维纳滤波和自适应滤波;(2)尝试还原原始语音谱的谱还原技术,例如谱减法[5]和参数减法;(3)为增强语音结构,有许多基于语音模型的噪声消除技术,例如基于谐波模型的噪声消除.然而,使用这些技术来获得噪声衰减和信噪比的改善,往往会造成语音失真.通常,越干净的噪声消除会导致越严重的语音失真,因此,研究设计一个针对复杂声学环境的ASR系统,在语音失真和噪声消除之间寻找一个平衡点,是非常重要的工作.

1.3 识别系统自适应

通过一些经典的空间滤波和噪声消除技术来处理麦克风阵列在真实环境中获取的声音信号,较直接采集含噪声音,具有更好的听感知质量.但是无论系统设计多么完备,获得的加强声音中依然会有噪声残留和语音失真的问题存在,它们能被正常人轻易的接受和识别,但是目前的ASR系统却不具备这样的能力.当前几乎所有的ASR系统都采用模式识别技术,当测试数据集接近训练数据集时,能够得到非常高的识别精确度.但是噪声残留和语音失真会导致测试数据集完全不同于“干净”的训练数据集,训练和测试不匹配的问题会直接导致ASR系统识别率的降低.

为解决这些问题,前人提出许多的方法,例如模型再训练和自适应,特征变换和归一化[67],建立环境模型和模型特征一体化技术将之使用在自动语音识别模块上,能起到良好的效果.

综合考虑到对上面所述三部分的分析,所有的模块都应该整合为一体,只有通过良好的语音信号预处理和完善的识别系统自适应,才能构架一个更优异性能的ASR系统.

2 系统设计

本文提出一个简洁而具有高鲁棒性的针对CHiME问题的ASR系统.首先,依据双通道信号的空间信息增强它们,然后采用改进的谱减法获得增强信号,作为ASR系统的输入,最终得到识别结果和关键词准确率.

2.1 改进的空间增强

由于存在混响问题,使用传统方法得到双通道信号的空间信息的有效内容非常困难.另外,如果采用传统的信号增强方法,例如基于广义旁瓣相消(GSC) 的波束成型,作为ASR系统的前端,那么噪音消除会带来语音失真[8],会极大地降低ASR系统的识别性能.语音失真是由GSC多路输入抵消器(MC)的窄带自适应滤波器导致的,它既无法良好地消除噪声,同时还消耗昂贵的计算资源.

图2 空间增强

Fig.2 Spatial enhancement

本ASR系统的前端,利用双通道语音信号的优势,移除了典型GSC里的MC模型,使得在空间滤波的同时尽量避免语音失真和降低计算负担(图2).该模块的主要任务是提取参考噪声,而不再进行噪声消除.

4 结论

本文针对语音识别这一交叉性强的学科,打破传统的语音识别系统局限于利用有限的技术,不断挖掘技术潜力,来达到提高性能的研究模式,提出了一种全新的综合性构架,并取得了实质性的成效;考虑到人类听觉的生理情况,结合空间增强层得出的无目标语言的参考噪声,对谱减法模块做了积极的改变.将去除噪声操作从空间增强层移动到了效率更高的谱减法层,将噪声估计移动到空间增强层,使得整个系统的分工更加明确,以降低耦合,提高鲁棒性;使用了倒谱均值归一化实现标准39维梅尔倒频谱系数,为语音识别模块加入基于最大后验概率的自适应训练,提高了训练效率和系统整体性能.

参考文献:

[1] 宋志章,马 丽,刘省非,等.混合语音识别模型的设计与仿真研究[J].计算机仿真, 2012,29 (5):152155.

[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.

[3] 张 满,陶 亮,周 健.基于实值离散Cabor变换的谱减法语音增强[J].计算机工程与应用, 2012,48(29):109113.

[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.

[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.

[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.

[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.

[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.

[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.

第5篇:语音识别系统范文

关键词:语音控制;语音识别芯片;单片机;

文章编号:1674-3520(2015)-09-00-03

一、课题背景

学校常会组织我们到贵阳市盲聋哑学校送爱心,与残障孩子亲密互动,今年也不例外。那些残章的孩子来到这个世界,只能用他们仅存的方式去感知世界万物,在他们的世界里只有一种颜色,那就是黑色。我不禁想,在学校还有老师的照拂,可他们总有一日要长大,要开启自己的人生旅程。要是我能为他们做哪怕一点点事,就算只是为他们的家庭生活提供一些帮助也是好的。我想,如果能利用我在机器人社中学到的传感器、电子电路、单片机等专业知识,对家庭电路进行智能化改造,让家庭的电路“聪明”起来,使他们能够听得懂主人的指令而进行相应的操作,那就可以对有残障的人和对一些不良于行的病人或老人的家庭生活都能提供很大的便利。于是,有了我的这个设计――基于LD3320的语音识别系统在家庭电路中的模拟应用。

二、模型设计

(一)模块功能

(二)模型组成

(三)主要电子元件工作原理与功能说明

1、LD3320语音识别芯片

LD3320语音识别芯片采用的是ASR(Auto Speech Recognitio)技术,是YS-LD语音识别模块的核心。它是对大量的语音数据经语言学家语音模型分析,建立数学模型,并经过反复训练提取基元语音的细节特征,以及提取各基元间的特征差异,得到在统计概率最优化意义上的各个基元语音特征,最后才由资深工程师将算法以及语音模型转换成硬件芯片并应用在嵌入式系统中。

LD3320有两种使用模式,即“触发识别模式”和“循环识别模式”。可以通过编程,设置两种不同的使用模式。

触发识别模式:系统的主控MCU在接收到外界一个触发后,启动LD3320芯片的一个定时识别过程,在这个定时过程中说出要识别的语音关键词语。这个过程结束后,需要再次触发才能再次启动一个识别过程。

循环识别模式:系统的主控MCU反复启动识别过程。如果没有人说话就没有识别结果,则每次识别过程的定时到时后再启动一个识别过程;如果有识别结果,则根据识别作相应处理后再启动一个识别过程。

根据本案模型的设计特点,采用语音触发识别模式。LD3320芯片最多支持50个识别条目,每个识别条目是标准普通话的汉语拼音(小写),每2个字(汉语拼音)之间用1个空格间隔。例如表1,只需要把识别的关键词语以汉语拼音字符串的形式传送进芯片,该芯片已封装了基于标准普通话的语音模型数据和语音识别算法,无需进行任何语音训练即可投入开发应用。

2、STM32单片机控制单元

本案模拟系统主控单元采用意法半导体ARM-Cortex架构的STM32F1系列超低功耗单片机作为控制核心。

该单元完成几大功能:

向LD3320模块提供时钟振荡信号,以驱动片上DSP(数字信号处理器 )工作;

通过SPI(串行外设接口)串行通信方式向LD3320模块写入预定义的控制命令拼音串,并读取语音模块返回的识别结果编码;

根据识别结果驱动负载电路(LED单元(发光二极管)、继电器单元)的动作。

当LD3320模块完成一次识别过程后,通过中断请求方式通知主控单元处理,主控单元获知中断请求后会暂时中止当前的任务执行,转而跳转到中断服务例程(ISR Route),在该例程中通过SPI总线从LD3320模块读取识别编码,根据识别编码的不同执行对应控制功能。通过点亮、熄灭指令对应发光二极管或驱动继电器接通主回路得到运行结果。

3、LED显示单元

本案模拟系统用六个共阳极发光二极管(LED)来模拟家庭中厨房、工作间、卧室、走廊、卫生间、阳台的灯泡开关状况,工作时主控单片机则根据语音命令,采用输出低电平方式进行驱动点亮。

4、继电器输出单元

继电器输出单元可接收主控单片机的高低电平控制信号以接通或断开主回路。主回路根据实际需求可以用于大电压,交、直流供电的负载驱动。本案模拟系统用继电器单元实现家庭电扇的通断控制。

(四)系统软件开发环境

本案模拟系统的软件开发只针对STM32F103主控单元进行,软件代码完成以下功能:

LD3320底层驱动(对其内部寄存器的读写、时序的控制);

STM32F103硬件单元和用户变量的初始化;

用户语音命令拼音串的写入;

中断服务ISR(完成负载电路的驱动控制)。

软件开发基于ARM公司的Keil开发环境,完成从代码编辑到编译、调试、烧写一系列过程。

(五)设备成本

三、设备实测

(一)控制命令

LD3320语音识别芯片中最多可以写入50条语音控制指令,可以根据用户需要定制个性化的语音控制功能。本案设备的设计初衷是为了探索LD3320语音识别芯片在家庭电路中的模拟应用,故只写入了比较基本的18条指令。

(二)设备测试

在写入程序,完成硬件连线并加电复位后,系统即进入运行状态。向系统说出控制命令(尽可能用普通话, 不过实测时对贵阳本地方言还是有较高识别率),比如说“厨房打开”、“走廊关闭”、“电扇启动”、“运行流水灯”等命令后,系统会根据识别结果执行对应动作,点亮/熄灭LED或者通/断电扇运行。

为了更好的检测语音识别效果,实验中选择多个不同音色的人在家庭(比较安静)环境下分别进行测试,每个词语测试50遍。部分非特定人的语音命令测试的正确识别数据比例见表4:由上表可知,在家庭(比较安静)环境下,对于语音命令的平均识别率可达到90%以上。

四、设备优势与应用展望

(一)设备优势

1、本案设备成本低、语音辨识率高、响应快速,可以直接安装于家庭电路中实现语音智能控制。

2、由于LD3320 可以动态编辑的识别关键词语列表,因此其可以应用的范围大大超过了那些不可以改变识别列表的芯片。

3、可以根据用户的需求进行控制命令写入,实现可定制、个性化的智能控制。

(二)应用展望

1、应对家庭生活突发状况

在本语音识别系统中只是初步尝试了对用电器通、断电控制,而在现在社会中有很多的空巢老人,他们独自生活,如果在家中出现意外或突发疾病,随时都有可能危及生命。如果在本案系统中可以添加“紧急呼叫”的语音控制,当出现突发状况时可以使用该功能触发电话自动拨打物管、救护车、亲属等重要联系人。或者该控制与小区物管相连,每当有人有紧急呼叫时,物管的终端紧急呼叫灯亮起,并触发扬声器发出警报声,使物管人员迅速到场解决问题。

2、实现家用电器的语音控制

(1)电磁炉/微波炉/智能家电操作

在现在的家电中,各种各样的设置越来越繁复。用户在使用过程中,还要不断地对家电进行功能切换。在引入LD3320 芯片后,可以用语音直接控制这些家电。比如用语音来控制电磁炉把火力调整到“煎炸”或者是“慢炖”。

(2)数码像框

数码像框中存放了许多的照片和视频,同时又具有多种播放的方式。一般是通过按键或者遥控器的方式来对其进行操作,但是这样的操作并不方便。在引入了LD3320 提供的语音识别功能后,用户可以最自然地用语音去点播想要显示的照片,或者改变数码像框的显示方式。使得这样的数码产品更加具有人性化的操作界面。

3、机顶盒/彩电遥控器

随着数字电视的普及,家庭中可以收看到的电视节目也越来越丰富。大家也就苦于在众多的频道中迅速选择到自己想要看的频道。在把LD3320 语音识别芯片集成进机顶盒/彩电遥控器后,用户只需要对着遥控器说出想要看的电视频道的名字,就可以快速地选择。比如用户可以说出“奥运体育”,就可以转到体育频道来观看精彩的体育比赛了。

4、智能玩具/对话玩具

在电视购物中曾经出现过可以人机对话的玩具,比如金福猪,金福狗等。这些玩具采用的语音识别只能支持固定的10 条左右的语音命令,比如“你好”,“我想听歌”等等。采用LD3320 芯片,可以利用其动态编辑识别关键词语列表的性能,让玩具实现及其复杂的对话脚本。避免了玩具的严重同质化。

(三)公共服务设施的语音控制

1、自动售货机、地铁自动售票机等销售型服务设施

在自动售货机、地铁自动售票机等销售型服务设施中安装语音操作模块。人们可以对着售货机说出要买的商品,比如“可口可乐”或者“面巾纸”投币后商品就自动售出。在北京、上海等大都市中,外地旅客较多,对地铁线路不熟悉导致买票时不知道票价也不知道如何购买。有了语音操作界面后,只需要对着售票机说出要去的地方或者想要到达的站点,根据屏幕提示放入纸币,就可以方便地买到车票。

2、公共照明系统、辅助设施的语音控制

在公共场合帮助残疾人士、行动不便的老人或小孩非接触地去控制公共照明系统或辅助设施(地下通道轮椅台等)的运行。

3、楼宇电视的广告点播

目前分众传媒等公司的楼宇广告设施,遍布几乎所有的写字楼,也在广告投放上取得了良好的效果。但是目前用户在接受广告时,都是被动地去接受信息。对于其中感兴趣的广告,只能是等待下次再看到时进行仔细地了解,没有办法进行主动式地广告查询。

引入LD3320 语音识别芯片后,用户可以用语音去方便地查询想要了解的广告信息。比如操作楼宇广告“重新播放”“上一条”来重新观看一条广告。或者“汽车”来点播想要看的汽车广告。

这样的语音操作,不需要增加额外的键盘输入和触摸屏输入,又可以让用户与广告充分互动,取得更佳的效果。

五、结语

使用LD3320 芯片可以在一定程度上完成这样的语音控制系统,给人们的生活带来更便利的语音交互界面。作为一种新的人机交互界面,会逐步地走入人们的日常生活,在适合用语音控制的地方给人们提供更多的便利。

参考文献:

[1]陈喜春.基于LD3320语音识别专用芯片实现的语音控制,[J]. 电子技术设计与应用. 2011年11月

第6篇:语音识别系统范文

关键词:语音识别;研究趋势

一、语音识别技术简介

语言是人类的基本功能,也是展现思维、进行沟通的重要载体。而语音,是由人类人体天赋转化下,所形成一种表达方式。在科学视野中,这种天赋的转化,被称之声学表现。然而,不可否认的是,虽然语音仅作为一种“天赋表象”,却是人类目前最为有效的交流手段。

二、语音识别技术的发展历史

科技引入到声音的声学研究,在人类历史上发起较晚,始于上世纪50年代,研究人员才致力于声学和语音学的基本概念。第一次实现研究突破是在1952年,学者AT& T Bell在其实验室,进行了一组当前视野来看,并不复杂的实验工作。但最终实现了一个单一发音人,孤立发音10个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰;1956年,RCA Lab 基于Bell的人的研究基础,寻求另一个方向的实践研究工作,力求识别单一发音的10个不同的音节,同样采用了度量共振峰的方法;1959年,组织University College的研究学者,以谱分析和模板匹配的方式,借助构建音素识别器的理念,实现了识别4个元音和9个辅音;1962年,东京大学相关研究部门,对音素识别器的硬件进行实践性研究工作。以过零率方法分离语音信号的不同部分的识别方式,成为目前较为理想的研究手段之一;1963年,日本NEC Lab对数字进行语音识别技术进行尝试,并获得了相对可靠的研究成果。并创造NEC研究语音识别的模板,由此开创了语音识别技术的新领域。值得注意的是,在近四十年来,语音识别技术并未出现质的突破。但是,上述内容60年代所进行的研究,却成为了支撑人类语言识别技术近半个世纪的基础。而其最为重要的贡献,便是通过理论深度研究,于1969年提出时间归正法。

三、语音识别技术的应用及前景

随着声学研究的发展,语音识别技术已然具备了应用的基础。从现状来看,中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统就更高。随着科学技术的发展,集成电路的应用,帮助以往过度复杂的识别体系,能在更小的空间的内实现。从在西方经济发达国家来看,大量的语音识别产品已经进入市场和服务领域。包括手机等移动电子设备,多配备了相对完善的语音机制。并且盲人所使用的电子设备中的语音识别系统,已经达到了以往的军用标准。用户将借助移动通讯网络,以语音识别的口语对话系统,完成日常生活中,如订购票务、酒店等事宜。据调查统计结果,目前85%以上的使用者,对语音识别信息查询服务系统的功能性、准确性表示满意。由此,也可以进行预测:在未来的十年内,语音识别系统的应用范围将逐渐扩大,而基于各类语言、需求的产品涌现,或借助市场调节机制,有效降低此类系统的应用成本。由此更进一步满足各类语音需求。但是,以当前的技术来看,语音识别系统的局现性,或将成为阻碍其发展的根本原因。

四、语音识别技术的系统结构

不可否认,语音识别系统是复杂的。但是,在人类漫长研究中,不断的归纳和总结,最终找到可以大范围区分的“节点”。由此,帮助语言识别系统的构成更加清晰化。从相关研究发现,一个完整的基于统计的语音识别系统可大致分为两个部分:

1、语音信号预处理与特征提取

语音识别的基本工作特征,在于识别单元的选择,这也是能否获得识别结果的重要基础。然而,对于单元的选择,需要合理的区分各个要素,包括单词(句)、音节和音素三种。在选择适合的要素后,才能够进行后续的识别工作。

单词(句)单元广泛应用于中小词汇语音识别系统,但不太适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂。故此,看似简单识别通道,却因为复杂性降低了时效,最终导致难以准确的完成识别任务。

音节单元是基于我国语言特征,所提出的特殊识别要素。由于汉语言与英语等拉丁语系语种的差异性。我国发展语音识别技术,或难以借助他国成熟经验。但是,由于汉语音节总数为1300余个,其中包括408个无调音节,对比于大量多音节的拉丁语系,汉语言基础上的音节单元要素识别,将具备更高的时效性。这也是我国语音识别技术能够“后发制人”的关键。

音素的识别,主要借助线性预测(LP)实现。LP分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型为纯数学模型,未考虑人类听觉系统对语言的处理特点。

2、声学模型与模式处理

作为语音识别系统的第二个模块,也是其重要的基底模块。声学模型主要用于搭建声音体系,并借助特征算法,帮助后续的模式处理,对语音进行深度识别。而模式处理的重要性,在于保证识别结果的准确。通常对语音模型的处理,在理论和数据参数上,已经具备良好的基础。但是,在识别方面,却一直难以达成成效。这也是模式处理能力不足所带来的主要困境。从基本理论层面来看,声学模型作为语音识别系统底层模型,其关键性不言而喻。而声学模型存在的意义,在于提供计算语言的特征矢量序列,以及合理区分每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元体积对语音训练数据量大小、系统识别率,以及灵活性有较大影响。

五、语音识别技术的发展障碍

1、技术智能化不足。例如,同一说话者在不同语态时,语音信息有所差异;即使同一说话者以相同方式说话时,其语音模式也受长期时间变化的影响。

2、缺乏模糊语音处理能力。说话者在讲话时,不同的语词可能听起来很相似。

3、无法兼顾发音变化。单词或单词的一部分在发音过程中其音量、音调、重音和发音速度可能不同,使得测试模式和标准模型不匹配。

4、无法消除环境音响。为了提升语音识别技术的准确性,必须提升其收纳声音的范围。而这样的选择,无疑会放大环境因素的影响。原因在于语音识别系统的声音基础,是在相对安静的环境中创造。所以,无法应对自然环境中的噪声和干扰。而且,在采用抗干扰模式下,语言识别和接受能力又会大幅度下降。这也让技术遇到两难的选择。

参考文献:

[1] 施超群,陈坚刚.浅析语音识别原理[J].浙江工商职业技术学院学报,2011(03):94-96.

第7篇:语音识别系统范文

关键词:嵌入式系统;语音识别;隐马尔可夫;智能家居

中图分类号:TP316.9

文献标识码:A

DOI:10.3969/j.issn.1003-6970.2015.07.021

0 引言

随着计算机的发展,智能家居在近几年也得到了大家的重视,智能家居利用各种通信、网络技术实现家居设备集成,为用户提供了更加舒适高效的环境。近几年人们对智能家居的便利程度提出了更高的要求,同时语音识别技术也进一步的发展,但是语音在智能家居中的应用还是相对较少,一般还要依靠遥控、手机等中控设备。语言是信息交流的重要手段,语音识别可以用声音来控制设备完成一些特定的命令,减少用户如手机,遥控等中控设备的依赖,使生活更加方便。

本文通过对语音识别技术与嵌入式控制技术的研究,用语音命令实现直接管控从而可以取代以往利用手机或者遥控方式来控制的方法,方便操作而又能提高效率。本系统基于NL6621板与语音芯片VS1003实现语音采集,并采用当今语音识别领域的主流技术一一隐马尔科夫模型(Hidden Markov Model,HMM)算法实现对人语音命令的识别主要是进行模型训练和匹配。实验证明在多个语音样本对系统的训练识别下,系统在非特定人、孤立词语识别上具有良好的效果。

1 语音识别与智能家居

1.1 语音识别技术

语音识别技术本质上是一种模式匹配识别的过程,是机器通过识别和理解过程把语音信号转变成相应的文本文件或命令的技术。根据模式匹配过程语音识别系统可以如下图表示。语音识别系统可以分为:特定人和非特定人的识别、独立词和连续词的识别等,无论哪种识别系统识别过程都主要包括了语音信号预处理、特征提取、训练等。分别通过对信号的预处理分析和计算建立模板,当对语音进行识别时,需要将输入的语音与系统中存放的语音进行比较从而得到识别结果。

1.2 语音识别算法

人的言语过程是一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的不可观察的、根据言语需要和语法知识状态选择所发出的音素(词、句)的参数流,大量实验表明,隐马尔可夫模型(HMM)的确可以非常精确地描述语音信号的产生过程。隐马尔可夫模型是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程,采用HMM进行语音识别,实质上是一种概率运算,根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。一阶离散马尔可夫模型可表示为:有N个状态,Sl,S2... SN,存在一个离散的时间序列t=0,t=1…在每个时刻t,系统只能处于唯一一个状态qt,下一个时刻所处的状态是随机出现的,当前状态qt只与前面相邻的一个状态qt-l有关, 与其他状态无关,用表达式

HMM语音识别的一般过程:

1.前向后向算法计算

已知观测序列 和模型 ,如何有效的计算在给定模型条件下产生观测序列O的概率

2.Baum-Welch算法求出最优解 :

(1)初始化

(2)迭代计算

(3)最后计算

3.Viterbi算法解出最佳状态转移序列:

已知观测序列 和模型 ,如何选择在某种意义上最佳的状态序列。

(1)初始化

(2)迭代计算:

4.根据最佳状态序列对应的九给出候选音节或声韵母

5.通过语言模型形成词和句子

2 基于NL6621嵌入式硬件设计

语音识别的硬件平台主要包括中央处理器NL6621,可读写存储器,声卡芯片vs1003以及一些设备,硬件体系结构如图2所示。

主系统使用新岸线公司的NL6621。MCU采用的最高主频为160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,软AP,WiFi保护设置以及WMM-PS和WPA/WPA2安全协议。codec芯片是vs1003,它与核心控制器NL6621的数据通信是通过SPI总线方式进行的。它集成了麦克风输入接口,音频输出接口,对话筒输入或者线路输入进行IMA ADPCM编码,能有效的接受和播放音频信息。

硬件电路实现:VS1003通过xCS、xDCS引脚的置高或低来确认是哪一个接口处于传送状态。通过串行命令接口(SCI)和串行数据接口(SDI)来接收NL6621的控制命令和数据,通过SCI HDAT1来获取语音流;VS1003的功能控制,如初始化、软复位、暂停、音量控制、播放时间的读取等,均是通过SCI口写入特定寄存器实现的。两条SCI指令之间要通过DREQ引脚信号判断上一次处理是否完成。

3 基于NL6621嵌入式软件设计

软件设计主要包括两部分实现软件控制嵌入式系统和基于HMM技术的语音识别算法编写,基本的软件架构如图3所示。

针对嵌入式系统控制部分,包括硬件初始化以及采集音频信号。主要是使用NL6621提供的软件开发包,利用SDK编写应用程序,包括硬件管脚初始化,波特率匹配,录音文件配置,WiFi配置,录音,音频文件格式转化、程序编写完成后需要用烧写工具进行烧写。系统启动后,先初始化硬件模块。然后系统开始工作,通过语音输入设备MIC采集语音,并通过声卡VS1003输入语音。当系统监听到语音输入,开始语音识别,判断识别是否正确,若正确,将命令发送给执行设备,入耳不正确,给出相应

的错误提示,不执行语音命令。判断识别是否结束,如果结束则退出,否则继续下一轮的识别。基于HMM技术的语音识别算法编写,还包括了语音预处理,特征值提取和匹配识别的部分。主要的原理如图4所示,输入语音经过预处理后,语音信号的特征被提取出来,首先在此基础上建立所需的模板,这个建立模板的过程称为训练过程。根据语音识别整体模型,将输入的语音信号特征与存在的语音模板(参考模式)进行比较,找出一系列最优的与输入的语音相匹配的模板。然后,根据此模板号的定义,通过查表就可以给出计算机的识别结果。采用HMM进行语音识别,实质上是一种概率运算。根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。除训练时需运算量较大外,识别时的运算量仅有模式匹配法的几分之一。

第8篇:语音识别系统范文

语音识别是指用计算机对人的语音信号进行分析处理,从而得到其对应文字的过程。其最终目的就是实现一种自然的人机交互方式,使机器能听懂人的语言,辨明话音的内容,将人的语音正确地转化为对应的文本,或者根据语义做出相应的动作。常见的应用系统有语音输入系统、语音控制系统、智能对话查询系统等。而语音识别评测是指针对语音识别的某项应用,创建评测语料库,提出评测指标和对应算法,用评测语料训练和测试各参评系统,并对其识别结果进行比较和分析的过程。

实际上,从1987年起,美国国家标准技术局就开始组织对各大学和公司研发的语音识别系统进行评测。十几年间,根据技术的现状,组织了多次不同任务的评测,促进了领域内的竞争和交流,对语音识别技术的进步和发展起到了巨大的引领和推动作用。

当前,国际上知名的语音识别评测主要有: 美国NIST(国家标准技术局)评测、欧洲TC-STAR评测和中国的863评测。美国NIST评测是开展历史最久、项目设置最全也最负盛名的评测,近20年来,每年都针对语音识别方向的热点技术组织国际性评测,涉及的语言有英语、汉语普通话和阿拉伯语,涉及的任务有孤立词识别、关键词识别和大词汇量连续语音识别,涉及的语音包括了朗读语音、自然语音、对话语音、广播语音、会议语音等各种常见的语音类别。TC-STAR语音识别评测是欧盟TC-STAR项目的一部分。该项目主要针对语音到语音的机器自动翻译。其语音识别评测任务为连续语音识别,针对英语、西班牙语和汉语普通话,处理的语音为会议发言(英语、西班牙语)或新闻广播(汉语)。863语音识别评测是类似NIST评测的综合性评测,语言以汉语为主,任务和通道多样,根据语音识别技术的现状和发展趋势不断调整。

语音识别的主要技术

近年来,由于大规模语料库的支持,基于统计的语音识别方法逐渐发展成熟,取得了较好的识别结果,成为当前语音识别技术的主流。基于隐马尔可夫模型(HMM)的统计语音识别在各个通道,各种任务的语音识别中得到了广泛应用。

图1所示为当前大多数语音识别系统采用的框架和流程。原始语音经前端处理后,从中提取出若干维的特征向量用于识别。识别时,声学模型和语言模型共同作用,得到使某一概率最大的字串作为识别结果。

前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其他滤波器。

在特征提取阶段,一般是把语音信号切分成几十毫秒的帧,对每一帧提取一个特征向量。但这样会丢失帧与帧之间的联接信息,无法反映帧之间的变化过程,因此,还应该加上向量的一阶差分和二阶差分(相当于连续函数中的一阶导数和二阶导数)共同构成特征。

如上文所述,目前主流的语音识别系统大多基于统计模式识别原理,其基础是由声学模型和语言模型共同构成的统计模型。

声学模型是识别系统的底层模型,其目标是通过模型度量,寻找语音特征向量序列对应的发音。当前常用的声学模型是隐马尔可夫模型(HMM)。HMM模型可以看成一个双重随机过程,一个马尔可夫链的各个状态可以产生出各种输出。这种机制较合理地模仿了人类语言活动的过程,对孤立词和连续语音识别来说都是较理想的声学模型。

语言模型的作用是通过提供字或词之间的上下文信息和语义信息。对于大词汇量连续语音识别,语言模型是必不可少的关键模块之一。目前比较成熟的方法是统计语言模型,当前的主流方法是N元文法(N-gram),其主要思想是根据已知前(N-1)个字或词,预测第N个字或词出现的概率。由于训练语料的限制,目前主要采用三元语法。

训练统计模型

对于统计模型,要想使得它能够识别语音,必须对模型进行训练。所谓训练,是指对大量的训练语料进行统计和处理,计算和调整模型的参数,使模型对未训练过的数据也能达到理想的识别结果。语音识别系统的训练主要包括声学模型的训练和语言模型的训练。对于广泛采用的HMM声学模型,其训练主要是获取HMM中的状态转移概率、各状态的输出概率分布等参数。常用的方法是基于最大似然估计原理的迭代算法(如Baum-Welch算法)。对于基于三元文法的语言模型,其训练主要是从大量的文本中计算三元组的概率。

当模型训练好以后,就可以进行识别了。语音识别算法的主要思路是在侯选的词串中搜索使声学模型和语言模型的概率乘积最大的词串。因此,识别过程也常称作搜索(Search)或解码(Decoding)。当前常用的搜索算法是Viterbi算法,其本质是一种动态规划方法。

当前的语音识别系统大都是说话人无关(Speaker Independent)系统,即事先并不知道要识别的语音的说话人特征。但是,对于某个说话人,如果能够适当学习他(她)的发音特点,调整模型参数,显然会使得识别效果更好。这就是说话人自适应的主要原理。所谓说话人自适应,是指对大训练集上得到的模型参数进行调整,使之对当前说话人产生更好地识别效果。可以说,说话人自适应实际上是希望通过少量数据的增强训练(即所谓的自适应过程),使非特定人系统接近特定人系统的性能。常用的说话人自适应方法主要有两种: 最大后验概率(MAP)方法和最大似然线性回归(MLLR)方法。MPA算法采用基于最大后验概率准则,具有理论上的最优性,因此在小词表的语音识别任务中具有相当好的性能。其缺点是对大词汇量的任务自适应速度缓慢,无法满足应用的要求。因此,当前的大词汇量连续语音识别系统大多采用MLLR方法,或将MAP与MLLR结合。从评测结果来看,如果有充分的时间调整说话人自适应模型,连续语音识别中的字错误率可以下降1至4个百分点。

从几年来各参评系统采用的主要技术来看,当前语音识别系统中的技术严重趋同。几乎所有的参评系统都采用上述框架和基本模块,区别主要在于模块内部的细化程度,或者把某模块中的几种技术做些组合。例如,采用不同的前端处理方法,对男女声和有无噪声的语音分类处理,以及同时采用多种声学特征和不同的搜索策略构造多个识别子系统,最后对各子系统的识别结果做一种类似投票的表决(ROVER技术),得到最终识别结果。

由于863语音识别评测并不限制训练数据的使用,各单位可以使用自备的所有数据。因此,从评测结果及各单位的研讨中可以看到,训练数据的数量和质量对系统的性能有很大的影响。为了使评测更公平,2005年的评测中提供了一定量的统一训练集,但规模还较小。在以后的评测中,将考虑提供大量的训练集,希望能够避免因训练数据不同而造成的性能差异。

863计划中语音识别评测

从2003年起,中国科学院计算技术研究所连续三年承办863计划中文信息处理与智能人机接口技术评测,语音识别评测始终是其中的一个主要分项。三年间,863语音识别评测受到了国内外语音识别研究者的关注,参加单位数逐年递增,成为国内语音识别领域最高级别的交流平台,在国际上也具备了相当的影响力。

2003年和2004年度语音识别评测采用现场评测方式,即各参评系统的运行在评测现场同时进行。这种组织形式比较严格,一旦参评系统运行出现故障将无法继续。而且,要求所有参评单位必须到场,其成本也较高。为了避免这些问题,2005年的863评测采用目前国际通用的网上评测的方法,即在网上数据,各参评单位在自己的运行环境上运行参评系统后将识别结果通过网络提交给评测单位。

863语音识别评测最大的特色在于测试数据的选取。文本语料的选取采用从大规模原始语料库中筛选的方法,充分考虑到了对各种韵律学特征(音节、二音子、三音子、音连关系等)、语法特征(句型和句法结构等)和各种领域、各种文体(散文、小说、实事新闻等)的覆盖。录音时不是采用实验室加噪声,而是在完全真实的场景中录制数据,并且充分考虑到了说话人、信噪比等因素的覆盖,在实验的基础上提出了真实环境中信噪比的分布模型,并在此模型的指导下录制数据。这种以实验和理论为依据、以算法为支撑,控制各种语音属性,从而最大限度地拟合真实应用的数据采集方法,在国际上也是很有特色的。目前国际上的同类评测,录音场景多为实验室,对各种影响因素一般只做宽泛的覆盖,几乎没有按理论模型控制的方法。

863语音识别评测的另一个特点是对结果做了充分的统计分析。目前的国际评测一般除给出相应的指标外,还会做一些统计分析,而之前的国内评测却很少这么做。从2004年开始,863语音识别评测也开始对结果进行统计分析,而在2005年的评测中,更是采用专业统计学方法,采用实验设计、假设检验、回归分析、方差分析、协方差分析等一系方法对结果及影响结果的因素进行了深入分析,对各评测单位认清自己系统的优势和缺点,进一步改进起到了很大作用。

另外,在电话连续语音关键词识别评测中,在2004年尝试了以语义槽为单位的基于语法关键词识别任务和评测指标,在2005年首次使用了两个说话人一起录制的自然对话语音,更加符合真实应用的特点,这在国际同类评测中都是没有的。

从评测结果看语音识别技术现状

863语音识别评测,包括PC、电话、嵌入式设备三个语音通道,涉及听写机、对话查询、命令词识别等多种任务,基本上涵盖了当前语音识别的主要研究和应用方向。而参评的又大都是国内长期进行该项研究、有较高水平的单位和系统,因此,无论是采用的方法还是识别的效果,本次评测都可以真实反映出国内语音识别技术的现状。这里结合2004年的评测,对评测结果进行分析。之所以选择2004年的评测结果,是因为它的评测分项最全,几乎覆盖了语音识别的各种应用。

1. 识别结果的评价

评测的主要目标就是通过对识别结果的评价、分析了解参评系统的性能的和语音技术的现状。因此,制订有效的、能够真实反映出系统性能的评价指标也是很重要的研究任务。

对于大词汇量连续语音识别来说,国际上通用的指标是文字错误率(对于英语,文字指单词; 对于汉语,文字指字,下同)。其基本思想为采用动态规划算法将标准答案与识别结果对齐,以得到“正确文字数”、“替换文字数”、“插入文字数”、“删除文字数”四项参数,然后计算文字错误率。

错误文字数 = 替换 + 插入 + 删除文字数

文字错误率 = 错误文字数 / 原文答案文字数

下面给出一个例子:

LAB: 新 增 四 百 万 千 瓦 时 的 强 大 电 流 输 入 云 南 的 电 网

REC: 新 增 四 百 花 钱 忙 时 的 枪 打 电 流 于 树 绿 云 南 电 网

C C C C N N N C C N N C C I N N C C D C C

其中,LAB是标准答案,REC是识别结果,上面的格式是根据编辑距离最小对齐的结果,第三行标记了各类文字,C表示正确文字,N表示替换文字,I表示插入文字,D表示删除文字。

2004年863语音识别评测中的电话连续语音识别评测分项采用的主要指标是语义槽识别正确率,即用语料文本解析得到的标准答案和识别结果相比较,完全匹配的槽认为是识别正确的,定义槽识别正确率为:

槽识别正确率 = 正确识别的槽的个数 / 标准答案中槽的总数

对于嵌入式设备命令词识别,由于是孤立词识别,因此采用命令词识别正确率即可:

命令词识别正确率 = 正确识别的命令词数 / 命令词总数

2. 识别系统性能

对各系统给出的识别结果计算上述指标,得到对各系统识别性能的评价。表1给出了每个分项中识别效果最好的系统的指标,以及前三名系统的平均指标。为了统一,将电话连续语音识别中的槽识别正确率和嵌入式设备命令词识别中的命令词识别正确率统称为正确率。对桌面(这里指PC,以下同)连续语音识别,采用文字正确率,定义为(目前研究者对文字正确率定义稍有不同,本文中一律以下面的定义为准):

文字正确率 = 1 - 文字错误率

表中的最高正确率基本可以代表该分项的最高水平,前三名的正确率均值可以一定程度上反映该分项的平均水平,而前三名正确率的方差可以反映该分项中各系统的性能差异程度。

从表中可以看到,桌面连续语音识别分项中,汉语的识别效果远远好于英语(文字正确率最多相差20个百分点)。其原因显然在于国内对汉语语音识别的研究比英语多而且深入。另外,英语训练语料的相对缺乏,也是一个重要原因。

在采用了语法限制的语义槽识别任务和槽识别正确率作为评测指标后,电话连续语音的槽识别正确率较低。事实上,由于电话语音的录制环境为办公室环境,其噪音比桌面语音要小得多,所以正确率较低的原因主要在于对语法的处理和槽识别正确率较低。

嵌入式设备命令词识别的正确率与桌面语音字正确率大致相当。一方面,连续语音识别要比孤立词识别困难,另一方面,嵌入式设备的语音通道和计算资源都比PC差得多,从结果可以看出,这两方面的因素基本抵消。

从各分项前三名的正确率方差可以看出,汉语桌面连续语音识别和嵌入式设备命令词分项中各系统的性能差异较小,而英语桌面连续语音识别,特别是一倍实时任务中各系统性能差异较大。这是因为当前语音识别的研究重点在于前者,研究者较多,研究也比较深入,而英语的识别相对来说研究者较少。

3. 影响系统识别性能的因素

从上面的识别结果评价可以看出,对真实噪音环境下录制的语音数据,当前的语音识别系统识别正确率偏低,还很难达到实用。

从语音识别产生以来,噪音一直是影响识别效果的主要因素。为了分析噪音对识别的影响,将评测数据按信噪比(SNR)分段,从参评系统选取三个,分别计算其在各段内的识别正确率,可以看出,识别正确率基本上随着SNR的增大而提高,SNR在20dB以上的数据正确率比SNR在5~10dB的数据高近30个百分点。对桌面连续语音识别的其他分项和嵌入式命令词识别的结果分析也得到类似的结果。

对于电话连续语音识别来说,由于录制环境是办公室真实环境,因此噪音并不是影响性能的主要因素。电话连续语音识别分为5个子领域,每个子领域各有一套语法。评测句子由语法生成的有效成分在前后加上任意长的填充词(filler)构成,如语法生成的句子为“从天安门到中关村怎么坐公交车”,而实际录制的句子是“你好,请问从天安门到中关村怎么坐公交车,可以查到吗?”,其中的“你好,请问”和“可以查到吗”就是filler。由分析可以发现,不同领域内的槽识别正确率相差很大。这主要有两个原因,一是不同领域的语法复杂度不同,二是不同领域内有filler的句子所占比例不同。为了进一步衡量filler对识别的影响,选取三个识别系统,将有filler的句子和没有filler的句子分别计算识别率,统计结果如图2所示。从图中可以看出,filler对识别的影响是相当大的,无filler的句子比有filler的句子识别正确率可以高几十个百分点。

第9篇:语音识别系统范文

1.概况

语音识别技术成为21世纪“数字时代”的重要开发领域,在计算机的多媒体技术应用和工业自动化控制应用等方面,成果令人属目。语音识别技术是指用电子装置来识别某些人的某些特征语音,语音识别的手段一般分为二大类,一类利用在计算机上开发语音识别系统,通过编程软件达到对语音的识别,另一类采用专门的语音识别芯片来进行简单的语音识别。利用专门的语音识别芯片应用在地铁车辆上,具有结构简单、使用方便,并且语音识别器有较高的可靠性、稳定性的特点,是简单语音识别在自动控制应用上的一种优先方案。

目前上海地铁

一、

二、

三、

五、

六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,

增加了车站站名动态显示地图。

如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,

对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。

设计一种符合现代化要求的乘客信息显示系统是非常必要。

2.设计

地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。

针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。

语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。

(1)输入控制部分:

通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T<0.9秒内的正确输入语音字长。

(2)语音识别部分:

利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。

(3)噪音滤波部分:

滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。

(4)执行显示部分:

将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。

(5)录音功能部分:

在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。

3.结论

语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。

本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。

参考文献:

1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

2.555集成电路实用大全上海科技普及出版社

3.①获得“2003年上海市优秀发明选拔赛三等奖”

4.①编入《中国科技发展精典文库》第四辑