用户反馈

基于语音识别的对讲通信技术优化研究

2016-12-01    徐年 李伟 陈飞

地震应急救援是我国防震减灾事业 3+1 体系的重要组成之一。最大限度地降低地震灾害损失是抗震救灾工作的核心设定目标,而实现这一目标的基础环节之一就是提高地震应急救援水平。我国的地震应急救援系统和管理体系迄今为止仍有待完善,2008 年的汶川地震和 2010 年的玉树地震救援工作已经清晰表明了应急救援的强大背景支撑作用,与此同时更进一步揭示了在突发地震灾害面前应急救援技术及应用的广阔施展空间与不断增长的现实需求。特别地,已有研究指出,稳定可靠的对讲机自动对讲和多功能、全方位的语音 通话在地震救援现场正在担负和执行着日趋显著、且不可或缺的使命任务与功能角色。这种通信方式的优化对于提高地震救援效率则有着不言而喻的实用价值与积极推动意义。本文即针对这一课题内容展开研究论述。

1 基本原理

语音识别是新兴的人机交互技术之一。研究可知,语音识别系统则由语音信号的预处理、特征提取、语音模板库以及匹配判决这 4 个部分构建组成。在此,给出语音识别系统的原理构成如图 1 所示。

1 语音识别系统原理图

如图 1 所示,对于语音识别系统各组成部分的效果实现可提出如下设计分述:

1) 预处理

①预加重。预加重过程可以使语音的高频部分得到提升 ,减小语音的动态范围,增加信噪比,使信号的频谱更趋平滑,利于展开频谱分析。

②分帧与加窗。采用一个有限长的窗序列,并利用其滑动来实现对原始语音信号的分帧,另外采用交叠分段方法使相邻帧之间过渡更为流畅。

2) 端点监测。端点检测是指从一段语音信号中检测出说话的起始点与终止点,删除无声段,以降低特征提取的计算量,缩短系统的训练与识别时间,进而提高准确度与识别率。常用的端点检测方法主要基于 2 个参数: 短时平均能量和短时平均过零率。

3) 特征提取。在语音信号处理中,可以采用如下特征: 语音信号能量、基音周期、共振峰、LPCC MFCC 等。其中,LPCC 是依据说话人的声道模型得来的,整体实现思路是对语音信号进行线性预测分析,再将所得到的线性预测系数启用倒谱运算,该种参数优点是计算过程清晰,且能够优质描述元音信号,但其缺点却在于对辅音信号的描述性能欠佳,且极容易受到噪声的干扰而产生失真。而 MFCC 参数的获取则是基于人耳的听觉特性,其完整思路是将语音信号的频谱通过带通滤波器转换为基于美尔频率尺度的非线性频谱,接下来就是对滤波器的输出设计展开对数及离散余弦变换,由于该 参数更为符合贴近人耳的听觉特性,因此相比较 LPCC 参数而言即具有较好的抗干扰能力。

4) 模板匹配。动态时间规划( DTW) 是模板匹配法中核心经典的算法之一。DTW 算法通过不均匀地扭曲或弯折待测语音信号的时间轴,使待测语音特征和模板特征彼此对齐,并通过不断地在 2 个模板之间搜索模板中对应矢量最小距离的匹配路径,最终得到一个规整函数,这个函数可使 2 个模板中的矢量匹配时累计距离最小。因此,DTW 是一种结合了时间规整和距离测度的非线性规整技术。

2 系统软件设计

本项目软件主要在 CCS 上获得开发实现。CCS TI 公司推出的用于开发 DSP 应用程序的可视化集成开发环境,具体支持 C2000C5000C6000 系列,包括代码编辑、调试工具、可执行代码生成工具以及实时分析工具,可用于汇编语言和 C/C++语言混合编程。

基于 CCS TMS320VC5409A 的标准软件开发流程如图 2 所示。

图2 TMS320VC54X软件开发流程

由图 2 可以看出,软件开发过程中涉及到 C 编译器、汇编器、链接器等开发工具,重点包括了 C 编译、汇编、链接和调试总共 4 个阶段,具体步骤如下:

1) 用 C 编译器将 C 语言源代码程序自动编译为 C5X 的汇编语言源代码程序。

2) 用文本编辑器编辑得到符合 C5X 汇编器格式要求的汇编源程序。

3) 调用汇编器将该源文件导入汇编,如果源文件中调用了宏,汇编器还会到宏库中搜索该宏。

4) 汇编后,将生成格式为公共目标文件格式的目标文件( .obj) ,称为 COFF 目标文件。

5) 调用链接器对目标文件提供链接,如果包含了运行支持库和目标文件库,链接器还会到所保护的库中搜索所需的成员。

6) 链接之后,生成 COFF 执行文件( .out)

7) 将 COFF 执行文件下载到 C5XDSP 中展开运行,同时也可借助调试工具对程序进行跟踪调试或优化。另外,还可利用交叉参考列表器和绝对列表器生成一些包含调试信息的表。

3 系统硬件设计

3.1 基本组成

语音识别受送话器主要由耳机、麦克风部分和主机部分组成,详细原理框图如图 3 所示。

图3 语音识别受送话器原理图

3.2 控制处理电路

控制处理电路相当于人的大脑,是语音识别受送话器的核心构成。 该电路由信号滤波、模数转换、识别、存储、延时、收发控制、产生提示信号、灵敏度调节等各部分组成,每一独立功能均由软件程序调试控制完成。在此,针对该控制处理电路的基础功能模式流程展开设计解析,具体论述如下。

3.2.1 信号滤波、模数转换、语音实现

控制处理电路将收到的前置放大电路送来的信号首先进行滤波、去除外带无用的信号,而后进行模数转换,即编码,将模拟信号转为数字信号。

语音实现部分,本文研究选用了 MC145483。这是一款功能全面的音频编解码器,MC145483 的主要外接管脚有 PCM 数据输入端 DRPCM 数据输出端 DT、芯片主控制时钟 MCLK ( 频 率 可 为 256 KHz512 KHz1. 536 MHz2. 048 MHz 4.096 MHz) 、接收帧同步信号 FSR( 8 KHz) 、发送帧同步信号 FST ( 8 KHz) 、接收端的位时钟 BCLKR( 256—4 096 KHz) MC145483 可以提供高质量的语音通信,而且外围电路简单,通过调节相应的电阻比值即可改变麦克风和扬声器的增益数值。研究可得,语音实现电路如图 4 所示。

图4 语音实现电路图

至此,MC145483 则通过数字输入/输出接口连接至 DSP 芯片。由于 DSP 芯片是专门针对数字信号设计和开发的,所以在数字信号分析和处理的领域中,比通用 CPU 芯片的处理速度更快、效率更高、稳定性更好。本次研究最终选择了 TMS320VC5409 芯片。总而言之,MC145483 可将输入的模拟音频信号经过抽样、量化、编码后变成数字音频信号发送给 DSP 处理,也可从 DSP 接收经其处理后的数字音频信号,并将其通过 DA 转换后还原为模拟音频信号输出。

3.2.2 信号识别、存储、延时

这一功能是控制处理电路的重点与关键。收到转换后的数字信号后,通过分析判断是否为人的讲话声音。如果不是,系统选择忽略; 如果是,则将数字信号进行存储,同时使系统转为发射状态。再将存储的数字信号经过数模转换处理,即信号解码,恢复为模拟信号,经过不到 1 s 的延时送至输出放大电路输出。信号识别可以确保系统运行高度可靠,而延时则可以实现信号的理想成功传送。

3.2.3 受送话结束提示音

为了获得最佳使用,设置受送话结束提示音。受送话结束提示音分为送话结束提示音和受话结束提示音。下面将给予各自实现阐释。

1) 送话结束提示音。结束讲话时,系统需判定使用者讲话是否结束。判定的方法是在使用者结束讲话后 1—2 s 内没有重新讲话,便可视作讲话结束。在 1—2 s 后系统将由发射状态自动调为接收 待机状态,同时发出的提示音,告知使用者系统目前已处于接收状态。

2) 受话结束提示音。当使用者接收到对方电台的声音时,接收的 声音一般是连续的,在对方讲话期间,使用者是不能发送的。在对方停止讲话后,系统会产生一个的提示音,通知使用者对方讲话已结束,可以讲话发射了。

3.2.4 发射屏蔽信号

发射屏蔽信号主要用来在接收时屏蔽发射功能,这是另一重要设计组成部分。其实现作用如下: 当使用者在接收对方讲话期间,因为电台处于接收状态,对方电台则处于发射状态,此时是不能发射的。即使己方电台发射,由于对方电台也同样处于发射状态,对方也是听不到使用者讲话的,相应地使用者也不能听到对方的讲话了。这种现象是人为原因造成的通信线路紊乱。为了避免这一现象不利效果的干扰出现,设计时处理电路会监视收到的信号,在对方处于讲话期间,即便使用者发声讲话,处理电路也将屏蔽讲话信号(此种状态下,即使不使用通信系统,电台同样不能在对方讲话期间发射),只有在对方讲话结束,即受话结束提示音响过以后才能讲话、发射,确保不会产生通信紊乱现象。

4 应用效果

2016 年 5 23 —25 日,“2016 年中国杭州 G20 峰会地震安全保障·华东地震应急联动协作区应急支援演练在杭州临安举行,来自江苏、福建、安徽、江西、浙江和上海五省一市地震局的 6 支队伍参加了演练。江苏局研发的骨传导数字语音识别受送话器在地震现场搜救科目中发挥了高效作用,大幅提高了救援效率,得到了中国地震局应急救援司领导和参与专家的一致好评。

5 结束语

骨传导数字语音识别受送话器在江苏局的应用,首要优势即是控制消除了对外界声音和冲击等的辨识接收。当救援人员讲话时,自动识别产生 PTT,就可以实现通话。救援人员的双手获得了彻底解放,讲话时对讲机自动发射,这种通信方法的优化,对于提高救援效率,已然呈现出显著现实益处与良好的方法指导意义。(作者:徐年、李伟、陈飞;作者单位:江苏省地震局)

收藏

我的评论

最新评论

找回密码 注册

注册成功!

继续浏览 用户中心