作者:龙顺宇,郑泽龙,谭冬凤 本文讲解了一种使用ARM处理器作为掌控核心的非特定人语音识别系统的设计方案。方案中的系统利用ICRoute公司的非特定语音辨识芯片LD3320与ARMCortexM3内核ST公司的32位高性能单片机STM32F103C8T6构成功能主体,在系统中构建SD卡文件系统,在不变更单片机源程序的前提下,可更改SD卡中内容,超过辨识列表关键词动态编辑,经过大量实践证明该方案合适嵌入式组件研发中必须灵活性变更辨识内容和回到参数的应用于,设计具备高性价比、交互简陋、识别率低、扩展性强劲等特点,便于嵌入式应用。 0章节 语音交互是人类交流和互相交换信息中最便利的手段和最重要的媒体,长久以来,人们都期望寻找一种新的途径解决问题人类与机器的交互方式,期望机器设备需要听不懂人类的语音信息展开交互,辨识其含义并号召、从而作出适当动作,这样的交互方式更加能被使用者拒绝接受,代替原先的键盘、按钮、电源等传统交互方式,基于非特定人的语音辨识技术早已沦为嵌入式新的方式的一个最重要发展方向和研究热点。
语音信号的辨识牵涉到众多学科知识体系,与计算机、语言学、通信、数理统计、信号处理和人工智能等学科都具有紧密的关系,由于语音信号具备信息量大、不确定性、动态性和连续性的特点,在语音信号的预处理、特征提取等阶段处置数据量十分大,对软件的处置算法和硬件的处置能力都有较高的拒绝,传统用于PC机或者工控机等低处置性能的平台构建语音信号辨识,但软软件开发耗资毫无疑问是妨碍普及的最重要因素,本系统使用ARMCortexM3内核ST公司的32位高性能单片机STM32F103C8T6融合LD3320语音辨识芯片,通过建构SD卡文件系统构建非特定人语音辨识关键词动态编辑功能,限于于嵌入式语音辨识场合。系统电路非常简单,性价比低,辨识距离和辨识精度都可以符合嵌入式应用。 1非特定人语音辨识技术原理 非特定人语音辨识技术研究的最后目的是让计算机等设备需要听不懂人类语音,萃取出有语音中所包括的特定信息,沦为人机通信和交互最便利的手段。由于语音信号本身具备不确定性、动态性和连续性,这就为精确分析和处置该信号带给十分大的艰难,每个人的语音要创建有所不同的语音样本也为辨识的普及带给瓶颈约束。
目前的语音辨识是再行创建特征库然后将待辨识的信号经处置与特征库比对获得相近结果判断输入。从本质上归属于基于统计资料模式的基本理论,分语言模型训练、辨识分析两个大阶段包含和构建,如图1右图。 声学训练阶段一般来说是离线已完成的,由语言学家对预先搜集好的海量语音样本、语言数据库、噪声数据展开信号处理和科学知识挖出,通过语音信号处理理论及适当数学算法模型创建语音识别系统所必须的声学模型和语言模型. 辨识分析阶段一般来说是在线已完成的,对用户动态的语音展开自动识别。
辨识过程一般来说又可以分成前端和后端两大模块:前端模块主要的起到是展开端点检测、减震、特征提取等;后末端模块的起到是利用训练好的声学模型和语言模型对用户说出的特征向量展开统计资料模式识别,获得其包括的文字信息,此外,后末端模块还不存在一个自适应的对系统模块,可以对用户的语音展开自自学,从而对声学模型和语音模型展开适当的校正,进一步提高辨识的准确率。 2系统设计的整体结构 本系统以STM32F103C8T6微控制器为掌控核心,配上微控制器大于核心电路、LD3320语音辨识电路、SD卡电路、电源电路、用户按键输出电路、串口数据输入电路、状态命令电路等综合构成。该系统体积小巧,可以作为嵌入式组件单元带入用户电路或者板卡中,上电后STM32F108C8T6内部程序展开程序初始化、SD卡文件系统初始化、LD3320初始化、随后等候辨识音频接管,辨识已完成后输入号召信息或者解码音频,系统整体结构如图2右图,最后构建积木式功能组件的全部功能。
本文来源:od·体育(中国)官方网站-www.cqnsbg.com