五分钟趣谈:语音识别技术浅析

admin 2025-10-27 阅读:3 评论:0
单位:中国移动雄安产业研究院 Part 01 语音识别近70年发展史 1952年,贝尔实验室发明了自动数字识别机telegram中文版,科学家对智能语音有了模糊的概念,可能这时科学家们就已经在畅想我们如今实现的这一切。 1964年,IBM...

单位:中国移动雄安产业研究院

Part 01

语音识别近70年发展史

1952年,贝尔实验室发明了自动数字识别机telegram中文版,科学家对智能语音有了模糊的概念,可能这时科学家们就已经在畅想我们如今实现的这一切。

1964年,IBM在世界博览会上推出了数字语音识别系统,语音技术也自此走出了实验室,为更多人知晓,贝尔实验室的梦想也变成了更多人的梦想。

1980年,声龙推出了第一款语音识别产品Dragon Dictate,这是第一款面向消费者的语音识别产品。虽然梦想第一次照进了现实,但其高达9000美元的售价,很大程度增加了智能语音技术的普及难度。

1997年,IBM推出它的第一个语音识别产品Via Voice。在中国市场,IBM适配了四川、上海、广东等地方方言,Via Voice也真正的为更多消费者接触、使用到。

2011年,苹果首次在iphone4s上加入智能语音助手Siri。至此,智能语音与手机深度绑定,进入广大消费者的日常生活。随后国内各大手机厂商也先后跟进,为手机消费者提供了五彩缤纷的语音识别功能。

此后,语音识别技术的应用,并没有局限于手机,而是扩展到了各种场景。从各种智能家居,如智能机器人、智能电视、智能加湿器等,到现在智能汽车,各大传统厂商以及造车新势力纷纷积极布局智能座舱。可见智能语音技术已经在我们的衣食住行各个方面得到了广泛应用。

Part 02

语音识别技术简介

语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入。语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。

Part 03

语音识别基本流程

ASR:指自动语音识别技术(Automatic Speech Recognition)whatsapp网页版,是一种将人的语音转换为文本的技术。

NLU:自然语言理解(Natural Language Understanding, NLU)是所有支持机器理解文本内容的方法模型或任务的总称。

NLG:自然语言生成(Natural Language Generation,NLG)是一种通过计算机在特定交互目标下生成语言文本的自动化过程,其主要目的是能够自动化构建高质量的生成人类能够理解的语言文本。

上图展示了一个语音识别的基本流程,用户发出指令后,mic收集音频,完成声音到波形图的转换,通过波形图与人类发音的波形图做对比,可以识别出说的具体音节,通过音节,组合成词、句子,再结合大数据分析出说的最匹配的话,然后NLU模块开始工作,分析出这句话的意图(intent)、域(Domain)等各种信息。分析出意图后开始对话管理DM(Dialog Manager),通过后台数据查询应该给用户什么反馈。然后交给NLG模块,通过查出来的信息,生成自然语言,最后通过TTS模块,将文字转回成波形图并播放声音。

上面的流程涉及到的学科、知识都比较多,由于篇幅原因,不一一展开描述,在这里我节选出ASR来进行相对详细些的学习。

Part 04

ASR实现原理简单剖析

我们首先从ASR声音源来看,当一位用户发出指令,比如说:我爱你。这时麦克风会收集音频到存储设备。我们通过音频处理软件(如Audacity)打开后可以发现音频是一段波形图。

但是这段波形图并没有什么直观的有意义的信息,它的高低只代表了声音的大小,横轴也仅仅是时间。语音识别本身是基于大数据的分析技术,分析的基础是数据的准确,声音大小和发音的时间长短很难有什么统计学的意义,所以此时我们需要对音频进行处理。(这段波形图是四句我爱你的波形图)。

处理的一种常用方法是傅里叶变换,通过傅里叶变换,我们可以将时间维度的波形图,转换成频率维度的波形图。

为什么要处理成频率的维度呢?

因为我们都知道,人类发出的声音,能听到的声音大概在一个频段内。这涉及到生物学、声学的知识,我们人类的身体构造大致相同,这里想当然一下,尽管有个体差异、有性别差异,我们发出的声音的频率相差不会很大。这样我们就把没有统计意义的声音波形图处理成了频率图。

但是我们的时间维度也不能丢掉,我们在将声音分割之后(这里涉及到声音预处理、分帧等知识,暂不展开),可以根据本地的声学模型做比对,看每一帧时间内发出的音素是什么。中文的话,音素指的是我们发音的一个字母,比如“我”由两个音素组成:w和o。

到现在我们知道了如何将声音从音频文件处理成音素。之后再通过语言学、统计学等技术,结合具体语境,将音素组合成词whatsapp网页版,将词组成句子,从而识别出用户说的语句,ASR大致流程就完成了。

上面的方式其实属于语音识别各种技术中较为简单的一部分,在实际应用中可能还包括各种各样的技术,比如声学特征提取的MFCC方式、上面声音预处理的降噪、分帧、加窗、端点检测等技术。

Part 05

语音识别及相关技术展望和我们能做的事情

随着硬件技术提升、5G技术普及,我们可以在后端对海量的数据进行处理,依靠5G技术的稳定和低时延,为用户提供更可靠、顺畅的服务,可以预见在不久的将来,语音识别及其相关技术必将更加智能、更加稳定。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

热门文章
  • 详细指南:WhatsApp国内使用方法全攻略-下载安装、注册登录及功能使用攻略

    详细指南:WhatsApp国内使用方法全攻略-下载安装、注册登录及功能使用攻略
    一、下载与安装WhatsApp WhatsApp是一款全球使用范围极广的即时通讯软件,不仅可以实现文本聊天,还能进行语音、视频通话WhatsApp中文版,发送文件等功能。由于众所周知的原因,国内用户想要下载和安装WhatsApp可能会遇到一些困难。不过,只要按照以下步骤操作,就能顺利完成WhatsApp的下载和安装。 首先,我们需要解决的是下载问题。由于WhatsApp在国内的应用商店无法直接下载,所以我们需要寻找其他的下载途径。Android用户可以选择到各大安卓市场搜索下...
  • 苹果IOS5.1.1机完美越狱

    苹果IOS5.1.1机完美越狱
    越狱工具下载:(需手动复制: http://bbs./read-htm-tid-4804612.html ) 详细的越狱教程: Absinthe 2.0.4的越狱方法与Absinthe 1.0的越狱方法完全一样,非常简单的“傻瓜一键式”。不过这里绿毒有说明,最好重新刷固件。支持越狱设备IOS5.1.1的固件下载地址请点击本站的IOS固件下载,看下图: 下载完固件之后,把设备连接iTunes,开始刷固件。你也可以选择不刷,但是在越狱的过程之中,新的系统在越狱时会比较的顺利,...
  • 电脑微信的聊天照片文件在哪里微信图片保存电脑哪个文件夹

    电脑微信的聊天照片文件在哪里微信图片保存电脑哪个文件夹
    1. 怎么找到微信聊天图片在哪个文件夹里 图片保存路径:/storage/emulated/tencent/MicroMsg/WeiXin/文件夹,这个是完整路径。而在文件夹中只需要找到/tencent/MicroMsg/WeiXinWhatsApp中文版,就可以了,前面两个文件夹是系统根目录。以下是保存及查找图片的方法步骤介绍。 第一步、找到桌面的微信APP,直接点击打开这个微信的APP。 2. 电脑微信图片保存在哪个文件夹 个人微信文件夹。 电脑版微信聊天的图片,都保存到...
  • Windows 11版WhatsApp将从UWP/Native切换回WebView2打包模式

    Windows 11版WhatsApp将从UWP/Native切换回WebView2打包模式
    Meta(最近更名为 Meta AI)悄然宣布,WhatsApp 将在 Windows 11 上放弃 UWP(WinUI)WhatsApp中文版,退回采用基于 Chromium 的容器。这意味着 WhatsApp 又回到了几年前的样子。由于 web.whatsapp.com 一直领先于 Windows 应用开发,它确实拥有一些新功能,但速度更慢,占用更多内存。 如果独立开发者因为无力维护所有平台的代码库而选择 Web 应用程序,那是一回事,但当像 Meta 这样价值万亿美元...
  • 小米下載WhatsApp的完整指南:安装与使用注意事项

    小米下載WhatsApp的完整指南:安装与使用注意事项
    综上所述,确保您的小米手机具备以上条件,将有助于您顺利下载和安装WhatsApp,享受便捷的通讯服务。在满足这些条件后,您就可以按照后续步骤进行WhatsApp的下载和安装。 2. 下载和安装WhatsApp的具体步骤 在小米手机上下载和安装WhatsApp的具体步骤相对简单,但需注意一些特殊情况。首先,确保你的手机系统已更新到最新版本,以保证最佳的兼容性。由于安卓手机商店内无法直接找到WhatsApp,你可以通过APKPure等第三方应用商店进行下载。打开APKPure应用...