语音识别原理五分钟就能弄懂

请选择时期：

当前位置：首页 > 窍门 > 科技数码

语音识别原理五分钟就能弄懂

来源：最后更新：22-03-23 10:29:47

导读：1、首先，我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的

1、首先，我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。
2、在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。
3、每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。
4、分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征。
5、至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。
6、接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing Dictionary。
7、语音识别是怎么工作的呢？实际上一点都不神秘，无非是：第一步，把帧识别成状态（难点）；第二步，把状态组合成音素；第三步，把音素组合成单词。
标签: 语音识别原理

免责声明：本文系转载，版权归原作者所有；旨在传递信息，其原创性以及文中陈述文字和内容未经本站证实。

本文地址:http://www.zuomama.com/qiaomen/youxi/148200.html

佳能cp1300使用教程怎样无线打印
网站首页 返回栏目
关于飞机的资料飞机的介绍

1
天盛长歌白敬亭第几集出现（长盛天歌白敬亭在第几集出现）

2
新冠病毒抗体检测有什么用（新冠病毒抗体检测什么意思）

3
南通成品油价格调整公告（南通汽油价格调整最新消息）

4
2023年贺岁普通纪念币江苏省补充兑换工作的公告

5
自2023年2月6日零时起全面恢复内地与港澳人员往来

6
昆山开发区便民核酸采样点地址+时间（昆山核酸采集点）

7
珠海2023第二轮横琴消费券有哪些种类

8
珠海2023第二轮横琴消费券各平台领取规则

9
美方击落无人飞艇美方击落无人飞艇视频

10
从中美“气球事件”看，为何欧洲反应“冷淡”？

新冠病毒抗体检测有什么用（新冠病毒抗体检测什么意思）

南通成品油价格调整公告（南通汽油价格调整最新消息）根据国家发展改革委公布的国内成品油价格调价信息，现将我省汽、柴
2023汝阳县元宵节焰火晚会推迟举办通告潍坊市奎文区新华医院入园体检咨询电话深圳市宝安区松岗镇包括哪些村（深圳市宝安区松岗镇包括哪些村庄） 2023十堰开学健康第一课直播视频在哪里看

潍坊婚姻登记处电话（潍坊婚姻登记处电话查询）

2023年2月6日起全面恢复内地与港澳人员往来

2023南通通州消费券有哪几种？“南通州·欢乐购”通州政府助力券2023年2月7日10:00起开抢，领取
2.6山东教育卫视家校共育大课堂直播回放入口山东家校共育大讲堂几点开始（山东家校共育大讲堂几点开始播放） 2023珠海横琴消费券抖音+建行生活+高德平台领取条件 2023惠享汶上餐饮零售消费券商家名单

2023潍坊羊口祭海时间