语音识别的技术原理是什么
admin
2023-06-24 11:12:17

手机上的输入文字的功能,用过的一个非常好用的语音识别输入文字的软件。

操作的方法可以按照下面的步骤方法来进行转换,简单好用,轻松就能够完成需要的文字输入哦。

1)在应用市场找到这个工具将它安装在手机之后在语音识别的页面中选择:录音机,就可以录制音频了;

语音识别的技术原理是什么图1

2)等待录制结束,这里我们需要将音频文件保存一份,然后进入手机文件库的页面,找到录制的音频;

语音识别的技术原理是什么图2

3)点击右上角的转文字字样,就可以将录制好的音频文件转换成文字了;

语音识别的技术原理是什么图3

4)最后,我们同样可以进入文字页面,进行翻译、复制、导出等操作。

怎么将录音转成文字?在线语音转文字、手机音频转文字看这里

语音识别的技术原理是什么图4


看图语音识别的技术原理是什么图5
  • 编码:把语音变成向量
    • 频域信息:人类是通过振动频率来判断声音的,所以要用傅里叶变换来完成时域频域之间的转换;
    • 特征:如,MFCC是依照人耳的听声特点提出的filter。然后我们有了语音向量。
  • 训练:从数据中学习对语音的判断,而不是用人工的规则。
    • 声学模型(acoustic model):用于识别语音向量;可用GMM或DNN等方法来识别向量,用DTW或HMM或CTC来对齐(alignment)识别结果的输出(单词从何时开始,何时结束)
    • 字典(dictionary):多数模型并不是以单词,而是以音素为识别单位。当识别出æ p l这三个音素时,利用字典,就可以判断出所说的词是apple。
    • 语言模型(language model):我们在听老外说错误的中文时依然能够识别内容是因为我们有关于语法的知识,可以调整声学模型所识别出的不合逻辑的词语。这就是语言模型的作用
  • 解码:用训练好的模型组合起来就可以通过判断新的语音向量,来识别语音了。

相关内容

热门资讯

北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
阿西吧是什么意思 阿西吧相当于... 即使你没有受到过任何外语培训,你也懂四国语言。汉语:你好英语:Shit韩语:阿西吧(아,씨발! )日...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...