首页/文章/ 详情

数据分析 | 轻松！机器学习：语音识别

Altair澳汰尔

1年前浏览1198

本文摘要（由AI生成）：

这篇文章主要介绍了如何使用机器学习来识别日语中发音相似的单词。作者首先提到了不同国家的人在学习日语时可能面临的发音问题，然后解释了发生这些问题的原因。接着，作者展示了如何将语音转换为数值数据，并使用机器学习来创建预测模型。最后，作者测试了模型的准确性，并得出结论：机器学习可以有效地解决发音相似的单词的识别问题。

原文链接：https://blog.altairjp.co.jp/ml05-recognition

Altair是一家跨国公司，所以有很多来自不同国家的人在日本工作。

当我告诉一位在我们日本办公室工作的意大利工程师 “我听到的cars和cards完全一样”时，他说“我甚至不明白日语中的筷子和桥梁的区别（音都是hashi，重音位置不一样）”。

我们为什么不使用机器学习来区分一些人难以区分的问题呢？因此，让我们试试用机器学习来进行语音识别。

发生“听到的cars和cards完全一样”这种情况的原因是，作为空气物理振动的“声音”和我们每个人在头脑中重现的“声音”是不一样的。cars和cards的舌头动作和位置不同，所以作为空气振动的 "声音 "也完全不同。

然而，作为土生土长并完全适应日语的日本人，在这两种情况下，我的脑子里都回放着 "cars "的 "声音"。大脑并没有给我们物理属性的真实数值，而是用对个体都有感觉的东西来代替所有的数值。

让我们试试语音识别

首先，像我这样把筷子和桥的声音各录了25次。

筷子（hashi）的声音

桥梁（hashi）的声音

你可能会想，"过去我经常认为我的声音录制多遍有什么意义？然而，即使你认为你的发音是一样的，但每次的实际数据是很不同的。我在下面排了三个筷子的音频波形，你可以清楚地看到，它们每次都是不同的。换句话说，大脑每次都能把不同的东西认作一根“筷子”，这很神奇。

机器学习：语音识别 - 筷子和桥的区别

将语音转换为数值数据

现在，为了使用机器学习，我们不能使用声音的原貌，我们需要把它当作有一些设计变量和反应的数值数据。我在 Altair 社区中找到了一个好的方法，我发现了一篇名为 "如何从Compose的标准OML语言中使用Python函数 "的文章。

它对wav文件做1/3倍频带处理。让我们来做一下这个。

如下图所示，每个频率下的声压（我用250-16000Hz来匹配我的麦克风特性）是设计变量，而响应是决定是桥架还是筷子。

然后你可以在Excel中创建一个这样的数据集。

顺便说一下，这就是整个数据的样子。总体上看还是有些区别的，但一个一个地看似乎没有明显的区别，说实话，我很担心 Altair 的机器学习是否能够准确的分辨出其中的差别？

用深度学习创建预测模型

接下来就轮到 Altair Knowledge Studio 出场发挥作用了。首先，用我最喜欢的深度学习创建一个预测模型，如下图所示，这在 Knowledge Studio 中做真的很容易。

测试预测模型是否能识别桥梁和筷子

接下来，我们从训练数据的50个音频文件中分别重新录制了桥和筷子各5次，共10次，以验证深度学习模型是否能正确预测，整个过程仍然非常简单。

现在，让我们检查一下预测结果。所有的预测都准确！深度学习在预测方面做得很好。

智能手机和AI扬声器中的语音识别是嵌入了可应用在更大规模和更高分辨率条件下的预测模型。

总结

你怎么看呢？我们展示了使用机器学习来区分人们可能不容易区分的事请。我相信有很多地方可以使用机器学习，所以我希望你能想到去使用它。

来源：Altair澳汰尔

振动 python 人工智能 Altair

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2024-03-24

最近编辑：1年前

Altair澳汰尔

澳汰尔工程软件（上海）有限公司

获赞 170粉丝 570文章 804课程 17

点赞

还没有评论

相关推荐

2024 年天津市声学学会“宁静天津”第一届学术会议（回放）

课程可试听

高级编程人才训练营——上海交通大学C语言/Fortran/Python编程综合技能课程（基础班）

课程可试听

智能物流机器人设计与实践32讲

2024 Altair 技术大会（2024 ATC）

最新文章

特斯拉财报解读：2025Q1

GRAS与懿朵协同助力中国高校科研升级

关于氢安全，研究热点哪里？

【机械设计】机械设计的10个传动机构，看完经验瞬间提升

FaultsMind（轴承）故障诊断大模型：一站式工业智能运维解决方案

热门文章

通用/泛亚/蔚来/弗迪/上海电驱动等百位新能源专家确认发言，易贸三电活动6月苏州见

故障诊断实验台 | BTS100轴承寿命预测故障实验台(16.8w)

单自由度受迫振动系统详解

数字孪生靶场总体框架设计与关键技术

HUST Bearing公开数据集(含不同转速、复合故障)

其他人都在看

2024第四届中国算力之都·宁夏工程仿真大赛CAE网格赛道【赛事通知】

锂离子电池生产现场异物管控

固态电池碾压油车，轻松突破1000公里，石油税收大窟窿谁来填？

2024仿真秀618学习狂欢课程特惠大放送

IAV：采用移动粒子半隐式（MPS）方法模拟电机中的自由流动冷却液的技术

VIP会员学习计划福利任务帮助与反馈

返回顶部