声像图可见语音–强大的语音频谱图软件

最近,我正在制作一个故事,故事涉及一个打电话的人,并被记录下来。后来那个人拒绝承认他们曾经打过电话。

借助电话中录制的声音和否认指控的那个人的片段,我着手努力寻找一个证明声音是相同的一种方法。

我承认我对语音技术有些痴迷。这就是为什么我一直在等待Google语音的原因。但是,当要对声音进行数字比较时,我很茫然。您可能已经看过那些间谍电影,其中的计算机可以仅凭声纹就能自动识别已知罪犯的声音。

说实话,一旦我发现了“声像图可视语音",我就意识到了声谱图语音技术实际上,目前是一种仅凭声音就能可靠地识别一个人的可行方法。

了解光谱图

如果您了解化学同位素,那么您知道使用同位素,化学家可以通过分离基本元素并使用分解来识别任何混合物的单个成分,从而识别化合物的化学组成。音频频谱图以几乎相同的方式将音频分解为基本频率。关于人类声音的有趣之处在于,没有人以一种频率说话。您的嘴巴,鼻孔和语音盒的结构决定了构成您独特声音的频率的混合。

Sonogram Visible Speech是一款免费的频谱图软件应用程序,它将获取视频或音频文件并中断向下将音频轨道延伸到整个频谱–整个轨道的整个时间范围内的所有频率。完整的频谱图如下图所示。

如您所见,底部音轨看起来像在Audacity之类的程序中看到的基本声波,但是中间窗格显示了声谱的每个片段。声音文件的整个频率布局。该软件的神奇之处在于,还有许多其他波形可用于检查声音文件。这些特别适合高级用户。

You can configure how each of those wave forms displays by going into the the “Options” menu, and selecting “General Adjustment.” Here you can define how the logarithmic graphs calculate output and the general display setup of all available charts.

如果声音很安静,或者您正在分析的声音在耳语,您可能要考虑使用对数频率显示。您可以从“选项"菜单中启用它,然后选择“对数频率"。这将在某种程度上“放大"频谱图中的重要频率区域。

这确实可以帮助您识别可识别某人的清晰频率模式从他们的声音。如果您完全迷路了,并且不知道从哪里开始,请单击“帮助"并转到“在线帮助",将打开写得很好的《 Sonogram在线帮助》手册。如果您不熟悉频谱图音频分析,那么这是一个很好的起点。

使用Ghost Hunting进行频谱图实验

该软件的优点在于它对许多人都有好处不同的用途。在我的个人兴趣中,幽灵狩猎中经常出现的一种文物是“电子声音现象",据称,幻影或幽灵的声音出现在录音中。这些录音分散在整个网络上,因此我决定从鬼魂猎人网站中撤出一些,并进行频谱图分析。

频谱图显示声音的频率通常较低,但是要更好地记录录音中的声音,您需要打开其他波形。自相关视图会在您将鼠标悬停的时间范围内计算“音调"。

“鬼影"的平均音调频率约为129.0 hz。滚动到录音的末尾,您会听到调查员的声音,计算出的音调频率约为208.0 hz(这是有道理的,因为它是女性声音,而幽灵录音听起来是男性。)

打开快速傅里叶显示揭示了有关声音的更多细节。此图表迅速分解了主要频率,并以颜色代码显示它们。

在这种情况下,频率的分解分散开了,在混频中有一些高但很多的低频,例如好。但是,房间里的研究人员显然是在声音中说话,声音的频率更加集中在范围的高端,如此处所示。

This quick analysis proved that the two voices are quite different, but this is only a basic example of the capabilities of this powerful software. Basically, any situation where a breakdown of frequencies of a sound wave can help – this is the software for you. It’s easy to learn, quick to set up and configure, and it performs as well or better than any paid spectrogram software on the market.

您是否有任何可以使用频谱图的项目?您是否尝试过声像图可见语音?在下面的评论部分中分享您的见解。

标签: 极客科学 语音识别