最新公告:

中华视窗是诚信为本,市场在变,我们的诚信永远不变...

中华视窗

咨询热线

400-123-4657

行业资讯

当前位置: 首页 > 新闻动态 > 行业资讯

微信新版摇一摇识别歌曲功能是什么原理?哪些应用也有这个功能?

添加时间:2024-02-26

/

声纹识别技术

所谓声学指纹( )是通过特定算法从音频信号中提取的一段数字摘要,用于识别声音样本或者快速定位音频数据库中的相似音频。声纹识别声纹识别可以说有两个关键问题,一是特征提取,二是模式匹配。音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字签名,其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量。注意这里不是直接比较通常很大的音频数据本身,而是比较其相应通常较小的数字指纹。大量音频数据的指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中,并采用指纹作为相应元数据的索引。一个音频指纹系统通常包括两个部分:即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的比对算法。当要识别一段未知音频时,首先按照指纹提取算法计算其音频特征,然后和数据库中存储的大量音频指纹相比对从而进行识别。一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本。若识别到对应的原始指纹,则可提取出相应的元数据信息返回给用户。好的声学指纹识别算法必须考虑到声音的感知特性。如果两段音频文件人们听起来是一样的,即便它们的二进制表示形式不一样,它们的声学指纹也应该是相同的或者非常相似的。不同的音频压缩技术(包括:MP3、WMA、等)在对音频文件的二进制编码方式上虽然有较大差别,但是却不影响音频文件播放的效果。好的声学指纹识别算法应该能够正确的识别出经过压缩的音频文件,甚至在音频质量有明显下降的情况下也能够正确识别。

声学指纹的技术被应用在微信摇一摇歌曲和电视、网易云音乐、酷我音乐、音乐雷达等APP中。

其本质都是音频信号特征的识别和匹配,如果非要细分的话可分为原音识别和哼唱识别。哼唱识别的算法相较于原音来说要复杂一些,因为哼唱的音频与原始的音频差距较大要进行大量的相关性计算。

指纹识别声音_指纹音量_环境声音指纹

音频数字水印技术

音频数字水印( audio )顾名思义就是在音频上面附加“水印”,“水印”这一术语与信息隐藏科学高度关联。所谓信息隐藏,可以理解为在一种信息中隐藏附带另外一种信息。因此,音频水印技术是指通过修改音频信号从而在原始信号中嵌入附加信息的技术。与图像水印技术相比,在数字音频信号中嵌入水印的技术难度较大,主要是因为人类的听觉系统与视觉系统相比,具有更高的灵敏度。人类的听觉系统对加性噪声特别敏感,如果在音频信号中嵌入微弱的水印信息,很有可能会被人耳感受到;另一个原因是在音频信号中嵌入水印的信息量远远小于在图像中嵌入的信息量。所以,目前音频数字水印技术面临的挑战是如何在保证水印鲁棒性和感知透明性的同时,提高水印的检测效率和嵌入强度。

音频水印的最早出现的时候是为了音乐、影视剧版权保护。音像设备制造商在所有的HD DVD播放器都有一个传感器监听在电影音轨中人耳无法辨识的水印,而且绝大多数视频将含有这种水印。如果HD DVD播放器侦测不到代码,这个盘片一定是直接复制而来或者是用数码录像机和麦克风从电影屏幕上翻录得来,那么播放器就会因此拒绝播放盘片。这种标记是由不同于音乐和人声的声波按照一定的模式转变成一种数字代码。这些标记无法被人耳察觉,然而HD DVD播放机和音频编辑软件却很容易使之无法正常使用。在这个系统中,另一个方法就是阻止播放一种非法盘片,这种非法盘片通过数码录像机和麦克风翻录由家庭影院播放的合法盘片获得。这种适用与家庭影院的方法利用了水印,以区别与电影的标记,从而使得播放器能够识别盘片合法与否。这种音频水印的技术要求较高,因为在音频上嵌入附加信息很容易被人耳识别出来,所以需要对每段音频进行量身特制。对音频水印技术的使用有较高局限性。随着音频水印技术的发展,根据人耳对声音接受特性衍生出新的音频水印技术。降低了技术门槛,使其广泛应用日常生活中。

音频水印在移动互联的应用多为多屏交互。在我国常用的音频水印技术的实现方式为人耳对声音的感知频率范围为20Hz~20KHz,CD的最高频率为22.05KHz、电视台和DVD的是24KHz,而其实在实际生活中人耳对18KHz以上的频率的声音几乎没有感觉。音频水印便基于这种特性将特征码以二进制的形式嵌入18~22KHZ音频中,在音频进入接收器后接收器只需对特征码进行提取和分析再和数据库中的数据进行匹配便可实现信息的及时传输。我们常用的支付宝里当面付就是采用了这一方法,当面付的特征码嵌在18.1~18.5KHz频率上,由于它的应用场景设置为近距离信息传输,所以鲁棒性不强,也就是说当你在使用当面付这一功能时距离比较远或者对着手机大吼一声支付宝就跪了。还有一些双屏互动的软件也应用了这一功能,比如说视淘,它是将特征码嵌在19KHz频率的声波上。由于他们的使用场景定位为电视互动,所以要求需要很好地透明性和鲁棒性也就是说水印的嵌入不能影响原本人们对音频的感知也需要有较高的抗噪性,技术要求较高。

联系我们

电话:400-123-4657

传真:+86-123-4567

地址:浙江 温州市 温州大道欧江大厦26188号

邮箱:admin@nxdls.net

电话:400-123-4657 传真:+86-123-4567 地址:浙江 温州市 温州大道欧江大厦26188号
版权所有:Copyright © 2002-2024 中华视窗 版权所有 非商用版本 ICP备案编号:粤IP**********    网站地图