Google新非监督式技术MixIT可助鸟类学家分离野外鸟鸣,以方便进行鸟类辨识分类

Google在GitHub上开源最新的鸟鸣分离模型MixIT,能够在「百鸟争鸣」的录音中,良好地分离鸟鸣声,有助于后续以鸟鸣辨识鸟种的分类运算

Google新非监督式技术MixIT可助鸟类学家分离野外鸟鸣,以方便进行鸟类辨识分类

谷歌开发出新的非监督式鸟鸣分离技术MixIT(Mixture Invariant Training),这个新方法能以更精确的方式分离鸟鸣,并且改善鸟类分类,而现在 谷歌 已经在GitHub上,开源这个最新的鸟鸣分离模型。

生态学家透过掌握鸟类种类,了解森林中食物系统以及健康程度,像是当森林中有比较多的啄木鸟,就代表森林可能存在更多的枯木,而由于鸟类透过鸣叫来交流和标记领地,因此透过鸟鸣声来辨识鸟类,是最有效率的方法,谷歌提到,鸟类专家可以靠听觉辨识出的鸟类,是视觉的10倍。

由于近年自动录音单元(ARU)的发展,鸟类学家已经能简单地在森林中,录制数千小时的音频,透过解析这些音频,就能更好地了解生态系统,不过,由人工查看音频资料非常耗时,而且鸟类专家又不足,因此借助机器学习方法,将可以大幅地减少专家审查这些音频的负担。

不过目前基于机器学习的鸟类音频分类方法,存在一些挑战,主要的问题在于,许多鸟类活跃的时间都是在黄昏,因此几乎没有清晰的个体鸟类纪录可供学习,大多数可用的数据集,都是在户外嘈杂的环境下纪录,常伴随风、昆虫和其他环境来源的声音。 所以目前鸟鸣分类模型,难以辨识安静、遥远和重叠的声音。

此外,一些常见的鸟种,当声音出现在不常见鸟种的训练数据中,这些常见的鸟种很少被标记,因此反而模型对常见鸟种的辨识度大打折扣,而更好的鸟鸣辨识能力,对于想要使用自动化系统,辨识濒危或是入侵物种的生态学家来说非常重要。

谷歌最新的非监督式方法MixIT,能够良好地解决这些问题,MixIT可学会将单声道录音,分离成多个独立音轨,并且完全使用真实世界嘈杂的录音进行训练。 研究人员将两个真实世界录音混合在一起成MoM(Mixture of Mixtures),以训练分离模型,分离模型要学会最小化损失函数,来将两个作为基准真相的原始录音分开。

但由于分离模型无法知道MoM中,不同声音在原始录音中被组合的方式,因此别无选择地,只能将各个声音分开,进而学会将每只发出鸣叫的鸟,放在不同的输出声道中,而这也同时把风和其他背景噪音分开。

研究人员对ARU所捕捉到的音频进行鸟类分类,他们先将音频以每5秒钟切成一个片段,然后创建每个片段的梅尔频谱(Mel-spectrogram),接着训练EfficientNet分类器,从梅尔频谱图像中,辨识鸟类。

在进行分类之前,先使用MixIT模型分离音频,可以提高分类器处理真实数据集的效能,MixIT分离技术对于辨识较为安静的鸟类特别有用,而且在许多情况下,也能有助于辨识重叠的鸟鸣,但分离模型确实有一些潜在的限制,音频可能会被过度分离导致错误分类。

谷歌正与加州科学院合作,以了解在策略烧除(Prescribed Burn)和野火之后,鸟类栖地和物种混合的变化,研究人员也提到,这个模型有许多潜在应用,不只是鸟类,也能够被用来追踪昆虫或是各种动物。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论