Google新非监督式技术MixIT可助鸟类学家分离野外鸟鸣，以方便进行鸟类辨识分类

cnBeta • 2023年8月25日 15:50 • 投稿

谷歌开发出新的非监督式鸟鸣分离技术MixIT（Mixture Invariant Training），这个新方法能以更精确的方式分离鸟鸣，并且改善鸟类分类，而现在谷歌已经在GitHub上，开源这个最新的鸟鸣分离模型。

生态学家透过掌握鸟类种类，了解森林中食物系统以及健康程度，像是当森林中有比较多的啄木鸟，就代表森林可能存在更多的枯木，而由于鸟类透过鸣叫来交流和标记领地，因此透过鸟鸣声来辨识鸟类，是最有效率的方法，谷歌提到，鸟类专家可以靠听觉辨识出的鸟类，是视觉的10倍。

由于近年自动录音单元（ARU）的发展，鸟类学家已经能简单地在森林中，录制数千小时的音频，透过解析这些音频，就能更好地了解生态系统，不过，由人工查看音频资料非常耗时，而且鸟类专家又不足，因此借助机器学习方法，将可以大幅地减少专家审查这些音频的负担。

不过目前基于机器学习的鸟类音频分类方法，存在一些挑战，主要的问题在于，许多鸟类活跃的时间都是在黄昏，因此几乎没有清晰的个体鸟类纪录可供学习，大多数可用的数据集，都是在户外嘈杂的环境下纪录，常伴随风、昆虫和其他环境来源的声音。所以目前鸟鸣分类模型，难以辨识安静、遥远和重叠的声音。

此外，一些常见的鸟种，当声音出现在不常见鸟种的训练数据中，这些常见的鸟种很少被标记，因此反而模型对常见鸟种的辨识度大打折扣，而更好的鸟鸣辨识能力，对于想要使用自动化系统，辨识濒危或是入侵物种的生态学家来说非常重要。

谷歌最新的非监督式方法MixIT，能够良好地解决这些问题，MixIT可学会将单声道录音，分离成多个独立音轨，并且完全使用真实世界嘈杂的录音进行训练。研究人员将两个真实世界录音混合在一起成MoM（Mixture of Mixtures），以训练分离模型，分离模型要学会最小化损失函数，来将两个作为基准真相的原始录音分开。

但由于分离模型无法知道MoM中，不同声音在原始录音中被组合的方式，因此别无选择地，只能将各个声音分开，进而学会将每只发出鸣叫的鸟，放在不同的输出声道中，而这也同时把风和其他背景噪音分开。

研究人员对ARU所捕捉到的音频进行鸟类分类，他们先将音频以每5秒钟切成一个片段，然后创建每个片段的梅尔频谱（Mel-spectrogram），接着训练EfficientNet分类器，从梅尔频谱图像中，辨识鸟类。

在进行分类之前，先使用MixIT模型分离音频，可以提高分类器处理真实数据集的效能，MixIT分离技术对于辨识较为安静的鸟类特别有用，而且在许多情况下，也能有助于辨识重叠的鸟鸣，但分离模型确实有一些潜在的限制，音频可能会被过度分离导致错误分类。

谷歌正与加州科学院合作，以了解在策略烧除（Prescribed Burn）和野火之后，鸟类栖地和物种混合的变化，研究人员也提到，这个模型有许多潜在应用，不只是鸟类，也能够被用来追踪昆虫或是各种动物。