Google DeepMind 推出「Perch 2.0」:用鸟类鸣叫训练,却在鲸豚分类上同样高精度

richlovec 1500_400 (1)
 

Table 2  Marine learning transfer tasks.jpg

tsne_32_combined.png

22193247_m.jpg

deepmind blog team perch.jpg

用鸟类鸣叫训练,却能识别鲸鱼和海豚

Google DeepMind 开发的生物声学基础模型 Perch 2.0,虽然主要是用鸟类等陆生动物的鸣叫声进行预训练,却在鲸鱼、海豚等海洋哺乳动物的水下声学分类任务中表现出意外优异的效果。相关研究成果目前已以预印本形式发布在 arXiv 上。

以鸟类为核心构建的大规模生物声学模型

Perch 2.0 是一个面向生物声学场景的大规模基础模型,训练数据以鸟类为主,涵盖多种陆生动物的叫声。模型从原始音频波形和频谱图中提取抽象的声学特征,并将其表示为可通用的 嵌入向量(embedding)

这些嵌入可以作为通用特征,被下游任务复用:

  • 直接接入简单的线性分类器
  • 在少量标注数据上进行轻量级微调

通过这种方式,Perch 2.0 被设计成一个可迁移到多种生物声学分类任务的基础模型,而不局限于鸟类识别。

为什么“用鸟学出来的 AI”能在“鲸豚任务”上奏效?

研究的核心问题是:以陆生动物为主的预训练,为什么能在水下这一全新声学环境中依然保持高性能?

Perch 2.0 在设计时特别强调 线性探测(linear probing) 场景下的迁移能力。也就是说,在下游任务中固定预训练好的嵌入,仅训练一个简单的线性分类器,就能取得不错的效果。这种方式对计算资源和标注数据的需求都很低,非常适合生态监测等数据稀缺场景。

论文从以下几个角度解释其跨领域迁移能力:

  • “Bittern Lesson” 假说: 在鸟类鸣叫识别中,不同物种之间的差异往往极其细微,属于难度很高的精细分类任务。在这类任务上进行大规模训练,可能迫使模型学到更加通用、精细且可泛化的声学表征,从而在其他物种和环境中也能发挥作用。

  • 规模效应(Scaling)带来的鲁棒性: 随着训练数据量和模型规模的扩大,模型在“域外任务”(如从陆地转向水下)的表现往往会更稳健,能够更好地适应此前未见过的声学分布。

  • 发声机制的物理共性: 鸟类与海洋哺乳动物在发声结构和声学物理特性上,可能存在一定程度的共通之处,使得模型学到的特征在不同物种之间仍然适用。

在海洋哺乳动物数据上的验证

研究团队使用 Perch 2.0 生成的声学嵌入,对包含鲸鱼、海豚等海洋哺乳动物的水下录音数据进行了分类实验,并采用 F1 分数平均准确率(mAP) 等指标进行评估。

结果显示,在多个海洋哺乳动物数据集上:

  • Perch 2.0 的表现与现有的专用模型及其他声学基础模型相当,甚至在部分任务上有所超越;
  • 即便只在固定嵌入上训练一个线性分类器(线性探测设置),也能取得较高分数,凸显了预训练表征本身的质量。

此外,在 few-shot(小样本) 条件下,仅使用极少量标注样本训练分类器,性能下降也相对有限。论文指出,这意味着在标注资源稀缺的情况下,依托 Perch 2.0 仍然可以构建出实用水平的海洋哺乳动物分类器。

面向生物多样性监测的应用前景

根据 Google DeepMind 官方博客的介绍,团队正尝试将生物声学 AI 应用于:

  • 绝灭危惧物种的自动检测
  • 大规模、长期的生态系统监测
  • 从长时间录音中自动检索特定物种的存在证据

Perch 系列模型已与多家保育组织和研究机构合作,用于从海量录音中自动识别物种。此次关于海洋哺乳动物的实验结果,也被视为这一生物声学研究路线的重要延伸:

  • 一方面验证了跨物种、跨环境的迁移潜力;
  • 另一方面为在数据有限的海洋生态监测场景中部署 AI 工具提供了技术依据。

从更长远的角度看,这类通用生物声学基础模型,有望成为全球生物多样性监测基础设施的一部分,帮助研究者在更大空间和时间尺度上追踪物种动态与生态变化。


分享:


发表评论

登录后才可评论。 去登录