Google DeepMind 推出「Perch 2.0」：用鸟类鸣叫训练，却在鲸豚分类上同样高精度

AI 2026-03-02 Google DeepMind, Perch 2.0, 生物声学, 海洋哺乳动物, AI 模型迁移 24 次浏览

Table 2 Marine learning transfer tasks.jpg

deepmind blog team perch.jpg

用鸟类鸣叫训练，却能识别鲸鱼和海豚

Google DeepMind 开发的生物声学基础模型 Perch 2.0，虽然主要是用鸟类等陆生动物的鸣叫声进行预训练，却在鲸鱼、海豚等海洋哺乳动物的水下声学分类任务中表现出意外优异的效果。相关研究成果目前已以预印本形式发布在 arXiv 上。

以鸟类为核心构建的大规模生物声学模型

Perch 2.0 是一个面向生物声学场景的大规模基础模型，训练数据以鸟类为主，涵盖多种陆生动物的叫声。模型从原始音频波形和频谱图中提取抽象的声学特征，并将其表示为可通用的 嵌入向量（embedding）。

这些嵌入可以作为通用特征，被下游任务复用：

直接接入简单的线性分类器
在少量标注数据上进行轻量级微调

通过这种方式，Perch 2.0 被设计成一个可迁移到多种生物声学分类任务的基础模型，而不局限于鸟类识别。

为什么“用鸟学出来的 AI”能在“鲸豚任务”上奏效？

研究的核心问题是：以陆生动物为主的预训练，为什么能在水下这一全新声学环境中依然保持高性能？

Perch 2.0 在设计时特别强调 线性探测（linear probing） 场景下的迁移能力。也就是说，在下游任务中固定预训练好的嵌入，仅训练一个简单的线性分类器，就能取得不错的效果。这种方式对计算资源和标注数据的需求都很低，非常适合生态监测等数据稀缺场景。

论文从以下几个角度解释其跨领域迁移能力：

“Bittern Lesson” 假说：在鸟类鸣叫识别中，不同物种之间的差异往往极其细微，属于难度很高的精细分类任务。在这类任务上进行大规模训练，可能迫使模型学到更加通用、精细且可泛化的声学表征，从而在其他物种和环境中也能发挥作用。
规模效应（Scaling）带来的鲁棒性：随着训练数据量和模型规模的扩大，模型在“域外任务”（如从陆地转向水下）的表现往往会更稳健，能够更好地适应此前未见过的声学分布。
发声机制的物理共性：鸟类与海洋哺乳动物在发声结构和声学物理特性上，可能存在一定程度的共通之处，使得模型学到的特征在不同物种之间仍然适用。

在海洋哺乳动物数据上的验证

研究团队使用 Perch 2.0 生成的声学嵌入，对包含鲸鱼、海豚等海洋哺乳动物的水下录音数据进行了分类实验，并采用 F1 分数、平均准确率（mAP） 等指标进行评估。

结果显示，在多个海洋哺乳动物数据集上：

Perch 2.0 的表现与现有的专用模型及其他声学基础模型相当，甚至在部分任务上有所超越；
即便只在固定嵌入上训练一个线性分类器（线性探测设置），也能取得较高分数，凸显了预训练表征本身的质量。

此外，在 few-shot（小样本） 条件下，仅使用极少量标注样本训练分类器，性能下降也相对有限。论文指出，这意味着在标注资源稀缺的情况下，依托 Perch 2.0 仍然可以构建出实用水平的海洋哺乳动物分类器。

面向生物多样性监测的应用前景

根据 Google DeepMind 官方博客的介绍，团队正尝试将生物声学 AI 应用于：

绝灭危惧物种的自动检测
大规模、长期的生态系统监测
从长时间录音中自动检索特定物种的存在证据

Perch 系列模型已与多家保育组织和研究机构合作，用于从海量录音中自动识别物种。此次关于海洋哺乳动物的实验结果，也被视为这一生物声学研究路线的重要延伸：

一方面验证了跨物种、跨环境的迁移潜力；
另一方面为在数据有限的海洋生态监测场景中部署 AI 工具提供了技术依据。

从更长远的角度看，这类通用生物声学基础模型，有望成为全球生物多样性监测基础设施的一部分，帮助研究者在更大空间和时间尺度上追踪物种动态与生态变化。

发表评论

登录后才可评论。去登录