佛罗里达自然历史博物馆脊椎动物古生物学退休馆长、佛罗里达大学杰出荣誉教授布鲁斯·麦克法登参与的一项新研究提出,训练基于图像的人工智能算法用于化石识别,所需标本数量可能低于此前预期:约250件化石即可取得稳定表现。研究论文已发表于《古生物学》期刊。
研究团队将这一问题与脊椎动物古生物学长期面临的“样本数量”难题联系起来。研究人员指出,单个化石通常只能提供有限信息;若要在科学上可接受的确定性下回答更多问题,往往需要同一物种的多件、且类型相同的化石进行对比。现实中,脊椎动物化石记录较为零散,完整或接近完整的骨骼发现并不常见。麦克法登表示,脊椎动物骨骼由200多块骨头组成,找到完整或近完整骨架的概率很低。
在实验室工作中,碎片化标本的鉴定难度较高,即便来自同一物种、同一类型的骨骼或牙齿,形态重叠也可能不足以支持有效比较。研究团队称,物种鉴定,尤其是对破碎碎片的鉴定,常被古生物学家视为最耗时的环节之一。

佛罗里达自然历史博物馆的脊椎动物化石收藏超过一百万件,其中还包括数百袋富含化石的砂土等待筛选、分类与鉴定。麦克法登表示,每袋沉积物可能包含成千上万的小型脊椎动物化石碎片,例如微小的鲨鱼牙齿和鱼刺。这种“标本堆积与鉴定产出不匹配”的状况,被研究团队视为潜在的工作瓶颈,也促使其评估人工智能在加速鉴定方面的可行性。
研究指出,人工智能在古生物学部分分支已有应用先例。例如,孢粉学研究中常面对大量孢子与花粉粒,相关领域自20世纪80年代起便开始借助人工智能辅助鉴定并持续改进。但在脊椎动物等化石相对稀缺的类群中,训练模型所需的标本数量此前并不明确。
为确定可接受的准确率阈值,研究团队选择鲨鱼牙齿作为测试对象。研究人员解释,鲨鱼骨骼主要由软骨构成,通常难以化石化,而牙齿更坚固耐用,常在沉积层中大量保存,因而更易获得足够数量的可识别标本。

研究团队将对象聚焦于新近纪(距今2300万年至260万年前)的六个鲨鱼物种,其中既包括已灭绝的巨齿鲨,也包括现生的大白鲨(Carcharodon carcharias)。团队为“SharkAI”图像库拍摄了佛罗里达自然历史博物馆馆藏的数千件鲨鱼牙齿标本,并为补充虎鲨与大白鲨灭绝祖先的牙齿样本,联系了长期合作的业余古生物学者与化石收藏者借用标本,包括退休高中教师李·科恩,以及芭芭拉·费特和C. 奥康纳。
在模型构建方面,研究团队采用计算机视觉方法开展训练与测试。论文称,团队成员起初缺乏编程经验,随后寻求软件开发支持。模型微调主要由佛罗里达那不勒斯Adaptive Computing公司的合著者克里斯托巴尔·巴贝里斯完成;佛罗里达自然历史博物馆首位人工智能馆长亚瑟·波尔图参与训练与测试,并采用三步法推进。
研究团队先以每个物种500张带标签图像分批输入模型(每批50张),比较不同数量下的表现;随后在取消辅助条件下,为模型提供每个物种25张无标签图像,测试其自主识别能力。

麦克法登表示,测试结果显示模型准确率超过90%,并在约250件标本时进入平台期。研究团队据此认为,继续增加标本数量可能带来小幅提升,但增益有限。波尔图则表示,在更低样本量下也获得较高表现:仅用50件标本训练,准确率仍达到至少93%。
研究团队称,这一结果意味着,对于标本数量有限的物种,较少样本也可能足以支持基于图像的人工智能识别。论文同时提到,团队还在推进将化石资源引入K-12课堂的工作,并设想未来学生可借助人工智能,根据牙齿形态及其捕食对象类型,对资源库中的鲨鱼牙齿图像进行分类。