为什么人类会进化出如今的眼睛?
科学家无法回到过去直接研究塑造自然界多样视觉系统的环境压力,但麻省理工学院(MIT)研究人员开发了一种新的计算框架,使他们能够在人工智能代理中模拟视觉系统的进化过程。
该框架让具身AI代理在多代进化中演化出眼睛并学习视觉,宛如一个“科学沙盒”,研究人员可以通过改变世界结构和AI代理完成的任务(如寻找食物或区分物体)来重现不同的进化树。
这使得研究者能够探究为何某些动物进化出简单的光敏斑点作为眼睛,而另一些则拥有复杂的摄像机式眼睛。
研究团队的实验表明,任务类型对眼睛的进化起到了关键作用。例如,导航任务往往促使代理进化出类似昆虫和甲壳类动物的复眼,拥有许多个体单元;而专注于物体识别的代理更可能进化出带有虹膜和视网膜的摄像机式眼睛。
该框架为科学家提供了探讨视觉系统“假设性问题”的新途径,这些问题在实验中难以研究。同时,它还能指导机器人、无人机和可穿戴设备中传感器和摄像头的设计,兼顾性能与现实中的能效和制造限制。
“虽然我们无法回溯进化的每个细节,但通过这项工作,我们创造了一个环境,能够在某种意义上重现进化过程,并从多角度探究环境因素。这种科学方法开启了许多可能性的大门,”MIT媒体实验室研究生、论文共同第一作者Kushagra Tiwary表示。
论文的其他作者包括共同第一作者Aaron Young、研究生Tzofi Klinghoffer、现任石溪大学助理教授Akshat Dave、脑与认知科学系Eugene McDermott教授Tomaso Poggio、脑、心智与机器中心博士后Brian Cheung(即将任职加州大学旧金山分校助理教授)、媒体艺术与科学副教授Ramesh Raskar(MIT摄像文化组负责人)以及来自莱斯大学和隆德大学的研究人员。该研究发表在《Science Advances》杂志上。
构建科学沙盒
研究始于团队讨论如何发现适用于机器人等领域的新型视觉系统。为验证“假设性问题”,他们决定利用人工智能探索多种进化可能性。
“假设性问题激励我投身科学研究。借助AI,我们有机会创造具身代理,提出通常难以回答的问题,”Tiwary说。
研究人员将摄像机的各个组成部分——传感器、镜头、光圈和处理器——转化为具身AI代理可学习的参数,作为算法学习机制的基础,模拟眼睛随时间进化的过程。
“我们无法逐原子模拟整个宇宙,挑战在于确定哪些元素必需,哪些可省,以及如何分配资源,”Cheung说。
在框架中,进化算法根据环境约束和代理任务选择进化的元素。

每个环境设定单一任务,如导航、食物识别或猎物追踪,模拟动物为生存必须克服的视觉挑战。代理从单个光感受器和相应的神经网络模型开始,逐步学习处理视觉信息。
代理通过强化学习——一种基于试错并获得奖励的训练方法——在生命周期内不断优化完成任务的能力。环境还设定了视觉传感器的像素数量等限制。
“这些限制推动设计过程,就像物理世界中光学物理限制塑造了我们眼睛的设计一样,”Tiwary说。
经过多代进化,代理演化出最大化奖励的不同视觉系统元素。
框架采用遗传编码机制模拟进化,个体基因突变控制代理的发育过程。
例如,形态基因决定代理如何观察环境及眼睛位置;光学基因控制眼睛与光的交互及光感受器数量;神经基因则调控代理的学习能力。
验证假设
实验显示,任务类型显著影响代理进化的视觉系统。
专注导航的代理发展出低分辨率感知以增强空间感知的眼睛,而专注物体识别的代理则进化出更注重正面视力的眼睛,牺牲了周边视觉。
另一项实验表明,视觉信息处理并非脑容量越大越好。由于物理限制(如眼中光感受器数量),系统一次能处理的信息有限。
“脑容量过大反而无益,且在自然界中会浪费资源,”Cheung指出。
未来,研究团队计划利用该模拟器探索针对特定应用的最佳视觉系统,助力开发任务专用传感器和摄像头。同时,他们希望将大型语言模型(LLM)整合进框架,方便用户提出更多“假设性问题”,拓展研究可能性。
“用更具想象力的方式提问带来真正益处。我希望这能激励更多人构建更大规模的框架,不局限于狭窄领域,而是解答更广泛的问题,”Cheung说。
本研究部分由脑、心智与机器中心及国防高级研究计划局(DARPA)算法与架构发现数学项目(DIAL)资助。
