面向视力障碍者的AI视觉辅助工具仍有改进空间

科学 2026-04-20 人工智能, 无障碍技术, 多模态大模型, 视力障碍, 人机交互 2 次浏览

人工智能几乎已经渗透到生活的各个角落，其中就包括为盲人和低视力（BLV）人士提供支持的辅助技术。与其他应用场景类似，面向BLV人群的AI工具整体表现不错，却距离“可靠无误”还有明显差距。

康奈尔科技的研究团队在一项包含 20 名视力障碍参与者的研究中发现，他们基于多模态大型语言模型开发的应用，可以帮助BLV人士理解周围环境，对一般性的“这是什么？”类问题应对良好，但在处理更复杂的任务时——例如细致描述艺术作品——表现就不够理想。研究人员据此提出了九项可提升模型智能表现的“技能”。

康奈尔科技、雅各布斯理工-康奈尔学院以及康奈尔安·S·鲍尔斯计算与信息科学学院副教授 Shiri Azenkot 表示：“这项技术在解读视觉信息方面已经取得了很大进步，确实在帮助人们。但与此同时，我们希望它能持续变得更好，因此必须先弄清楚目前还存在哪些不足。”

人机交互方向博士生 Ricardo Gonzalez 是论文《多模态大型语言模型如何支持视力信息获取：盲人和低视力人士的日记研究》的第一作者。他在 2026 年 4 月 13 日至 17 日于西班牙巴塞罗那举行的计算机人因工程协会（ACM）人因计算系统会议 CHI 26 上报告了这项研究成果。

除资深作者 Azenkot 外，合著者还包括信息科学博士生、2025 届硕士生 Crescentia Jung；研究助理、2025 届硕士生 Sharon Lin；以及现任 Snap 软件工程师、2025 届硕士生 Ruiying Hu。相关论文收录于《2026 年 CHI 人因计算系统会议论文集》。

Azenkot 领导的 Enhancing Ability 实验室专注于让残障人士能够平等获取信息。对她而言，这项研究也带有个人意义：她本身是合法盲人，日常依靠导盲犬出行。

她指出，近年来人工智能对残障与无障碍技术领域的影响愈发明显。“作为一名视力障碍者，同时也是这些技术的使用者，我能非常直接地感受到它们在我日常生活中带来的变化。”

在这项研究中，Gonzalez 开发了一款视觉解读应用——一款智能手机 App，用户拍摄场景照片后，系统会给出反馈和说明。

“通过这款应用，你可以拍一页文字、你的电脑屏幕，甚至是一列正在行驶的火车，它都会尝试解读并告诉你画面里有什么。”Azenkot 介绍道。

团队采用的是多模态大型语言模型（MLLM），它在传统大型语言模型推理能力的基础上，加入了对图像、音频和视频等多种模态信息的接收、分析与输出能力。Gonzalez 强调，使用自己搭建的系统进行实验非常关键。

“通过完全掌控应用的内部机制，”他说，“我们可以在真实环境中部署研究，收集真正反映这些系统如何影响人们日常生活的数据。”

研究团队基于 GPT-4o 开发了一款名为 VisionPal 的 iPhone 应用，并招募了 20 名视力障碍程度各不相同的 BLV 参与者。研究在 2024 年 10 月至 12 月期间以日记研究的形式开展，每位参与者使用 VisionPal 两周，并记录使用体验。

每条日记记录都包括参与者拍摄的照片、照片的文字说明、参与者与 MLLM 的对话内容，以及参与者每天至少填写一次的简短问卷调查。

研究团队最终收集了数百次交互记录。结果显示，尽管参与者整体上对系统的满意度和信任度较高，但应用仍存在明显局限。尤其是在对初步视觉解读进行后续追问时——例如继续阅读烹饪步骤或药物剂量说明——VisionPal 仅有 56.6% 的回答是正确的，另有 22.2% 的回答包含错误信息。

“这些模型发展得非常快，”Gonzalez 说，“它们确实已经很有用，但我们仍需要持续审视它们，以了解这些系统在真实生活中可能带来的风险。”

为此，研究团队提出了“视觉助手”技能——即 MLLM 在提供视觉辅助时应具备的九类关键行为，以确保输出既与用户目标相关，又足够可靠。这些技能包括：

中立的事实沟通：保持客观，不加入不必要的主观判断；
适应性沟通协议：尽早确认并适应用户的沟通偏好；
目标导向协作：围绕用户当前目标，只传达与其环境和任务相关的信息；
透明的不确定性处理：在不确定或能力有限时主动说明，而不是“装懂”；
优雅的交接：在自身能力不足时，将问题转交给更合适的资源，或坦诚承认缺乏相关专业知识。

“我想强调的是，我确实认为这项技术已经取得了长足进步，”Azenkot 说，“但当我试图进一步改进这些技术时，首先遇到的总是与人相关的问题：人们真正需要什么？我们怎样才能更好地支持这些需求？”

“人应该始终处于中心位置，”Gonzalez 总结道，“因为这些工具存在的根本目的，就是满足人们的需求并改善他们的生活。”

发表评论

登录后才可评论。去登录