Meta AI 研究团队今日推出了全新的开源基准数据集——OpenEQA。这一数据集的设计初衷是为了评估AI系统在“体验式问答”方面的实力,即AI能否深度理解现实世界,从而准确回答涉及周边环境的自然语言提问。Meta AI 研究团队今日推出了全新的开源基准数据集——OpenEQA
OpenEQA被Meta视为衡量“体验智能”的重要标准。它包含了超过1600个涉及180多个真实环境(家庭和办公室等)的问题。这些问题覆盖七大类别,深入测试AI在物体与属性识别、空间与功能推理,以及常识性知识等多方面的能力。
在相关的研究论文中,研究团队定义了“体验式问答”(EQA):“在充分理解环境的基础上,以自然语言回答关于该环境的问题。”
OpenEQA项目融合了多个AI领域的热点:计算机视觉、自然语言处理、知识表征和机器人技术。其长远目标是开发出能感知并与世界互动、与人类自然交流,且能运用知识辅助我们日常生活的人工智能代理。
研究团队认为,“体验智能”在短期内有两大主要应用场景。首先是作为增强现实眼镜或头戴显示器的AI助手,能够通过视频和其他传感器数据为用户提供记忆辅助,回答如“我的钥匙放在哪里了?”这类问题。其次是用于移动机器人,让它们能自主探索环境以获取信息,例如在家中搜索并回答“家里还有咖啡吗?”这类问题。
为构建OpenEQA数据集,Meta研究人员首先搜集了真实环境的视频和3D扫描数据。随后,他们向人们展示这些视频,并要求他们提出可能想询问能够访问这些视觉数据的AI助手的问题。
最终,研究团队汇总了1636个问题,全面测试了各种感知与推理能力。为了评估AI代理的性能,他们采用了大型语言模型进行自动评分,通过衡量AI生成的答案与人类答案的相似度来进行评价。