多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。
在人工智能领域,我们一直以为顶尖的多模态大模型已经无所不能,GPT-4o在ASR(音频转文字)任务上已经达到了97%的正确率,更是凸显了强大的音频理解能力。
然而,最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini1.5Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小!
结果让人难以置信:这些顶尖的AI模型都未能准确判断出音量的差异!对于人类来说,这种问题简直是「傻瓜级」任务,然而这些大模型却纷纷失手,暴露出其在基本听觉能力上的严重缺陷。
这一发现激发了研究团队的思考:为什么如此先进的模型在听觉辨识方面如此薄弱?为了填补这一空白,研究团队首度提出了一个全新的测试工具——DeafTest,它专门用来测试多模态大模型的基础听觉能力。
不仅如此,研究团队还提出了首个全面的多模态大模型视听能力评估基准——AV-Odyssey。这一基准旨在推动未来AI模型在听觉、视觉的理解整合能力上迈向新高度。
DeafTest:多模态大模型的「听力盲点」
为了测试多模态大模型最基础的听觉能力,研究团队首先提出DeafTest,该测试包括四项基础任务:数音频中的声音次数、比较两个音频的响度、比较两个音频的音高、比较两个音频的时长。
这些任务都被设计为对人类来说极其简单的判断题,差异明显,例如:
在响度比较任务中,一个音频的响度在70-100分贝之间,而另一个音频则在30-60分贝之间。