首页 手机文章正文

还不如人类五岁小孩,难度为零的视觉测试,却挑战失败了

手机 2024年07月15日 16:23 508 admin

撰文|马雪薇

GPT-4o、Claude3.5Sonnet等具有视觉能力的大语言模型(LLM),是否能像人类一样感知图像?

最新研究表明,在一套人类非常容易完成的7项视觉任务(比如两个圆是否重叠、两条线是否相交等)中,Claude3.5Sonnet等四种最先进的视觉语言模型(VLM)的平均准确率只有56.2%。它们似乎并不是在真正地“看”,而是在做有根据的猜测。

相关研究论文以“Visionlanguagemodelsareblind”为题,已发表在预印本网站arXiv上。

然而,这是否意味着这些“视觉”AI模型毫无用处?远非如此。VLM在识别诸如人类行为和表情、日常物品和情境的照片等方面都表现了出很高的准确性。

正如论文作者之一AnhTottiNguyen所说:“‘盲目’对人类来说就有多种不同的定义,目前还没有一个词可以描述AI对我们展示的图像的这种盲目性,也没有技术能够准确地可视化模型看到的东西。它们的行为是输入文本提示、输入图像和数十亿权重的复杂函数。”

VLM到底有多“瞎”?

研究团队通过7项简单任务测试了VLM的视觉能力,这些任务仅涉及2D几何基元(例如,线、圆和正方形),对人类而言,只需要极少的知识即可完成。他们测试了四个SOTAVLM:GPT-4o、Gemini-1.5Pro、Claude3Sonnet和Claude3.5Sonnet。

任务一识别线的交叉点数量

在两个提示和三种线宽的情况下,还不如人类五岁小孩,难度为零的视觉测试,却挑战失败了所有VLM在这个简单任务上的表现都很差。最高准确率只有77.33%(Claude3.5Sonnet)。当两个图之间的距离变窄时,VLM的表现往往会变得更差。这表明VLM能够识别线图的整体趋势,但无法“放大”以看到精细的细节。

图|四种模型在计算线的交叉点任务上的性能

图|VLM不能可靠地计算线的交叉点。

任务二识别两个圆是否重叠

即使圆对于人类来说很大且清晰可见,也没有任何VLM能够完美解决这个问题。所有图像和提示下的最高准确率为92.78%(Gemini-1.5)。一个常见的趋势是,当两个圆靠得很近时,VLM的表现往往较差。这表明VLM的视觉似乎还不够清晰,无法看到两个圆之间的细微间隙或交点。

图|四种模型在圆圈重叠任务上的性能

图|距离越小,VLM越可能判断失败。

任务三识别被圈起来的字母

尽管有一个红色椭圆叠加在上面,所有VLM仍然能够准确地拼写出字符串。然而,读出哪个字母被圈出来对所有VLM来说竟然是一个挑战。犯错误时,VLM经常给出的结果是被圈出字母旁边的字母。有时模型会产生幻觉,给出该词中不存在的字符(例如“9”、“n”、“©”)。

除了GPT-4o之外,所有模型在两个英语单词上的表现比随机字符串略好,这表明知道单词可能有助于VLM做出更好的有根据的猜测,从而略微提高准确度。Gemini-1.5和Claude3.5Sonnet得分较高,分别为92.81%和89.22%,比GPT-4o和Claude3Sonnet的准确率高出近20个百分点。

图|四种模型在识别圈出的字母任务上的性能

图|当犯错误时,VLM倾向于预测与圈出的字母相邻的字母。

图|模型会产生幻觉,给出该词中不存在的字符(例如“9”、“n”、“©”)。

任务四识别重叠形状的数量

无论形状是重叠的还是嵌套的,这两种情况似乎都对VLM构成了挑战。在计数重叠的圆和五边形的任务上,Claude3.5Sonnet的表现比其他模型好得多(例如,75.83%对应Gemini-1.5的9.16%)。当圆环数量超过五个且VLM预测的数量不正确时,Gemini-1.5有98.95%的时间预测为“5”,而不管实际圆环的数量是多少。对于其他模型,这种情况的发生频率也比五边形的情况要高得多。这是因为它们都在训练数据中显著地包含了五个圆环的图像:奥运会环标志。这个标志在训练数据中重复出现,所以它们倾向于猜测“5”。

图|四种模型在识别重叠的圆圈/五边形数量上的性能

图|无论圆的颜色、线宽和分辨率如何,VLM都不容易计数重叠的圆。

任务五识别嵌套的正方形数量

GPT-4o和Claude3Sonnet在计数两个或三个嵌套正方形时仍显得吃力。当计数增加到四个和五个时,所有模型的准确性都远低于100%。结果显示,即使形状的边缘不交叉,VLM提取形状的精确表示也并非易事。

图|四种模型在识别嵌套方形数量任务上的性能

图|只有Claude3.5Sonnet能数出大多数图像中的正方形。

任务六识别网格的行和列的数量

VLM难以准确计算空网格中的行数和列数。具体来说,它们的计数通常会偏差1或2。这一发现表明,VLM不能清晰地看到表格的每个单元格。有趣的是,研究团队在尝试通过在每个单元格中添加一个单词来简化任务后,观察到所有VLMs的准确性都有显著提高(例如,GPT-4o从26.13%提高到53.03%)。然而,没有任何模型能够完美解决这个任务,即使是最优秀的模型(Claude3.5Sonnet)在包含文本的网格上表现最佳,准确率为88.68%,而在空网格上的准确率仅为59.84%。

图|四种模型在计算网格中的行和列时的性能

图|示例表明,模型在计算空白网格的行和列时大都失败。

图|当文本包含在网格单元中时,所有VLM的性能都得到了提高,尤其是Claude3.5Sonnet。

任务七识别站点间单色路径的数量

结果表明即使在两个站点之间只有一条路径的情况下,也没有模型能够达到100%的准确性(最高的是Claude3.5Sonnet,达到95%;最差的准确率为23.75%)。VLM的预测通常偏差1到3条路径。随着地图复杂性的增加,从1条路径增加到3条路径,大多数VLM的表现变得更差。

图|四种模型在站点间单色路径计数任务上的性能。

图|一些VLM(Gemini-1.5,Claude3Sonnet)甚至在非常简单的情况下也会失败。随着路径数量的增加,VLM的性能往往会变差。

早期融合或是未来发展方向

实验结果表明,即使是最佳的VLM仍然在努力解决一个五岁小孩都能轻易解决的问题。这些限制可能很大程度上是由于将视觉整合到LLM中的晚期融合(late-fusion)方法,而早期融合(early-fusion)可能是未来的发展方向,即将视觉编码器与语言模型在更早的阶段融合,例如在tokenembedding阶段或视觉特征提取阶段进行融合。

此外,研究团队还发现,简单地使用LORA在提出的任务上微调一个7B参数的、最先进的晚期融合开源VLM,并不能得到一个高性能的模型。也就是说,训练一个在BlindTest上表现良好的单一模型可能是一个有趣的未来研究方向。

标签: 还不如人类五岁小孩难度为零的视觉测试却挑战失败了

卓越科技网 网站地图 免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052 版权所有:卓越科技网 沪ICP备2023023636号-5