还不如人类五岁小孩，难度为零的视觉测试，却挑战失败了

手机 2024年07月15日 16:23 508 admin

撰文|马雪薇

GPT-4o、Claude3.5Sonnet等具有视觉能力的大语言模型（LLM），是否能像人类一样感知图像？

最新研究表明，在一套人类非常容易完成的7项视觉任务（比如两个圆是否重叠、两条线是否相交等）中，Claude3.5Sonnet等四种最先进的视觉语言模型（VLM）的平均准确率只有56.2%。它们似乎并不是在真正地“看”，而是在做有根据的猜测。

相关研究论文以“Visionlanguagemodelsareblind”为题，已发表在预印本网站arXiv上。

然而，这是否意味着这些“视觉”AI模型毫无用处？远非如此。VLM在识别诸如人类行为和表情、日常物品和情境的照片等方面都表现了出很高的准确性。

正如论文作者之一AnhTottiNguyen所说：“‘盲目’对人类来说就有多种不同的定义，目前还没有一个词可以描述AI对我们展示的图像的这种盲目性，也没有技术能够准确地可视化模型看到的东西。它们的行为是输入文本提示、输入图像和数十亿权重的复杂函数。”

VLM到底有多“瞎”？

研究团队通过7项简单任务测试了VLM的视觉能力，这些任务仅涉及2D几何基元（例如，线、圆和正方形），对人类而言，只需要极少的知识即可完成。他们测试了四个SOTAVLM：GPT-4o、Gemini-1.5Pro、Claude3Sonnet和Claude3.5Sonnet。

任务一识别线的交叉点数量

在两个提示和三种线宽的情况下，还不如人类五岁小孩，难度为零的视觉测试，却挑战失败了所有VLM在这个简单任务上的表现都很差。最高准确率只有77.33%（Claude3.5Sonnet）。当两个图之间的距离变窄时，VLM的表现往往会变得更差。这表明VLM能够识别线图的整体趋势，但无法“放大”以看到精细的细节。

图|四种模型在计算线的交叉点任务上的性能

图|VLM不能可靠地计算线的交叉点。

任务二识别两个圆是否重叠

即使圆对于人类来说很大且清晰可见，也没有任何VLM能够完美解决这个问题。所有图像和提示下的最高准确率为92.78%（Gemini-1.5）。一个常见的趋势是，当两个圆靠得很近时，VLM的表现往往较差。这表明VLM的视觉似乎还不够清晰，无法看到两个圆之间的细微间隙或交点。

图|四种模型在圆圈重叠任务上的性能

图|距离越小，VLM越可能判断失败。

任务三识别被圈起来的字母

尽管有一个红色椭圆叠加在上面，所有VLM仍然能够准确地拼写出字符串。然而，读出哪个字母被圈出来对所有VLM来说竟然是一个挑战。犯错误时，VLM经常给出的结果是被圈出字母旁边的字母。有时模型会产生幻觉，给出该词中不存在的字符（例如“9”、“n”、“©”）。

除了GPT-4o之外，所有模型在两个英语单词上的表现比随机字符串略好，这表明知道单词可能有助于VLM做出更好的有根据的猜测，从而略微提高准确度。Gemini-1.5和Claude3.5Sonnet得分较高，分别为92.81%和89.22%，比GPT-4o和Claude3Sonnet的准确率高出近20个百分点。

图|四种模型在识别圈出的字母任务上的性能

图|当犯错误时，VLM倾向于预测与圈出的字母相邻的字母。

图|模型会产生幻觉，给出该词中不存在的字符（例如“9”、“n”、“©”）。

任务四识别重叠形状的数量

无论形状是重叠的还是嵌套的，这两种情况似乎都对VLM构成了挑战。在计数重叠的圆和五边形的任务上，Claude3.5Sonnet的表现比其他模型好得多（例如，75.83%对应Gemini-1.5的9.16%）。当圆环数量超过五个且VLM预测的数量不正确时，Gemini-1.5有98.95%的时间预测为“5”，而不管实际圆环的数量是多少。对于其他模型，这种情况的发生频率也比五边形的情况要高得多。这是因为它们都在训练数据中显著地包含了五个圆环的图像：奥运会环标志。这个标志在训练数据中重复出现，所以它们倾向于猜测“5”。

图|四种模型在识别重叠的圆圈/五边形数量上的性能

图|无论圆的颜色、线宽和分辨率如何，VLM都不容易计数重叠的圆。

任务五识别嵌套的正方形数量

GPT-4o和Claude3Sonnet在计数两个或三个嵌套正方形时仍显得吃力。当计数增加到四个和五个时，所有模型的准确性都远低于100%。结果显示，即使形状的边缘不交叉，VLM提取形状的精确表示也并非易事。

图|四种模型在识别嵌套方形数量任务上的性能

图|只有Claude3.5Sonnet能数出大多数图像中的正方形。

任务六识别网格的行和列的数量

VLM难以准确计算空网格中的行数和列数。具体来说，它们的计数通常会偏差1或2。这一发现表明，VLM不能清晰地看到表格的每个单元格。有趣的是，研究团队在尝试通过在每个单元格中添加一个单词来简化任务后，观察到所有VLMs的准确性都有显著提高（例如，GPT-4o从26.13%提高到53.03%）。然而，没有任何模型能够完美解决这个任务，即使是最优秀的模型（Claude3.5Sonnet）在包含文本的网格上表现最佳，准确率为88.68%，而在空网格上的准确率仅为59.84%。

图|四种模型在计算网格中的行和列时的性能

图|示例表明，模型在计算空白网格的行和列时大都失败。

图|当文本包含在网格单元中时，所有VLM的性能都得到了提高，尤其是Claude3.5Sonnet。

任务七识别站点间单色路径的数量

结果表明即使在两个站点之间只有一条路径的情况下，也没有模型能够达到100%的准确性（最高的是Claude3.5Sonnet，达到95%；最差的准确率为23.75%）。VLM的预测通常偏差1到3条路径。随着地图复杂性的增加，从1条路径增加到3条路径，大多数VLM的表现变得更差。

图|四种模型在站点间单色路径计数任务上的性能。

图|一些VLM（Gemini-1.5,Claude3Sonnet）甚至在非常简单的情况下也会失败。随着路径数量的增加，VLM的性能往往会变差。

早期融合或是未来发展方向

实验结果表明，即使是最佳的VLM仍然在努力解决一个五岁小孩都能轻易解决的问题。这些限制可能很大程度上是由于将视觉整合到LLM中的晚期融合（late-fusion）方法，而早期融合（early-fusion）可能是未来的发展方向，即将视觉编码器与语言模型在更早的阶段融合，例如在tokenembedding阶段或视觉特征提取阶段进行融合。

此外，研究团队还发现，简单地使用LORA在提出的任务上微调一个7B参数的、最先进的晚期融合开源VLM，并不能得到一个高性能的模型。也就是说，训练一个在BlindTest上表现良好的单一模型可能是一个有趣的未来研究方向。

标签：还不如人类五岁小孩难度为零的视觉测试却挑战失败了

还不如人类五岁小孩，难度为零的视觉测试，却挑战失败了

经济日报：银行业有能力应对息差下行压力

马斯克忽悠

热门文章