在21世纪初,手机市场正在经历着一场前所未有的变革,诺基亚,这个来自芬兰的品牌,凭借其卓越的技术和独特的设计理念,在这场变革中扮演了至关重要的角色,诺...
2024-09-22 1
撰文|马雪薇
GPT-4o、Claude3.5Sonnet等具有视觉能力的大语言模型(LLM),是否能像人类一样感知图像?
最新研究表明,在一套人类非常容易完成的7项视觉任务(比如两个圆是否重叠、两条线是否相交等)中,Claude3.5Sonnet等四种最先进的视觉语言模型(VLM)的平均准确率只有56.2%。它们似乎并不是在真正地“看”,而是在做有根据的猜测。
相关研究论文以“Visionlanguagemodelsareblind”为题,已发表在预印本网站arXiv上。
然而,这是否意味着这些“视觉”AI模型毫无用处?远非如此。VLM在识别诸如人类行为和表情、日常物品和情境的照片等方面都表现了出很高的准确性。
正如论文作者之一AnhTottiNguyen所说:“‘盲目’对人类来说就有多种不同的定义,目前还没有一个词可以描述AI对我们展示的图像的这种盲目性,也没有技术能够准确地可视化模型看到的东西。它们的行为是输入文本提示、输入图像和数十亿权重的复杂函数。”
VLM到底有多“瞎”?
研究团队通过7项简单任务测试了VLM的视觉能力,这些任务仅涉及2D几何基元(例如,线、圆和正方形),对人类而言,只需要极少的知识即可完成。他们测试了四个SOTAVLM:GPT-4o、Gemini-1.5Pro、Claude3Sonnet和Claude3.5Sonnet。
任务一识别线的交叉点数量
在两个提示和三种线宽的情况下,还不如人类五岁小孩,难度为零的视觉测试,却挑战失败了所有VLM在这个简单任务上的表现都很差。最高准确率只有77.33%(Claude3.5Sonnet)。当两个图之间的距离变窄时,VLM的表现往往会变得更差。这表明VLM能够识别线图的整体趋势,但无法“放大”以看到精细的细节。
图|四种模型在计算线的交叉点任务上的性能
图|VLM不能可靠地计算线的交叉点。
任务二识别两个圆是否重叠
即使圆对于人类来说很大且清晰可见,也没有任何VLM能够完美解决这个问题。所有图像和提示下的最高准确率为92.78%(Gemini-1.5)。一个常见的趋势是,当两个圆靠得很近时,VLM的表现往往较差。这表明VLM的视觉似乎还不够清晰,无法看到两个圆之间的细微间隙或交点。
图|四种模型在圆圈重叠任务上的性能
图|距离越小,VLM越可能判断失败。
任务三识别被圈起来的字母
尽管有一个红色椭圆叠加在上面,所有VLM仍然能够准确地拼写出字符串。然而,读出哪个字母被圈出来对所有VLM来说竟然是一个挑战。犯错误时,VLM经常给出的结果是被圈出字母旁边的字母。有时模型会产生幻觉,给出该词中不存在的字符(例如“9”、“n”、“©”)。
除了GPT-4o之外,所有模型在两个英语单词上的表现比随机字符串略好,这表明知道单词可能有助于VLM做出更好的有根据的猜测,从而略微提高准确度。Gemini-1.5和Claude3.5Sonnet得分较高,分别为92.81%和89.22%,比GPT-4o和Claude3Sonnet的准确率高出近20个百分点。
图|四种模型在识别圈出的字母任务上的性能
图|当犯错误时,VLM倾向于预测与圈出的字母相邻的字母。
图|模型会产生幻觉,给出该词中不存在的字符(例如“9”、“n”、“©”)。
任务四识别重叠形状的数量
无论形状是重叠的还是嵌套的,这两种情况似乎都对VLM构成了挑战。在计数重叠的圆和五边形的任务上,Claude3.5Sonnet的表现比其他模型好得多(例如,75.83%对应Gemini-1.5的9.16%)。当圆环数量超过五个且VLM预测的数量不正确时,Gemini-1.5有98.95%的时间预测为“5”,而不管实际圆环的数量是多少。对于其他模型,这种情况的发生频率也比五边形的情况要高得多。这是因为它们都在训练数据中显著地包含了五个圆环的图像:奥运会环标志。这个标志在训练数据中重复出现,所以它们倾向于猜测“5”。
图|四种模型在识别重叠的圆圈/五边形数量上的性能
图|无论圆的颜色、线宽和分辨率如何,VLM都不容易计数重叠的圆。
任务五识别嵌套的正方形数量
GPT-4o和Claude3Sonnet在计数两个或三个嵌套正方形时仍显得吃力。当计数增加到四个和五个时,所有模型的准确性都远低于100%。结果显示,即使形状的边缘不交叉,VLM提取形状的精确表示也并非易事。
图|四种模型在识别嵌套方形数量任务上的性能
图|只有Claude3.5Sonnet能数出大多数图像中的正方形。
任务六识别网格的行和列的数量
VLM难以准确计算空网格中的行数和列数。具体来说,它们的计数通常会偏差1或2。这一发现表明,VLM不能清晰地看到表格的每个单元格。有趣的是,研究团队在尝试通过在每个单元格中添加一个单词来简化任务后,观察到所有VLMs的准确性都有显著提高(例如,GPT-4o从26.13%提高到53.03%)。然而,没有任何模型能够完美解决这个任务,即使是最优秀的模型(Claude3.5Sonnet)在包含文本的网格上表现最佳,准确率为88.68%,而在空网格上的准确率仅为59.84%。
图|四种模型在计算网格中的行和列时的性能
图|示例表明,模型在计算空白网格的行和列时大都失败。
图|当文本包含在网格单元中时,所有VLM的性能都得到了提高,尤其是Claude3.5Sonnet。
任务七识别站点间单色路径的数量
结果表明即使在两个站点之间只有一条路径的情况下,也没有模型能够达到100%的准确性(最高的是Claude3.5Sonnet,达到95%;最差的准确率为23.75%)。VLM的预测通常偏差1到3条路径。随着地图复杂性的增加,从1条路径增加到3条路径,大多数VLM的表现变得更差。
图|四种模型在站点间单色路径计数任务上的性能。
图|一些VLM(Gemini-1.5,Claude3Sonnet)甚至在非常简单的情况下也会失败。随着路径数量的增加,VLM的性能往往会变差。
早期融合或是未来发展方向
实验结果表明,即使是最佳的VLM仍然在努力解决一个五岁小孩都能轻易解决的问题。这些限制可能很大程度上是由于将视觉整合到LLM中的晚期融合(late-fusion)方法,而早期融合(early-fusion)可能是未来的发展方向,即将视觉编码器与语言模型在更早的阶段融合,例如在tokenembedding阶段或视觉特征提取阶段进行融合。
此外,研究团队还发现,简单地使用LORA在提出的任务上微调一个7B参数的、最先进的晚期融合开源VLM,并不能得到一个高性能的模型。也就是说,训练一个在BlindTest上表现良好的单一模型可能是一个有趣的未来研究方向。
相关文章
在21世纪初,手机市场正在经历着一场前所未有的变革,诺基亚,这个来自芬兰的品牌,凭借其卓越的技术和独特的设计理念,在这场变革中扮演了至关重要的角色,诺...
2024-09-22 1
在手机发展的历史长河中,诺基亚(Nokia)无疑是一个里程碑式的存在,自20世纪末至21世纪初,诺基亚凭借其耐用性、实用性和创新能力在全球范围内赢得了...
2024-09-22 3
诺基亚5630XM作为一款在2008年推出的智能手机,它不仅承载着许多人的青春记忆,更是在当时的技术背景下展现出了诺基亚对于移动通讯未来发展的独到见解...
2024-09-22 4
作者:emoryliang消息队列是重要的分布式系统组件,在高性能、高可用、低耦合等系统架构中扮演着重要作用。可用于异步通信、削峰填谷、解耦系统、数据...
2024-09-22 124 消息队列选型看这一篇就够了
在演艺界,每一位明星都渴望获得殊荣,而飞天奖作为国内最具权威的电视艺术奖项之一,更是众多演员梦寐以求的荣誉,当红女演员赵丽颖凭借出色的演技和卓越的表现...
2024-09-22 5
在移动设备技术迅猛发展的今天,智能手机已成为我们日常生活中不可或缺的一部分,在智能手机兴起之前,功能手机也有着属于它们的辉煌时代,诺基亚作为当时的行业...
2024-09-22 6
在每年的电视艺术盛会中,飞天奖无疑是一个备受瞩目的奖项,今年的飞天奖却因为主持人的表现而引发了广泛的讨论和争议,本文将围绕“飞天奖主持人好尬”这一关键...
2024-09-22 8
在移动通讯领域,诺基亚曾经是无可争议的霸主,从最初的砖头式大哥大到后来的滑盖、翻盖手机,再到智能手机时代,诺基亚始终引领着行业潮流,今天我们要谈论的是...
2024-09-22 7