Grok, Deepseek’s Janus, Gemini, Qwen, Mistral, and ChatGPT的评估论文笔记

NekoNekoNiko120 发布于 2025-03-04 32 次阅读


序言

在大语言模型(LLM)快速发展的时代,transformer架构的大语言模型的理解能力评估主要集中在图形,语言理解,忽略了上下文理解、推理稳定性和不确定性校准等关键方面。

模态LLMs的发展使得模型能够处理和推理多种数据模态,包括文本、图像、视频和结构化信息,这在视觉问答、文档理解、医学图像解释和多模态对话系统等领域有重要应用。

但是现在的模型评估主要测试独立的任务而不是它们的综合能力

研究方法

A.视觉理解和多语言理解的基准测试

早期的模型像VQAv2、GQA和AI2D都忽略了深度思考多个图形的综合思考

为了解决这个,文章作者使用了多图片、文本测试

NLVR2带来了图片内容的逻辑比较,使用MMMU和MathVista使用倍数视觉输入

MINT和BLINK延伸了相关的基准测试标准

研究步骤

文章作者从MUIRBench数据集中精选了120个问题和376张图像,涵盖了多种推理任务,包括差异识别和图表解释。这些问题涉及真实照片、医学图像、科学图表和卫星视图等多种图像类型
评估了包括Grok 3、ChatGPT-4o、ChatGPT-o1、Gemini 2.0 Flash Experimental、DeepSeek’s Janus模型、Qwen2.5-VL72B-Instruct、QVQ-72B-Preview和Pixtral 12B在内的多种模型
评估框架:引入了新的评估指标,包括:用于量化模型在重新排序的答案变体上的推理一致性的熵,测试模型在没有有效选项时是否能够正确拒绝回答的拒绝式推理,通过重新排序答案选项来评估模型是否依赖于位置启发式方法而不是内容理解的位置偏差检测

实验结果

总体性能:ChatGPT-o1在总体准确率(82.5%)和拒绝准确率(70.0%)方面表现最佳,其次是Gemini 2.0 Flash Experimental(70.8%)。QVQ-72B-Preview在拒绝准确率方面表现突出(85.5%)。Pixtral 12B在特定领域显示出潜力,而Janus模型在偏差和不确定性校准方面表现不佳,表现为低拒绝准确率和高熵值。
高熵值:Janus 7B(0.8392)和Janus 1B(0.787)的高熵值表明它们容易受到位置偏差的影响,推理不稳定,与ChatGPT模型的低熵值和稳健推理形成对比。
模型大小与性能:研究发现,模型大小并不是性能的唯一决定因素。例如,Grok 3尽管拥有2.7万亿参数,但在复杂推理和一致性任务中的表现令人失望。

关键结论

ChatGPT模型:ChatGPT-o1和ChatGPT-4o在视觉推理任务中表现出色,具有高准确率、稳定的推理和有效的不确定性校准。
开源模型与专有模型:专有模型在复杂多模态推理任务中表现优于开源模型,这可能归因于专有模型在高质量训练数据和微调技术方面的优势。
位置偏差:通过重新排序答案和熵度量,研究揭示了某些模型在推理稳定性上的不足,特别是Janus模型表现出显著的位置偏差和不一致推理。
拒绝策略:QVQ-72B-Preview和Grok 3表现出较高的拒绝率,而Janus模型则表现出较低的拒绝率,这反映了模型在不确定性校准和决策策略上的差异。

未来方向

改进基准测试:未来的研究应继续改进多模态LLMs的评估基准,包括更多样化的任务和更严格的评估指标。
减少位置偏差:需要进一步研究如何减少模型在推理过程中的位置偏差,提高其对内容的理解能力。
增强不确定性校准:改进模型的不确定性校准能力,使其在面对不确定情况时能够做出更合理的决策。
通过这项研究,文章作者为多模态LLMs的评估提供了一个新的视角,强调了推理稳定性、位置偏差和不确定性校准在评估这些模型时的重要性。