大模型向小了。
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。 数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于以前的小型模型。在 MGSM 上,对于数学推理任务,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。编码性能方面,GPT-4o mini 在 HumanEvalji'zhun 上得分为 87.2%,而 Gemini Flash 的得分为 71.5%,Claude Haiku 的得分为 75.9%。 多模态推理:GPT-4o mini 在多模态推理评估 基准 MMMU 上表现出强劲的性能,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。