Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

GPT-4o mini一手测评:懂得不多,但答得极快

GPT-4o mini主打一个字「快」。

昨晚,OpenAI 突然上线新模型 GPT-4o mini, 声称要全面取代 GPT-3.5 Turbo。

在性能方面,GPT-4o mini 在 MMLU 上的得分为 82%,在 LMSYS 排行榜的聊天方面分数优于 GPT-4。

在价格方面,GPT-4o mini 比之前的 SOTA 模型便宜一个数量级,商用价格是每百万输入 token 15 美分,每百万输出 token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。

图片

OpenAI 表示,ChatGPT 的免费版、Plus 版和 Team 用户将能够从周四开始访问 GPT-4o mini(其知识截至 2023 年 10 月),以代替 GPT-3.5 Turbo,企业用户可以从下周开始访问。

图片

目前,GPT-4o mini 在 WildBench 测试上排名第九,优于谷歌的 Gemini-flash 以及 Anthropic 的 Claude 3 Haiku。

图片

在今天的凌晨的文章中,我们已经介绍了 GPT-4o mini 的一些基本情况(参见《GPT-4o Mini 深夜突发:即刻免费上线,API 降价 60%》)。在这篇文章中,我们将补充介绍模型的实际使用体验以及这份工作背后的研究者。

GPT-4o mini 一手评测

在 GPT-4o mini 开放测试的第一时间,我们问了它一个最近比较热门的话题,9.11 和 9.9 哪个大,很遗憾,GPT-4o mini 依然没有答对,还一本正经地回答 0.11>0.9。

图片

接着我们在 Poe(Quora 开发的应用程序,已经集成了 GPT-4o mini)中输入人物传记电影《Eno》的设计封面,让两个模型解读,结果 mini 翻车了。GPT-4o mini 直接表示「自己认不出照片上的人。」

与之相对的,GPT-4o 的回答就比较准确。「这张图片看起来像是一幅拼贴画,由一张照片的多个碎片组成,照片中是一位留着白胡子、身穿亮粉色衬衫的老人。这幅图由同一张照片的不同部分创造性地排列而成,产生了马赛克或拼图般的效果。照片中的男子表情若有所思,手抚摸着脸。」

图片

接着我们又测试了另一个问题:在客厅的桌子上放着一个杯子,杯子里有一个戒指。这个杯子被移到了书房的桌子上,然后移到了卧室的床上。在那里,杯子被翻倒了一次,然后又恢复了原样。之后,杯子被放回了客厅的桌子上。那么,现在戒指在哪里呢?如果我们分开问,答案不一样,GPT-4o 似乎更聪明点。

图片

图片

但是,如果我们一起发问,它们的答案又会变得雷同:

图片

GPT-4o mini 回答数学题的表现如何呢?机器之心用丘成桐少年班 2024 年选拔试题测试了一下它解决数学问题的能力。

图片

虽然 GPT-4o mini 对问题的解读都比较清晰,但在分析过程中出现「胡言乱语」的逻辑错误,像极了上数学课根本听不懂但硬答的学生。

不过也不必着急,毕竟 GPT-4o 的回答更不理想,它甚至没有看懂数字表示的是正方形的边长。

图片

在文字的总结能力上,GPT-4o mini 与 GPT-4o 的能力不相上下。都能将重点信息进行抓取,但 GPT-4o 的回答更显条理。

图片

不过主打「Faster for everyday tasks」的 GPT-4o mini,响应速度确实对得起「Faster」之称。和它对话,几乎无需等待,输出速度也是快得离谱。

图片

日本网友用 GPT-4o mini 搭建了一款 AI 聊天机器人,响应速度依然快得惊人。

来自推特 @maKunugi

还有网友将 GPT-4o  和 GPT-4o  mini 输出速度进行了对比,GPT-4o  mini 明显更快:

                              来自推特 @moz_ai_tech

从大家体验效果上来看,GPT-4o  mini 主打一个字「快」,但实际使用体验可能还是差了一些。

作者介绍

随着 GPT-4o mini 的发布,很多人表示 OpenAI 又一次给大家带来了一点点震撼。其实,这背后是一群年轻的学者,还有多位华人的身影。

GPT-4o mini 项目负责人是 Mianna Chen。

图片

Mianna Chen 于去年 12 月加入 OpenAI,此前在谷歌 DeepMind 任产品主管。

图片

她在普林斯顿大学获得学士学位,2020 年获得宾夕法尼亚大学沃顿商学院 MBA 学位。

图片

该项目的其他领导者还包括 Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such。

Kevin Lu 是 OpenAI 的一名研究员,2021 年毕业于加州大学伯克利分校。曾与强化学习大牛 Pieter Abbeel 等人一起研究强化学习和序列建模。

图片

Shengjia Zhao 于 2022 年 6 月加入,现在是 OpenAI 的一名研究科学家,主攻 ChatGPT。他的主要研究方向是大语言模型的训练和校准。此前,他本科毕业于清华大学,博士毕业于斯坦福大学。

图片

Hongyu Ren 在去年 7 月加入,现在是 OpenAI 的一名研究科学家,他还是 GPT-4o 的核心贡献者,并致力于 GPT-Next 的研究。Hongyu Ren 本科毕业于北京大学、博士毕业于斯坦福大学。此前,他在苹果、谷歌、英伟达、微软等工作过。

图片

Haitang Hu 于去年 9 月加入 OpenAI,曾任职于谷歌。他本科毕业于同济大学、硕士毕业于霍普金斯约翰大学。

图片

Karpathy:模型变小是自然趋势

这次,OpenAI 还是发了 GPT-4 的衍生模型。所以很多人还是会问:GPT-5 啥时候来?

图片

这个问题目前没有官方信息。但从 OpenAI 等 AI 巨头纷纷发布小模型的动作来看,小模型正在成为一个新战场。

OpenAI 创始成员 Karpathy 对此表示,「LLM 模型大小竞争正在加剧…… 但方向是相反的」!

我敢打赌,我们会看到非常小的模型,它们思考得非常好,而且非常可靠。甚至 GPT-2 参数的设置很可能会让大多数人认为 GPT-2 很智能。
当前模型如此之大的原因在于我们在训练过程中表现得很浪费 —— 我们要求 LLM 记住互联网上的整个内容,令人惊讶的是,它们确实可以做到,例如背诵常用数字的 SHA 哈希值,或者回忆起非常深奥的事实。(实际上,LLM 非常擅长记忆,比人类好得多,有时只需要一次更新就可以长时间记住很多细节)。
但想象一下,如果你要接受闭卷考试,考卷要求你根据前几句话背诵互联网上的任意段落。这是当今模型的(预)训练目标。想要做的更好,面临着一个难点,在训练数据中,思考的展示与知识「交织」在一起的。
因此,模型必须先变大,然后才能变小,因为我们需要它们(自动化)的帮助来重构和塑造训练数据,使其成为理想的合成格式。
这是一个改进的阶梯 —— 一个模型帮助生成下一个模型的训练数据,直到我们得到「完美的训练集」。当你用 GPT-2 对其进行训练时,按照今天的标准, 它会成为一个非常强大、智能的模型。也许它在 MMLU(大规模多任务语言理解) 方面会低一点,因为它不会完美地记住所有的细节。也许它偶尔需要查找一下,以确保信息的准确性。

图片

按照 Karpathy 的说法,以后小模型会变得越来越多,越来越好用。这个领域的竞争会有多激烈?我们拭目以待。

参考链接:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

产业GPT-4o miniOpenAI
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
同济大学机构
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~