Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

传谷歌开始小范围测试Gemini:比训练GPT-4算力大5倍,多模态能力大提升

今年 5 月的谷歌 I/O 大会上,皮查伊宣布了对标 GPT-4 的大模型 PaLM 2,但同时也提到谷歌的研究重心正在转向 Gemini,后者是一种多模态和高效的机器学习工具。

为了更快地开发 Gemini,谷歌在今年 4 月份合并了内部的两个人工智能实验室:谷歌大脑(Google Brain)和 DeepMind,Gemini 这项联合计划就由来自两个实验室的研究人员组成的团队牵头。

接下来几个月,Gemini 的神秘面纱一点点被揭开:我们大概知道该模型是在 Google Brain 和 DeepMind 合并之后开始研发的,将具有像 GPT-4 一样的万亿参数;Gemini 在训练中已经展示出了以往模型中从未见过的多模态能力;一旦经过微调和严格的安全性测试,谷歌同样将提供不同尺寸和功能的 Gemini 版本,以确保部署在不同的产品、应用和设备上。

最新消息是,据三位直接知情人士透露,谷歌已经允许一小部分公司使用 Gemini 软件的早期版本,意味着谷歌即将将其纳入消费者服务,并通过公司的云计算服务出售给企业。
图片
能否超越 GPT-4?

近日,SemiAnalysis 分析师 Dylan Patel 和 Daniel Nishball 带来了更多关于 Gemini 的爆料,其中 Dylan Patel 曾在今年 7 月 11 日曾曝光 GPT-4 的架构
图片
Dylan Patel 和 Daniel Nishball 透露,初代的 Gemini 应该是在 TPUv4 上训练的,并且这些 pod 并没有集成最大的芯片数 —4096 个芯片,而是使用了较少的芯片数量,以保证芯片的可靠性和热插拔。如果所有 14 个 pod 都在合理的掩模场利用率 (MFU) 下使用了约 100 天,那么训练 Gemini 的硬件 FLOPS 将超过 1e26。

不过,Gemini 已开始在新的 TPUv5 Pod 上进行训练,算力高达~1e26 FLOPS,比训练 GPT-4 的算力还要大 5 倍。

另外,Gemini 的训练数据库为 Youtube 上 93.6 亿分钟的视频字幕,总数据集大小约为 GPT-4 的两倍。

Gemini 由一组大型语言模型组成,可能使用 MOE 架构与投机采样(Speculative Sampling)技术,通过小模型提前生成 token 传输至大模型进行评估,提高模型总推理速度。

从能力上说,Gemini 支持从聊天机器人到总结文本或生成原始文本(如电子邮件草稿、歌词或新闻文章)的各种功能,这些功能都是基于对用户想要阅读的内容的描述。此外,Gemini 还能帮助软件工程师编写代码,并根据用户的要求生成原始图片。

据 The Information 此前报道,谷歌希望 Gemini 大大提高软件开发人员的代码生成能力,以此追赶微软的 GitHub Copilot 代码助手。

谷歌员工还讨论过利用 Gemini 来实现图表分析等功能,比如要求模型解释完成图表的含义,以及使用文本或语音指令来浏览网页浏览器或其他软件。

一位测试过 GPT-4 的人士说,Gemini 至少在一个方面比 GPT-4 更具优势:除了网络上的公共信息外,Gemini 利用了谷歌从其消费产品中获取的大量专有数据。因此,该模型在理解用户对特定查询的意图时应该会特别准确,而且它似乎会产生较少的错误答案(即幻觉)。

谷歌云服务迎头赶上的机会

自今年年初 OpenAI 开始出售 GPT-4 的访问权限以来,谷歌近几个月来一直在积极地将其现有的商用模型提供给更多的开发者。

今年 5 月,谷歌宣布将通 Vertex AI 向谷歌云客户提供 PaLM 2 。另一位知情人士说,谷歌计划通 Google Cloud Vertex AI service 向企业提供「Gemini」,包含不同大小的版本,这样开发者就可以选择付费购买一个不太复杂的版本来处理简单的任务,或者购买一个足够小的版本在个人设备上运行。

这位知情人士补充说,谷歌目前让开发者使用的是相对较大的 Gemini 版本,但不是正在开发的最大版本,后者更接近于 GPT-4。
图片
对谷歌来说,Gemini 的发布事关重大。谷歌花费了大量的计算资源和人力来开发它作为与 OpenAI 竞争的利器,希望这款软件除了促进其云服务器租赁业务外,还能为从 Bard 聊天机器人到 Workspace 软件的新功能提供支持。

据 The Information 报道,OpenAI 和其他软件公司(如帮助公司开发和使用人工智能的 Databricks)也预测,它们将从对话式 AI 中获得可观的收入。然而,开源大模型的崛起可能会削弱谷歌和 OpenAI 出售其专有模型访问权的关注度。

也许某天一觉醒来,Gemini 已经正式发布,届时它的神秘面纱将被彻底揭开。

谷歌能否凭借 Gemini 扭转局势?我们只需耐心等待。

参考链接:https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai
工程Gemini谷歌
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~