Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

一觉醒来,Mistral AI 又发力了。

就在今天,Mistral AI 多模态家族迎来了第二位成员:一个名为 Pixtral Large 的超大杯基础模型。

这是一个基于 Mistral Large 2 构建、124B 开放权重的多模态模型,具备顶尖的图像理解能力 —— 能够看懂文档、图表和自然图像,同时保持 Mistral Large 2 领先的纯文本理解能力。

除了发布新模型,Mistral AI 还进一步升级了免费聊天机器人 le Chat,增加图像生成、网络搜索和交互式画布功能,全面对标 ChatGPT。

所有这些功能,统统以免费测试版的形式开放。

图片
Mistral AI 的每一次更新,都会让整个 AI 社区兴奋起来。

有人感叹:「六个月前,开源模型和闭源模型之间的差距非常大。现在,最先进的人工智能正在迅速向任何想要使用它的人开放。」
图片
到底有多强?

接下来,让我们看看发布细节吧。

开源多模态大模型 Pixtral Large

Pixtral Large 可根据 Mistral 研究许可证 (MRL) 用于研究和教育用途,同时根据 Mistral 商业许可证用于商业目的的实验、测试和生产。

Pixtral Large 前身是 2024 年夏季发布的 Mistral Large 2,以及 9 月份发布的首个多模态模型 Pixtral 12-B。关于将多模态模型扩展到 1240 亿参数的出发点,Mistral AI CEO 是这么说的:「我们越来越意识到,要创造最佳的 AI 体验,需要共同设计模型和产品界面。Pixtral 在训练时就考虑到了高影响力的前端应用,是一个很好的例子。」

Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。

Pixtral Large 上下文窗口为 128K,至少可以处理 30 张高分辨率图像或大约一本 300 页的书,这相当于领先的 OpenAI GPT 系列模型的能力。

在性能方面,该模型在包括 MathVista、DocVQA 和 VQAv2 在内的多种基准上展现出了最先进的性能,非常适合图表解释、文档分析和图像理解等任务。
图片
具体而言,在 MathVista 基准上,Pixtral Large 实现了 69.4% 的准确率,优于所有其他模型。在 ChartQA 和 DocVQA 基准上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

Pixtral Large 在 MM-MT-Bench 上也展示了强有力的竞争力,优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。
图片
在图像理解方面,Pixtral Large 也表现优异。比如上传一份账单,询问该模型:「我买了咖啡和香肠,外加 18% 的小费。我该付多少钱?」
图片
Pixtral Large 会非常有条理地给出总消费金额,先是计算了咖啡和香肠的费用,2 杯拿铁玛奇朵、 1 份香肠 ,然后计算 18% 的小费 ,最后给出总金额。
图片
Pixtral Large 也能准确理解并分析图表。比如对于下面的训练损失曲线图,问 dark dragon 模型什么时候开始出现问题。

Pixtral Large 分析的也很准确:「在达到 10,000 step 时,训练损失开始出现不稳定…… 随后,这种不稳定性持续存在,并在 20,000step 附近出现了另一个大的峰值……」
图片
在接下来的示例中,上传一张图片,问 Pixtral Large 哪些公司使用 Mistral AI 模型?
图片
Pixtral Large 也能根据图片提供的信息给出准确的结果,回答过程如下。
图片
除了 Pixtral Large,Mistral AI 最先进的文本模型 Mistral Large 也迎来了一次更新。该模型在 API 上以 pixtral-large-latest 的形式提供,在 HuggingFace 上以 Mistral Large 24.11 的形式提供。

Mistral Large 24.11 将首先在 Google Cloud 和 Microsoft Azure 上推出,预计一周内即可使用。

  • 模型和权重下载地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
  • 试用地址:https://chat.mistral.ai/chat

对标 ChatGPT 大升级
le Chat 已经强得可怕

Pixtral Large 的发布,也让 le Chat 的能力上升到了一个新的高度。

le Chat 现在可以处理大型、复杂的 PDF 文档和图像,比如一篇理论文献的所有内容 —— 图形、表格、图表、文本、公式、方程式。

下面的例子展示了爱因斯坦、波多尔西和罗森于 1935 年撰写的著名量子纠缠论文的信息提取、总结和语义理解。
此外还有两项新能力登陆 le Chat:

首先是实时的网络搜索。这是一项关于生产力的升级,Mistral AI 表示,le Chat 的大部分用户来自学生和专业人士,而这些用户非常看重其在学习、研究和工作中的作用。

下面是一位营销类专业人士使用 le Chat 来评估医疗保健人工智能市场:
然后是新的 Canvas 界面。当用户需要暂时离开对话进行构思时,它会弹出到 le Chat  窗口中,随后用户可以和 Mistral LLM 合作完成共享输出。

从此,我们和聊天机器人的互动不再局限于双向对话。借助 LLM 强大的推理能力,Canvas 可以用来创建文档、演示文稿、代码、模型等,亮点在于「就地修改」内容,无需重新生成回复、版本控制草稿并预览设计。

比如在下方演示中,是一个产品团队为准备推出 Canvas 而创建产品指标仪表板的反应模型的视频。
Mistral AI 与 SD 作者团队成立的 Black Forest Labs 也达成了合作,因此 le Chat 拥有了高质量的图像生成能力。

最后,如果你想马上体验到 Mistral AI 最新放送的搜索、PDF 上传、编码、图像生成等所有功能,请访问:http://chat.mistral.ai/

参考链接:
https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/
产业Le ChatPixtral LargeMistral AI
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

OpenAI GPT技术

GPT 是“Generative Pre-Training”的简称,从名字看其含义是指的生成式的预训练。GPT 也采用两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段通过 Fine-tuning 的模式解决下游任务。它与ELMO 主要不同在于两点:特征抽取器不是用的 RNN,而是用的 Transformer;GPT 的预训练虽然仍然是以语言模型作为目标任务,但是采用的是单向的语言模型。

推荐文章
暂无评论
暂无评论~