Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

成立仅半年,Mistral估值暴涨七倍,开源重塑AI战局

机器之能报道

编辑:Sia

烧钱的闭源,逆袭的开源。

当 LLaMA 被泄露出去、任何人都可以下载时,开源的命运齿轮已经开始转动,并在 Mistral AI 最新一轮融资中达到高潮。

七个月前,来自 Meta 和谷歌的研究人员在巴黎成立了 Mistral AI 。短短六个月,这家拥有22名员工的初创企业在最近 A 轮融资中筹集了 4.15 亿美元,估值从 2.6 亿美元狂飙到 20 亿美元,涨了七倍多。

同时,公司也低调发布了大模型 Mixtral 8X7B。

Mixtral 8x7B 采用了一种独特的架构方法——专家混合 (MoE) ,可产生流畅的、类似人类的响应,与传统的 LLM 方法形成鲜明对比。

根据公司提供的数据,Mixtral 8X7B 优于一些竞争对手,包括 Meta 的 Llama 2 系列和 OpenAI 的 GPT-3.5。
成立仅四周,获1.13亿美元的种子轮融资,估值约为2.6亿美元。半年后,A轮融资后身价涨到了20亿美元。

与具有讽刺意味的名字 OpenAI 不同,Mixtral-8x7B 是开源的,这意味着它可以免费用于商业用途。开发人员还可以更改、复制或更新源代码,并将其与许可证副本一起分发。

不少网友积极为 Mixtral-8x7B 打 Call,夸赞它有多快、有多有趣。有研究者甚至称:「闭源大模型走到结局了。」

在此之前,他们在 9 月底发布的 Mistral 7B 至今仍被称为「最好的 7B 模型」,在每个基准测试中都优于 Llama-2 13B,并且在代码、数学和推理方面优于 LLaMA-1 34B。

图片有研究者称:「闭源大模型走到结局了。」

OpenAI 一直保持其最新 LLM 闭源,并因此引发外界一定程度的强烈反对。

OpenAI 和谷歌警告称,在开源领域发布如此强大的模型是非常危险的,因为该技术可用于传播虚假信息。

他们也倾向于防御性发布模式,以便严格控制模型的使用方式。他们花了几个月为自己的 LLM 开发安全护栏,确保不会被用来传播虚假信息和仇恨言论,或者对问题产生有偏见的答案。

Mixtral 专注于开源其所有 AI 软件,坚定站在了日益激烈的文化战争的另一边。

他们坚信,生成式 AI 技术应该是开源的,允许自由复制和修改 LLM 代码,通过这种方式帮助其他用户快速构建自己的聊天机器人

他们追求的轨迹也很明确:「开放、负责任和去中心化的技术方法」。

广泛分享 AI 的底层代码是最安全的途径,因为更多的人可以审查这项技术,发现它的缺陷,并努力消除或减轻它们。顶级风投 Andreessen Horowitz 普通合伙 Anjney Midha 在接受《纽约时报》采访时说,他领导了对 Mistral AI 的 A 轮投资。

「没有一个工程团队能够找到每一个错误,」他说。「大型社区更擅长构建更便宜、更快、更好、更安全的软件。」

国内大模型初创公司面壁智能也致力于开源 LLM 的商用落地。

面对市场竞争,开源软件的免费使用是非常有吸引力的获客手段,低成本试错也有助于加速创新。「基于开源路线,可以更快触达潜在用户群体,降低企业认知和决策难度。」联合创始人曾国洋曾告诉机器之心

另外,LLM 涉及许多技术问题,单靠一家企业很难解决,可以通过开放技术,依靠社区力量共同解决,共享 IP,互惠互利。

这种集中与去中心化的博弈力量一直贯穿于现代计算机技术发展史中。

正如网友所言,「开源不仅是未来,也是过去。」

图片reddit上,网友也就 Mistral最新融资展开了一场关于开源与闭源的讨论,开源会是LLM的未来吗?

开源社区的主流思想之所以被人接受,更大的时代背景正是大公司对于软件业的垄断。推动现代计算的大多数主要技术都是开源的,包括计算机操作系统、编程语言和数据库


图片

Meta 从一开始也是站在开源大模型这一边,也被视为开源最大的受益者。

不过,谁能赢得这场博弈,仍然仁者见仁。

许多人工智能研究人员、技术高管和风险投资家认为,这场竞赛将由那些构建相同技术然后免费提供出去的公司赢得——即使这意味着没有任何护栏。

一份为人津津乐道、从谷歌内部泄露出来的备忘录(标题是《我们没有护城河》)质疑了东家对专有模型的坚定不移。

「我们无法赢得这场军备竞赛,OpenAI 也一样。当我们争吵不休的时候,第三个派系(开源)却在悄悄地吃掉我们的午餐。」

开源具有一些我们无法复制的显着优势。虽然谷歌的模型在质量方面仍略占优势,但差距正在以惊人速度缩小。

图片谷歌备忘录作者发现,自从 LLaMA 泄露后,立刻出现了大量的创新,比如羊驼、小羊驼等,都可以在智能终端上运行,重大开发成果之间的间隔也在缩短。Meta 是一个明显的赢家。他们有效地获得了整个星球的免费劳动力,大多数开源创新都发生在他们的架构之上,没有什么能阻止他们将其直接整合到他们的产品中。

开源替代方案可以而且最终会让它们黯然失色。「当免费、不受限制的替代品在质量上具有可比性时,人们就不会为受限制的模型付费。」

这一担心也部分得到了一些验证。

最近,Meta 首席 AI 科学家 Yann LeCun 转发了方舟投资(ARK Invest)制作的一张趋势图,描绘了开源社区与专有模型在生成式 AI 上的发展。

「开源人工智能模型正走在超越专有模型的路上。」他感概道。

图片

不久,方舟投资又更新了这张广为流传的图表,新增了一些模型,包括 Gemini 和 Mixtral Mixtral 8X7B 。

图片
散点图最近有更新,增加了一些模型,如 Gemini和Mixtral,我们可以看到,开源模型的性能在不断追赶专有模型。有网友甚至表示,我们正在接近一个临界点。以目前开源社区项目的发展速度,我们将在未来 12 个月内达到 GPT-4 的水平。


我们可以从图中看到,领先的前沿模型在绝对能力上仍然具有优势,但开源社区研究人员正利用免费线上资源取得可媲美最大的专有模型的成果。

Meta 最初发布 LLaMA 时,参数量从 70 亿到 650 亿不等。这些模型的性能非常优异:

有 130 亿参数的 Llama 模型「在大多数基准上」可以胜过 GPT-3( 参数量达 1750 亿),而且可以在单块 V100 GPU 上运行;

最大的 650 亿参数的 Llama 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。

Llama 2 开源再一次使大模型格局发生巨变。

相比于 Llama 1,Llama 2 的训练数据多了 40%,上下文长度也翻倍,并采用了分组查询注意力机制

Falcon-40B 刚发布就冲上了 Huggingface 的 OpenLLM 排行榜首位,改变了 Llama 一枝独秀的场面。目前,最大的公开型号是 Falcon 180B。

还有 Yi 模型,可以一次处理 40 万汉字、中英均霸榜。Yi-34B 也成为迄今为止唯一成功登顶 Hugging Face 开源模型排行榜的国产模型。

Mixtral Mixtral 8X7B 亮点在于模型规模和性能(击败GPT 3.5)的「性价比」——未来,我们更加渴望有更多这样的开源 MoE 模型,而不是更大的模型。

散点图勾勒出一股创新大潮,正改写着大模型战局,开源力量可能在未来 1~2 年与专有模型分庭抗礼。

图片

但并非所有人都认同这一点。

有分析师指出,开源和闭源,各有利弊,但在技术行业的大多数其他方面,例如基础设施即服务(IaaS)和平台即服务 ( PaaS ),开源已成为明显的赢家。

不过,情况并非总是如此,因为在软件即服务领域( SaaS )大多数领先平台仍然是专有(闭源)软件。所以,还是无法确定哪种方法会赢得竞赛。

也有网友认为,开源还是闭源并不是一场非此即彼的零和游戏。

LLM 也许会找到一个类似平衡——就像互联网是基于开源软件运转的,但我们也离不开 Adobe、Windows 这样的付费专有软件。

图片

图片

开源固然迷人,一些网友也在质疑 Mistral AI 这样的公司怎么赚钱?从收益回报上看,投资者为什么要如此重视 Mistral 这样的公司?
图片

图片

开源总是让人和自由分享和免费的互联网精神联系在一起,盈利好像与之天然相悖。但事实上,开源并不意味着公司不能赚钱,最典型例子就是开源软件公司 Red Hat。

IBM 收购之前,Red Hat 最后一次报告的收入是 2018 年的 34 亿美元。它的软件基本上是免费的,收入主要来自向企业提供支持服务。

比如,纽交所在用免费的 Linux 系统交易股票。每隔几年芯片硬件都会升级,纽交所也想采用新的处理器提升效率,这就需要部署新的系统和应用程序。

纽交所可以养一个团队自己完成所有系统维护、开发工作,也可以花钱请 Red Hat 来做。相当数量的企业用户都选择了后者。

Mixtral 其实也提供即用即付的 API 访问,迎合那些想要快速轻松地访问其功能而无需管理基础设施来支持它的用户,类似于 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 模型。

图片reddit网友猜想的开源的商业模式。就像当年的网景浏览器变身为流量入口,带动了广告、游戏等其他业务的兴起。

机器之心采访面壁智能时也曾聊过商业模式——他们形容为一种类似于数据库的生意:

公司负责提供模型库,就像现在比较常见的数据库企业;数据库的工作是打磨数据库性能,面壁智能的任务就是提升大模型性能。政府、企业、小型开发者甚至学生通过标准接口接入基础设施,根据自身需求实现业务所需能力。

不过,《经济学人》曾警告说,一部分开源公司可能是好企业,但投资者必须接受他们不会拥有传统软件公司的经营利润,更不用说微软那样的利润了。因为是「开源」,意味着它们是一种公共财产,不能像微软对 Windows 那样利用专利实施垄断,获得丰厚回报。

反过来,就像《经济学人》曾指出的,虽然短期内对拥有这样一个平台的所有者极其有益,但却违背了该行业中其他所有公司的利益,也拖累了整体技术的创新和发展速度。

无论如何,现在有一点很明确——和一年前相比,LLM 实现民主化使用的可能性大大提高了,技术被少数公司垄断的可能性也在减少。

这是计算领域里的又一个转折点。

参考链接

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

产业Mixtral 8X7B人工智能聊天机器人
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~