2024/08/26 09:18

三个程序员奋战三天重写推理堆栈，Grok-2 mini直接提速两倍，马斯克亲发贺电

一直在用 Grok-2 的用户可能察觉到，这两天，它好像变快了：

上周，xAI 发布了 Grok-2 聊天机器人，并在 X 平台上以每月 8 美元的价格提供服务。

用户的感觉也不是错觉，Grok-2 的两个版本 Grok-2 和 Grok-2 mini（后者功能更弱但速度更快），确实都提高了分析信息和输出回复的速度。

xAI 的开发人员 Igor Babuschkin 发布了一条动态，揭示了这次提速背后的原因：

正如这条动态所说，他和 xAI 的另外两名开发人员 Lianmin Zheng 和 Saeed Maleki 奋战了三天，用 SGLang 重写了推理技术栈。

这次奋战的结果很理想：在评价人工智能模型性能的第三方 Lmsys Chatbot Arena 排行榜更新中，Grok-2 主模型在 6686 次投票中获得了 1293 分的成绩。这使得 Grok-2 成为世界上最强人工智能模型中的第二名，与谷歌的 Gemini-1.5 Pro 模型并列，仅次于 OpenAI 的最新版本 ChatGPT-4o，且超越了 GPT-4o（2024 年 5 月）。

^{图源：https://x.com/lmsysorg/status/1827041269534879784}

Grok-2-mini 也受益于这次改进，排名上升到第 5 位，从 7266 票中获得了 1268 分的 Arena 分数，仅次于 GPT-4o mini 和 Claude 3.5 Sonnet。

努力没有白费，老板马斯克发来表扬：

根据 Babuschkin 在 X 上的回复，与完整的 Grok-2 模型相比，使用 Grok-2-mini 的主要优势在于速度更快。

Babuschkin 还承诺，xAI 会进一步提高 Grok-2-mini 的处理速度，这将使其成为寻求高性能、低计算开销的用户更有吸引力的选择。同时透露了一些关于 API 的消息：

当然，这让人们有些好奇，SGLang 为什么如此「效果显著」？

今年初，SGLang 刚刚诞生的时候，机器之心曾进行过报道（参见《吞吐量提升 5 倍，联合设计后端系统和前端语言的 LLM 接口来了》）。具体来说，这是一种用于执行复杂的语言模型程序的开源（Apache 2.0 授权）高效系统。SGLang 能够增强与 LLM 的交互，通过联合设计后端运行时系统和前端语言，使 LLM 更快、更可控。

SGLang 由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学的研究人员开发。

SGLang 目前支持 Llama、Mistral 和 LLaVA 等多种模型，兼容 OpenAI 的 GPT-4 等基于 API 的开放式模型。SGLang 能够在单个程序中通过自动缓存重用和并行来优化执行，这使它成为开发人员处理大规模语言模型的强大工具。

7 月底，团队还推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时，它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。在某些情况下（运行 Llama 系列模型），它的吞吐量甚至能达到 TensorRT-LLM 的 2.1 倍，vLLm 的 3.8 倍。

产业XAIGrok-2

相关数据

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

强人工智能技术

强人工智能或通用人工智能（Strong AI或者 Artificial General Intelligence）是具备与人类同等智慧、或超越人类的人工智能，能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一，同时也是科幻小说和未来学家所讨论的主要议题。相对的，弱人工智能（applied AI，narrow AI，weak AI）只处理特定的问题。弱人工智能不需要具有人类完整的认知能力，甚至是完全不具有人类所拥有的感官认知能力，只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能，发现这个具有领域的局限性，人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能（artificial general intelligence，AGI），或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

来源：维基百科

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/