机器之心原创

2024/07/06 11:02

现场Live震撼！OmAgent框架强势开源！行业应用已全面开花

第一个提出自动驾驶并进行研发的公司是 Google，巧的是，它发布的 Transformer 模型也为今天的大模型发展奠定了基础。

自动驾驶已经完成从概念到现实的华丽转变，彻底重塑了传统驾车方式，而大模型行业正在经历的，恰如自动驾驶技术发展的传奇征程 ——

最顶尖的研发团队竞相投身其中、不断加速抢跑的技术产品创新，以及持续被推向极致的用户体验。

在大模型赛道中，有一家企业始终以领先的身位，推动着行业边界向前拓展。

为什么是联汇科技？

当行业刚开始关注大模型，他们已经锚定多模态大模型，并高分取得了工信部大模型检测的 001 号证书；

去年，当人们关注「百模大战」，他们不仅发布了自研 OmModel 多模态大模型的 V3 版本，更发布了国内首批大模型驱动的自主智能体应用。

今年，世界人工智能大会期间，他们再次发布一系列技术成果，将大模型技术产品推向更深、更广的应用层面。

联汇科技技术团队有着极强的前瞻思维，这与他们的首席科学家赵天成博士紧密相关，这位师从国际 AI 领域顶尖学者的 Maxine Eskenazi，在 CMU LTI （卡内基梅隆大学语言技术研究所）完成硕博连读的天才少年，不仅称得上「AI 名门正派」，更难得的是，赵天成在技术发展和战略规划方面有着独到见解。

赵天成博士指出，在 AI 主导的第四次工业革命浪潮中，自主智能将成为变革的核心变量。随着人类第一次接触并掌握创造智慧的奥秘，我们将目睹一个新时代的到来 —— 在这个时代中，机器、软件甚至系统，将被赋予前所未有的自主决策能力，只能化将广泛应用于各个工作领域，开启前所未有的效率和创新。

2024 年是智能体元年。

我们正处于 L2 级别，并逐步向 L3、L4 迈进的过程中。

OmAgent 来了！

WAIC 期间，联汇科技正式发布第二代多模态智能体 OmAgent。

去年同期，联汇科技抢跑行业，率先发布了国内第一批由多模态大模型驱动的自主智能体，那么，今年联汇的第二代多模态智能体 OmAgent 有哪些惊喜？

首先是感知模块全新升级。

随着 AI 应用落地，联汇科技发现尽管万物感知模型在智能识别和处理方面具有巨大潜力，但受限于推理速度的瓶颈。相较于小型模型在推理速度上的优势，Idealab 的 G-DINO 和联汇科技的 OmDet 在速度上的表现都不尽如人意，这极大地限制了它们在边缘计算设备上的应用。

联汇科技最新发布的 OmDet V2，实现万物感知的全面加速，从底层重新构建了万物感知的模块，推出了 EFH 高性能融合头，包含了一系列模型加速的优化技术、语言向量缓存、轻量化特征编码与解码等技术，得益于 EFH 对每一个环节的机制优化，相较于 G-DINO 和联汇的第一代感知模型，OmDet V2 在每一个环节上都实现了 20 倍以上的速度提高。

这样的提升意味着 OmDet V2 正在打开未来边缘 AI 与具身智能全新可能。

凭借 OmDet V2 的推理速度和精确分析能力，单个 GPU 就可以承载对 500 路视频流的实时万物感知分析，这是对技术性能的新一次刷新。同时，这也意味着打开边缘 AI 的可能，OmDet V2 让万物感知模型摆脱云端束缚，走向边缘设备，为人形机器人、家庭智算中心等前沿应用提供了强大的智能支持。

这种创新不仅重新定义了大模型产品的开发思维，更为构建一个更实时、更安全、更注重隐私的大模型应用环境奠定了基础。

第二是思考决策能力的提升。

思考是多模态智能体的核心，只有具备了思考能力，智能体才能够依据感知和记忆结果做决策判断和自主行为，成为真正的助手。但现有多模态思考模型存在着明显局限，比如只能基于单张图片进行思考和决策、无法对多个关联图片之间进行理解处理等。

为了解决这一问题，联汇科技全新发布了第二代思考大模型 OmChat V2，一个基于多模态模型原生预训练的生成大模型，不仅提供 8B、40B、60B 多个版本，适配不同需求。更能非常好地支持视频、图文混合、文字等多种复杂输入，完美适配智能体决策过程中所需要的复杂场景。

OmChat V2 支持高达 512K、50 万的上下文长度，折合视频长度 30 分钟，仅次于 Google Gemin-1.5，并远超 GPT-4o 及微软 LLaVa-1.5。

OmChat V2 在 Mantis-Eval、Q-Bench、MileBench Real、MVBench 等测试中平均性能均在行业前列。

更简单、直接的说法是，OmChat V2 不仅能够看准时序关系，更能够看懂多图关系。

^{时序关系判断}

^{多图关系理解}

为了大模型与智能体技术能够真正的普惠落地，联汇科技还率先完成了与多款国产 GPU 的适配与性能验证，通过高效稀疏激活、动态专家方法，提升推理效率 20 倍，Om OS 大模型运行平台也是首个支持多地域大模型分布式推理平台，异构九头蛇推理能够提升算力利用率 3 倍。

就此，联汇科技正式解锁海量行业应用场景。

^{自动化体育解说}

^{影视剧内容解构}

^{工业智能助手}

OmAgent 框架全面开源！

联汇科技在多模态智能体技术上已经取得了多项突破性成果，对于是否开源的问题，赵天成博士始终从更宏观、更长远的角度看待。

他表示：我们选择将 OmAgent 框架全面开源，是因为想要鼓励更多企业、开发者参与，通过知识共享和技术创新构建一个更加开放、更加丰富的智能体生态，进而能够带动整个行业更好的发展。

OmAgent 框架不仅包含了感知、记忆、决策等综合模块，并整合融入 OmDet、OmChat 等多个不同类型的大模型能力，极大方便企业与开发者的应用开发，推动智能体技术向更深层次、更广领域的赋能。

通过 OmAgent，能够快速、准确解决各类场景下的复杂问题。比如，从影视剧中总找出某个问题的答案，尽管影片没有直接呈现答案，但是 OmAgent 依然可以通过对全片的整体理解，掌握剧情并根据原片内容进行思考、作答。

Step 01

Step 02

Step 03

Step 04

目前，OmAgent 框架已全面开源。

在 WAIC，联汇科技对 OmAgent 做了完整的现场互动演示。

为了让智能体更快地融入日常工作与生活，联汇正式发布了 Om 多模态智能体全新产品系列 —— 空间运营智能体、知识服务智能体，为行业用户打造「超级助手」。

空间运营智能体是通过摄像头、拾音器等物联设备以及接入的各类数据源对空间物理环境全面感知，深度融入大模型的思考能力，准确处理、分析多模态数据信息，洞察运营中的关键问题、潜在机会，基于智能体角色设定的目标任务，结合记忆和学习，实现面向物理空间的思考、规划与决策，成为用户进行空间管理的得力助手。

应用范围覆盖线下零售、营业厅、机房、产业园区、文旅景区、城市街区等各类单体空间、连锁环境，实现对空间的精细化运营与管理。

相较于空间运营智能体对现实物理世界的运营管理，知识服务智能体更强调对数字世界的管理和对数字资产的价值挖掘。

它可以作为专为行业定制的人工智能助手，广泛应用于办公、生产、运维、营销、培训、客服等场景，将企业、组织和个人在特定领域内积累的经验、技术、业务流程等转化为结构化的行业专用知识，通过知识管理、知识检索、知识问答与知识生成等核心能力，提升用户决策质量、优化操作流程，最终将无形的知识资产转化为有形的生产力。

2024 无疑将是智能体元年，智能体也正在成为大模型落地的最佳途径。

关于未来，赵天成博士透露了他的预判 ——

智能体的未来不是单打独斗，而是大模型的组合拳，尤其是当多种类大模型协同作战时，它们能释放出远超单一大语言模型的潜力。
智能体将打破传统聊天机器人的界限，它们的应用形态将经历一场革新，变得更加多样化和深入人类活动的各个方面。
随着边缘 AI 的兴起，大模型将不再局限于大型服务器，它们将走向边缘，被嵌入到众多小型设备中，实现真正的无处不在。

产业OmAgent多模态智能体联汇科技

相关数据

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

边缘计算技术

边缘运算（英语：Edge computing），又译为边缘计算，是一种分散式运算的架构，将应用程序、数据资料与服务的运算，由网络中心节点，移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解，切割成更小与更容易管理的部分，分散到边缘节点去处理。边缘节点更接近于用户终端装置，可以加快资料的处理与传送速度，减少延迟。在这种架构下，资料的分析与知识的产生，更接近于数据资料的来源，因此更适合处理大数据。

来源：Edge Computing: Vision and Challenges

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

量化技术

深度学习中的量化是指，用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

来源：Medium