Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱编辑

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

2023 年的 AI 领域,难以回避「大模型」这个关键词。


半年前 ChatGPT 的发布,在海内外引发了一场大模型之战。多家公司加紧研发,纷纷推出类 ChatGPT 产品,或是宣传要打造「中国的 OpenAI」。

有这样一家公司,却以低调的方式走在了研发和落地的前列。

今年三月初,国产 AI 模型「元乘象 ChatImg」推出「图片对话」功能,不仅支持文字聊天,还能看懂图片上的内容并根据图片内容回答问题。这一多模态对话能力的开放,甚至早于 OpenAI。

一周之后,震撼全球的 GPT-4 发布,同样增加了多模态能力。或许是受到算力成本的限制,这一功能至今仍未对公众开放。

与此同时,我们可以再往前想一步:除了图像输入之外,多模态对话大模型能不能提供优秀的语音输入或者视频输入功能?何时才能变得大众可用?

现在,你已经可以在全新升级后的「元乘象 ChatImg」上体验到这些功能。


在微信公众号「元乘象」的菜单栏,基于 ChatImg 2.0 的「元乘象 ChatImg」各种新能力已开放测试,用户可直接点击进入应用页面。

元乘象 CEO 高一钊介绍说,根据多模态对话数据集(LLaVa)的公开评测,ChatImg2.0 的中文和英文多模态对话能力均超过了目前最好的开源模型。

具体而言,评测给定了 90 个问题,将问题、图像描述、待测模型回答结果和 GPT-4 回答结果一起输入 GPT-3.5,让 GPT-3.5 对比两个回答,分别给出分数(0-10 分),最终的打分是 90 个问题上的总分:

GPT-4 的回答结果是使用 GPT-4 的纯文本版本基于给定的图像描述和目标检测信息作答的,没有真正看到图像。* 代表待测模型针对测试集中的中文问题,绝大部分是用英文回答的,需要提前用 GPT3.5 翻译成中文。

上手测试

ChatImg 2.0 新增了三项重点功能,分别是「语音交互」、「视频输入」、「发现」。

基于这些最新功能,机器之心也上手测试了一番,让我们来看看结果。

首先是「语音交互」,ChatImg 2.0 可以判断出说话人的意图,并及时地回复语音中提出的问题:


然后,机器之心输入了一段八秒的视频,ChatImg 2.0 可以完整地描述视频内容细节:

大胆设想,如果你有一段主题、人物元素属于未知的视频,或许可以借助这个功能来找到答案。

此外,ChatImg 2.0 的「发现」页面提供了多种玩法,用户能够选择自己需要的对话模式,让交互变得更加简单了。


比如,这里机器之心选择了「穿搭建议」,ChatImg 2.0 会迅速给出关于户外环境下的推荐衣着:


让多模态大模型落到行业中去

ChatImg 2.0 的背后,正是 AI 领域的明星初创公司「智子引擎」,近日刚刚宣布完成千万元的天使轮融资。

智子引擎公司 CEO 为中国人民大学高瓴人工智能学院的 90 后博士生高一钊,导师为卢志武,目前卢志武教授也在智子引擎公司担任顾问一职。

早在 2020 年,二人就开启了多模态大模型研发之路。卢志武教授曾主导设计了首个公开的中文通用图文预训练模型文澜 BriVL,并发表于 Nature Communications。该模型经过 6.5 亿弱相关中文图文对的预训练,学习到独特的中文语义理解能力并能很好地将中文语义与视觉信息联系起来,尤其擅长读取中文独有的含蓄语义与图片中的抽象概念。高一钊也深度参与了文澜 BriVL 大模型的研究工作。

当时,多模态大模型尚未如今天一般受到高度关注,但卢志武教授和高一钊却看到了其中蕴含的机遇。这些经验积累,也为 ChatImg 2.0 的打造奠定了理论和实践两方面的深厚基础。

高一钊表示,ChatImg 的诞生恰逢其时,AIGC 在 2022 年爆火,不管是学界还是业界,都开始对生成类大模型产生浓厚的兴趣。特别是在 ChatGPT 发布之后,这种兴趣为大模型领域创业营造了优越的环境。

不过,与市面上的很多 C 端产品不同,团队更希望 ChatImg 扎根到具体的行业当中,去解决 B 端的实际问题。

在传统的创业思路中,可能已经有了比较成熟、清晰的技术路线,再结合市场需求去找商业模式。而今天的大模型算是一种「新的东西」,对于 ChatImg 的创业过程来说,团队则更多去考虑模型本身的能力和产业化方法论,探索技术落地的更多可能。

「如果 ChatImg 被验证在某个行业真的有用、能够受到产业领域的认可,或许会比融到钱更让我们激动。这个事情可以做得很大,相当于 AI 真正颠覆了一个行业。」高一钊表示。

就在 ChatImg 2.0 发布的同一天,这个愿景迈出了重要一步:由智子引擎与软通智慧共同打造的基于多模态大模型 ChatImg 的新型城市治理云「GPT-Creator2.0」正式发布。

智子引擎和软通动力合作签约。


其中,元乘象 ChatImg 提供了中国最领先的多模态大模型,软通智慧提供了城市场景、城市数据和私有化部署及专训,双方的目标是将事件覆盖度及识别准确度提高到 90% 以上、系统部署复杂度降低 50% 以上,以及巡查人员工作量减少到一半。

此外,智子引擎团队联合北京理工大学张伟民教授团队共同打造了一款智能机器人「小象」,为 ChatImg 装上了「身体」。


高一钊表示,多模态通用生成模型有非常广阔的落地应用前景,包括社会治理、实体机器人等落地场景均值得进一步探索。
入门卢志武ChatImg元乘象
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

北京理工大学机构

北京理工大学1940年诞生于延安,是中国共产党创办的第一所理工科大学,是新中国成立以来国家历批次重点建设的高校,首批进入国家“211工程”和“985工程”,首批进入“世界一流大学”建设高校A类行列。

http://www.bit.edu.cn/
相关技术
推荐文章
暂无评论
暂无评论~