Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

MIT顶尖机器人学家创业,融资数千万,受线虫启发开发液态网络,叫板OpenAI

机器之能报道

编辑:吴昕


MIT 计算机科学和人工智能实验室 CSAIL 孵化的创业公司—— Liquid AI 终于结束隐身模式,公开与 OpenAI 和其他公司的大型语言模型竞争。

近日,Liquid AI 官宣已筹集 3750 万美元。就种子轮而言,这个数字相当可观。投资人不乏一些大人物,比如 GitHub 联合创始人 Tom Preston Werner、Shopify 联合创始人 Tobias Lütke 和 Red Hat 联合创始人 Bob Young。

融资后,公司估值 3.03 亿美元。

著名机器人学家和计算机科学家、麻省理工学院电气工程和计算机科学系 Andrew 和 Erna Viterbi 教授、MIT CSAIL 主任 Daniela Rus 是这家公司创始人之一。

图片MIT CSAIL 主任 Daniela Rus 是这家公司创始人之一

「今天开发的许多模型都非常庞大,」Daniela Rus 在夏天接受采访时说。「必须建立越来越大的模型似乎不言而喻。但我们要问,这是真的吗?」

生成式 AI 被认为是最强大的AI 工具之一,但在安全、可解释性和巨大算力等方面存在的明显局限性,导致其很难被用于解决复杂的机器人问题,特别是移动机器人问题。

受仅 1 毫米长秀丽隐杆线虫(简称线虫,不少诺奖得主也为之折腰)神经结构启发,Rus 和实验室的博士后们研发了一种基于线虫神经的新型灵活神经网络——液态神经网络
和传统神经网络只是在训练阶段学习不同,新型网络可以边工作边学习,会根据观察到的输入改变基本架构,特别是改变神经元的反应速度,不断适应新情况。
图片四位创始人(从左到右)CEO Ramin Hasani,Daniela Rus,首席科学官Alexander Amini和CTO Mathias Lechner

除了 Daniela Rus,Liquid AI 另三位联合创始人都是 MIT CSAIL 博士后研究人员,都为液体神经网络的发明做出了贡献。

联合创始人兼 CEO Ramin Hasani 进入 MIT CSAIL 从事博士后研究之前,曾是美国最大的基金管理公司之一先锋集团( Vanguard )的首席人工智能科学家。

联合创始人兼 CTO Mathias Lechner 在维也纳工业大学读书时就和 Hasani 一起研究线虫的神经结构。

联合创始人兼首席科学官员  Alexander Amini 是 Daniela Rus 的博士生。
图片
目前公司员工阵容
图片
液体神经网络的想法,源于多年前奥地利维也纳工业大学(Vienna University of Technology) Radu Grosu 教授的实验室。

当时,Hasani 在那里攻读计算机科学博士学位,Lechner 在读硕士学位,两人对绘制秀丽隐杆线虫神经网络的研究产生了兴趣。

线虫仅 1 毫米长,神经系统只有 302 个神经元(人类有大约 860 亿个神经元),位于食物链底层,却能进行一系列高级行为:移动、觅食、睡觉、交配,甚至从经验中学习。

他们意识到,研究线虫的大脑实际上如何工作,也许有助于制造能适应意外情况的弹性神经网络
图片秀丽隐杆线虫也是截至2019年,唯一完成连接组(connectome,神经元连接)测定的生物体。

2017年,Daniela Rus 将 Hasani 和 Lechner 挖到了 MIT CSAIL。Rus 和她的博士生 Amini 也加入到液态神经网络的研究中。

他们发现了使液态神经系统成为可能的计算原理,这反过来又启发他们开发出一个简单的软件神经网络

2020年底,Hasani、Rus、Lechner、Amini 等人发表了一篇题为 Liquid Time-constant Networks 的研究论文,液体神经网络引发不少关注。

去年,他们的研究取得突破性进展,打破了计算瓶颈。这种新型网络可能已经具有足够通用性,在某些应用中取代传统神经网络。10月,以 Closed-form continuous-time neural networks 为题的论文也发表在了 Nature Machine Intelligence 

今年 3 月,Hasani 和 Lechner 成立了这家初创公司,Rus 担任技术顾问和董事会成员。

所谓液体神经网络,首先是指其架构像液体一样,是动态的,具有高度的灵活性和适应性。

标准的神经网络更像是一层层间隔均匀的水坝,每层水坝上安装了许多阀门(权重)。计算的洪流每经过一层水坝,都要透过这些阀门,汇总后再奔向下一层水坝。

液体神经网络不需要这些水坝。

每个神经元都由微分方程 (ODE)控制。这些微分方程参数会根据观察到的输入而变化(也就是说,基本方程是会变化的)。这个变化过程是一个由「非线性函数」控制的概率过程,以此不断适应新的数据输入,从现场环境中学习。

大多数神经网络的行为在接受训练后就是固定的,这意味着,它们不善于适应新输入的数据流的变化。「液体」网络的流动性使其对意外或嘈杂的数据更具弹性(比如大雨遮挡了自动驾驶汽车上的摄像头视野),也更强大。

和动辄数十亿参数规模的生成 AI 模型相比,液体神经网络的另一个特点是规模小得多

比如,GPT-3 包含约 1750 亿个参数和约 50,000 个神经元。而针对诸如在室外环境中驾驶无人机等任务进行训练的液体神经网络可以包含少至 20,000 个参数和不到 20 个神经元
图片今年早些时候,Rus 和 Liquid AI 根据专业无人机飞行员收集的数据训练了一个液体神经网络,然后部署在飞行器上,在一系列户外环境(包括森林和人口稠密的城市社区)中进行远距离目标跟踪和其他测试。结果击败了其他经过训练的导航模型。此外,液体神经网络是唯一一个可以在没有任何微调的情况下可靠地泛化到它从未见过的场景的模型。

从计算的角度来看,更少的参数神经元也使得液态神经网络对算力需求没那么可怕。理论上,被用于自动驾驶汽车的液体神经网络可以在 Raspberry Pi 上运行。他们不需要云,可以在各种机器人硬件平台上运行。
第三,由于尺寸小,架构也简单,液体神经网络也有可解释性方面的优势。

毕竟,弄清楚液体神经网络内每个神经元的功能比弄清楚 GPT-3 中 50,000 个左右神经元的功能更容易。
液体神经网络也有局限性。和其他神经网络不同,液态神经网络青睐「时间序列」数据。
Rus 和 Liquid AI 团队成员声称,该架构适合分析随时间波动的任何现象,包括视频处理、自动驾驶、大脑和心脏监测、金融交易(股票报价)和天气预报等。

只要存在包含序列数据的数据集(例如视频),就可以训练液体神经网络。在实时分析这些数据,并利用它们来预测未来的行为上,液体神经网络比其他最先进的时间序列算法要高出几个百分点。

但是,这个方案并不适用于由静态数据项组成的数据集,比如 ImageNet 。

新方法将如何与 OpenAI 等竞争对手的主流模型相抗衡还有待观察。

Hasani 表示,目前,Liquid AI 没有计划为消费者开发像 ChatGPT 这样的应用程序。公司首先关注希望为金融和医学研究建模的企业客户。

这是我见过的最令人印象深刻的 MIT 科学家群体之一。一些投资人表示,他们被 Liquid AI 的神经网络方法所吸引--——神经网络技术减少了很多「蛮力冗余」,更像是人类的思想。

融资是为了建立下一个模型。从目前所看到的一切来看,如果它能够正确扩展,可能是一项突破性技术。


参考链接
https://www.liquid.ai/#team
https://techcrunch.com/2023/08/17/what-is-a-liquid-neural-network-really/
https://news.mit.edu/2021/machine-learning-adapts-0128
https://www.bostonglobe.com/2023/12/06/business/liquid-ai-boston-chatgpt/
https://techcrunch.com/2023/12/06/liquid-ai-a-new-mit-spinoff-wants-to-build-an-entirely-new-type-of-ai/


产业Liquid AIOpenAI
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

移动机器人技术

移动机器人是一种能够移动的自动机器。移动机器人具有在其环境中移动的能力,并且不固定到一个物理位置。移动机器人可以“自动”主要是指它们能够在没有物理或机电引导装置的情况下导航非受控环境。相比之下,传统的工业机器人或多或少都是固定的(stationary)机械臂或抓取组件。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~