Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Andrej Karpathy最新激进观点:Transformer将超越人脑

还说 AI 可能会与人类融合……

前些天,OpenAI 前首席科学家 Ilya Sutskever 创立的新公司获得 10 亿美元投资的新闻刷遍了各大新闻头条,而 OpenAI 的另一位早期成员和著名 AI 研究者 Andrej Karpathy 则正在「AI+教育」赛道耕耘,其创立的 Eureka Labs 公司正在积极打造其第一款产品。

近日,播客节目 No Priors 发布了对这位著名 AI 研究者的专访视频。

                              来自:No Priors

Andrej Karpathy 曾是 OpenAI 的早期成员之一,之后加入特斯拉领导其自动驾驶的计算机视觉团队。之后他又回到过 OpenAI,领导着一个专注提升 ChatGPT 的GPT-4 的小团队。今年 7 月,他宣布创立了一家名为 Eureka Labs 的 AI+教育公司。

在这个节目中,Andrej Karpathy 分享了有关研究、新公司以及对 AI 未来的期待,其中不乏颇为激进的观点,比如他认为 Transformer 很快就将在性能上超越人类大脑、我们已经在特定的领域实现了有限的 AGI、AI 会成为人类新的大脑皮层……这些观点已经在网上引起了不少的讨论和争议。
图片自动驾驶是 AGI 以及 Waymo vs 特斯拉

首先,Andrej Karpathy 谈到了完全自动驾驶汽车。他说自己在自动驾驶领域工作了 5 年时间,也经常将 AGI 与自动驾驶放在一起类比。他说:「我确实认为我们已经在自动驾驶领域实现了 AGI。」因为现在在旧金山等城市已经有了一些付钱就能乘坐的自动驾驶汽车。这实际上已经成为了一种服务产品。

他还分享了自己十年前乘坐 Waymo 自动驾驶的经历:「十年前一位在那里工作的朋友给我展示了一个 demo,它带我在街区绕了一圈。而十年前它几乎就已经是完美的了,但它还是用了十年时间才从 demo 变成可付费使用的产品。」

他表示,之所以用了这么长时间,一方面是技术原因:demo 和产品之间确实存在巨大差距;另一方面则是监管方面的原因。不过要实现自动驾驶的全球化,还有很长的路要走。

至于 Waymo 和特斯拉哪家强?Karpathy 表示:「人们认为 Waymo 比特斯拉领先,但我认为特斯拉领先于 Waymo。」他表示非常看好特斯拉的自动驾驶项目。而对于这两家公司的问题,他认为特斯拉的问题在于软件,而 Waymo 的问题是硬件。对比之下,软件问题其实更好解决。特斯拉的汽车已经在全世界销售,因此当技术成熟时,特斯拉能更好地实际部署它们。Karpathy 说自己昨天才驾驶过最新的版本,体验非常好,感觉很神奇(miraculous driving)。

他说 Waymo 目前在自动驾驶方面看起来领先,但如果以 10 年为尺度长远来看,特斯拉更可能领先。图片
                              特斯拉自动驾驶功能演示

我们知道,Waymo 和特斯拉采用了不同的技术方法论:
  • Waymo自动驾驶汽车采用了大量昂贵的激光雷达和各式各样的传感器,从而为其软件系统提供全方面的信息支持。

  • 特斯拉则是使用相机,从而能极大地降低系统的复杂性和成本。

对此,Karpathy 表示其实特拉斯也会使用大量昂贵的传感器,但只是在训练时这样做——系统可以借此完成地图测绘等工作。然后再将其蒸馏成一个测试包,并将其部署到只使用视觉信号的系统中。「我认为这是一个睿智的策略。我认为这种策略的效果能得到证明,因为像素具备足够信息,其网络也有足够能力。」

之后他提到了神经网络的重要性。一开始的时候,特斯拉的系统中包含大量人工编写的 C++ 代码,之后神经网络的比重越来越大——先是执行图像检测,然后进行预测,之后更是能发出转向等指令。

他表示,特斯拉最终的自动驾驶系统(比如十年之后)就是一个端到端的神经网络。也就是说,向其输入视频,它就直接给出命令。

人形机器人以及机器人公司特斯拉

Andrej Karpathy 在离开特斯拉之前也参与研究过特斯拉的人形机器人。他认为这是将能改变一切的研究方向。

他说:「汽车其实就是机器人。我认为特斯拉不是一家汽车公司。这有误导性。这是一家机器人公司,大规模机器人公司,因为规模也像一个完全独立的变量。他们不是在制造东西,而是在制造制造东西的机器。」

实际上,人形机器人 Optimus 的早期版本与特斯拉的汽车区别不大——它们有完全一样的计算机和摄像头。在其中运行的网络也是汽车的网络,当然其中需要做一些微调,使其适应步行空间。

图片当伊隆·马斯克决定做人形机器人时,各种 CAD 模型和供应链等等都是现成的,可以从汽车生产线直接拿过来重新配置,就像是电影《变形金刚》中那样——从汽车变成了机器人。

至于人形机器人的第一个应用领域,Karpathy 说:「我认为 B2C 并不是一个正确的起点。」他表示特斯拉的人形机器人最好的客户就是特斯拉自己。这能避免很多麻烦,同时还能检验成果。等产品孵化成熟之后,再进入 B2B 市场,为那些拥有巨大仓库或需要处理材料的公司提供服务。最后才是面向消费者的 B2C 市场。

当被问到为什么要做人形机器人时(因为人形可能并不是完成任务的最佳形态),他说:「我认为人们可能低估了进入任何单一平台的固定成本和复杂性。我认为任何单一平台都有很大的固定成本,因此我认为集中化,拥有一个可以做所有事情的单一平台是非常有意义的。」

而人形是我们熟悉的形态,可以帮助研究者更好地判断操作和采集数据,毕竟我们人类自身就已经证明了人形形态的有效性。另外,人类社会也是为人类设计的,人形平台可以更好地适应这一点。当然,他并不否认这些形态未来可能发生变化。

他强调了迁移学习的重要性。不管形态如何,如果能有一个能迁移到不同形态的神经网络,从而继承原有的智慧和能力,必定会大有用途。

Transformer 可能超越人脑

Andrej Karpathy 称赞了 Transformer 的独特之处:「它不仅仅是另一个神经网络,而是一个惊人的神经网络。」正是因为 Transformer,规模扩展律(scaling laws)才真正得以体现。

Transformer 就像是通用型训练计算机,也就是可微分的计算机。「我认为这实际上是我们在算法领域偶然发现的神奇事物。」当然其中也有个人的创新,包括残差连接、注意力模块、层归一化等等。这些东西加起来变成了 Transformer,然后我们发现它是可训练的,也能具有规模扩展律。

Karpathy 表示 Transformer 还远没到自己的极限。现在神经网络架构已经不是阻碍我们发展的瓶颈了,新的改进都是基于 Transformer 的微小变化。现在的创新主要集中在数据集方面。

互联网数据很多,但 Karpathy 表示这并不是适合 Transformer 的数据。不过互联网上也确实有足够的推理轨迹和大量知识。现在很多的研究活动都是为了将这些数据重构成类似内心独白的格式。

使用合成数据也能大有助益。所以很有趣的一点是:现在的大模型正在帮助我们创造下一代大模型。

不过他也警告了合成数据的风险。合成数据往往多样性和丰富度不足。为此人们想出了一些办法,比如有人发布了一个个性数据集,其中包含 10 亿个不同背景的人物个性。在生成合成数据时,可以让这些不同个性去探索更多空间,从而提升合成数据的熵。

接下来,Karpathy 说虽然 Transformer 和人脑应当谨慎类比,但他认为 Transformer 在很多方面已经超过了人脑。他说:「我认为它们实际上是更高效的系统。它们不如人脑工作的原因主要是数据问题。」比如在记忆力方面,Transformer 可以轻松记住输入的序列,而人脑的工作记忆很小,记忆力表现差得多。虽然人脑的工作机制还没被完全揭示,但可以说它是一种非常随机的动态系统。「我确实认为我们可能会拥有比人脑更好的(Transformer),只是目前还没有实现。」

AI 增强人类以及与人类的融合

AI 能提升人类的生产力和效率,但 Andrej Karpathy 认为 AI 的成就将远不止此。他引用了乔布斯的名言:「计算机是人类心智的自行车。」

他表示,计算机与人类实际上已经有一点融合了。比如我们随身携带的智能手机,现在许多人完全无法离开手机,否则甚至会感觉自己智力都下降了。另一个例子是导航软件让许多人失去了记忆道路的能力,甚至在自家附近也要导航。他表示翻译软件也正渐渐让人们失去直接使用外语沟通的能力。

他说,自己曾看过一个小孩子在杂志进行滑动操作的视频。我们觉得很自然的技术可能在新一代人眼中并不自然。

但如果要实现更高级的融合,还有一些 I/O 问题有待解决。实际上,NeuraLink 就正在做这方面的研究。

他说:「我不知道这种融合会是什么样子。可能会像是在我们的大脑皮层上再构建额外一层皮层。」不过这个皮层可能在云端。

当然,这又会引发对生态系统的担忧。想象一下,如果你的「新皮层」 是寡头垄断的封闭平台,你肯定不会放心。好在我们也有 Llama 等开放平台。与加密货币社区的「不是你的密钥就不是你的币」类似,Karpathy 表示,「不是你的权重就不是你的大脑」。

现在的大模型参数过剩

当被问到蒸馏小模型方面的问题,Karpathy 认为当前的模型浪费了大量容量来记忆无关紧要的事情,原因是数据集没有经过精细化的调整(curation)。而真正用于思考的认知核心(cognitive core)可以非常小,如果它需要查找信息,它会知道如何使用不同的工具。

至于具体的大小,Karpathy 认为会是数十亿的参数量,这可以通过对大模型执行蒸馏来获得。这就类似于互联网数据。互联网数据本身可能是由 0.001% 的认知数据和 99.999% 的相似或无用信息构成的。

当这些模型发挥作用时,它们并不会孤军奋战,而是会协同合作,各自处理自己擅长的任务。这就像是一家公司,他打了个比方,LLM 们会有不同的分工,有程序员和产品经理等。

Karpathy 的教育事业

Andrej Karpathy 离开 OpenAI 后一头扎进了「AI+教育」领域。他说:「我一直是一名教育工作者,我热爱学习和教学。」他谈到了自己的愿景。他认为 AI 领域现在很多工作的目的是取代人,但他更感兴趣的是以 AI 赋能人类。

图片

                             Karpathy 宣布成立「AI+教育」公司 Eureka Labs 的推文

他说:「我正在努力打造一门单一课程。如果你想了解 AI,你只需要看这个课程。」

GitHub 链接:https://github.com/karpathy/LLM101n
(但请注意,课程还没上线。)

他谈到自己曾经在斯坦福大学教过二三十门课程,那是最早的深度学习课程,也很成功。但问题是如何将这些课程普及化,让地球上说不同语言、有不同知识体系的 80 亿人都能理解。对于这样的任务,单一的教师不可能办到,而 AI 却能很好地做到这一点,实现真正的一对一教学。这时候人类教师就不必接触学生了,只需在后端设计课程;AI 会成为教学的前端——它可以说不同的语言,针对学生的具体情况进行教学。Karpathy 认为这是目前可以做到的事情,只是目前还没人把它做出来。

这是一个已经成熟正待摘取的果实。目前在 AI+教育这一赛道上,AI 已经在翻译方面卓有成效,而且已经有能力实现实时现场翻译。

他认为,AI 有望帮助实现教育的普及或者说知识的民主化。

在被问到这门课程大概什么时候上线时,Karpathy 说大概会在今年晚些时候。但他也说现在让他分心的事情很多,所以也可能会在明年初。

对于现在的孩子们该学习什么,他也给出了自己的建议:数学、物理学和计算机科学等学科。他说这些有助于提高思维技能。「在这个前 AGI 时代,这些会很有用。」

参考链接:
https://www.youtube.com/watch?v=hM_h0UA7upI
产业Andrej KarpathyEureka Labs
相关数据
Waymo机构

Waymo是Alphabet公司(Google母公司)旗下的子公司,专注研发自动驾驶汽车,前身是Google于2009年开启的一项自动驾驶汽车计划,之后于2016年独立。2017年10月,Waymo开始在美国亚利桑那州的公开道路上试驾。2018年12月,Waymo在凤凰城郊区推出了首个商业自动乘车服务Waymo One。

http://www.waymo.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

层归一化技术

深度神经网络的训练是具有高度的计算复杂性的。减少训练的时间成本的一种方法是对神经元的输入进行规范化处理进而加快网络的收敛速度。层规范化是在训练时和测试时对数据同时进行处理,通过对输入同一层的数据进行汇总,计算平均值和方差,来对每一层的输入数据做规范化处理。层规范化是基于批规范化进行优化得到的。相比较而言,批规范化是对一个神经元输入的数据以mini-batch为单位来进行汇总,计算平均值和方法,再用这个数据对每个训练样例的输入进行规整。层规范化在面对RNN等问题的时候效果更加优越,也不会受到mini-batch选值的影响。

推荐文章
暂无评论
暂无评论~