机器之心原创

2024/04/07 00:02

李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头，这是人工智能和计算机视觉令人难以置信的十年！」

知名 AI 科学家李飞飞的计算机视觉「神课」CS231n，又一次开课了。

总共 600 多位学生报名，第一堂课的现场座无虚席：

从 2015 年到如今，CS231n 已经走到九个年头，也成为了一代计算机视觉专业学生心中的「必修课」：

虽然课程代码不变，但可以猜到，2024 年的课程相比 2021 年版本的课程有不少新增内容，这还要归因于视觉生成技术三年来的巨大飞跃。

在今年初的国际消费类电子产品展览会（CES）对话中，李飞飞还给出了对今年计算机视觉领域发展的预测：

「从计算机视觉和所谓的以像素为中心的 AI 领域来说，我确实认为我们正处于非常激动人心的技术进步的边缘。我们一直在关注生成式 AI，我们一直在研究扩散模型，有人可能听说过高斯泼溅（Gaussian Splatting）或这方面的内容。我认为目前的技术浪潮中，有许多成果几乎就要实现突破了。我不确定它是否会像一年多以前的大型语言模型那样成熟，但我越来越多地看到这一点。我对此非常兴奋。」

2024 年的 CS231n 仍由李飞飞主讲：

课程主页：https://cs231n.stanford.edu/

参与本年度 CS231n 的另一位讲师是来自斯坦福医学院的教员 Ehsan Adeli，他与斯坦福人工智能实验室（SAIL）、斯坦福大学人工智能研究所 (Stanford HAI) 均有合作：

课程简介如下：

计算机视觉在我们的社会中已无处不在，在搜索、图像理解、应用程序、制图、医疗、无人机和自动驾驶汽车中都有应用。其中许多应用的核心是视觉识别任务，如图像分类、定位和检测。神经网络（又称深度学习）方法的最新发展大大提高了这些最先进的视觉识别系统的性能。本课程深入探讨深度学习架构的细节，重点是学习这些任务的端到端模型，尤其是图像分类。在为期 10 周的课程中，学生将学习实现和训练自己的神经网络，并详细了解计算机视觉领域的前沿研究。此外，期末作业将让他们有机会在自己选择的真实世界视觉问题上训练和应用数百万参数的网络。通过多个实践作业和期末课程项目，学生将掌握设置深度学习任务的工具集，以及训练和微调深度神经网络的实用工程技巧。

据介绍，2024 CS231n 课程的每个讲座视频都会发布在 Canvas 上。坏消息是，这些视频资料只有在斯坦福大学就读的学生才能获得。

CS231n 课程的迭代，可以说是见证了计算机视觉技术十年来的演进，曾带领许多人完成对这一领域理论的入门。

即使是几年前的 CS231n 课程录像，至今也有很多人在学习、怀念：

众所周知，斯坦福大学的 CS 课程覆盖范围很广。与此同时，斯坦福的另外一个热门课程「CS25：Transformers United V4」的更新，也引起了大家的高度关注：

课程主页：https://web.stanford.edu/class/cs25/

自 2017 年推出以来，Transformer 彻底改变了自然语言处理 (NLP) 领域。现在，Transformer 在深度学习中被广泛使用，无论是计算机视觉 (CV)、强化学习 (RL)、生成对抗网络 (GAN)、语音甚至是生物学。除此之外，Transformer 还能够创建强大的语言模型（如 GPT-3），并在 AlphaFold2 中发挥了重要作用，该算法解决了蛋白质折叠问题。

这就是斯坦福 CS 25 课程诞生的背景。这门课邀请过不同领域 Transformer 研究的前沿人士进行客座讲座，比如 AI 教父 Geoff Hinton 就曾做过讲座，还有 OpenAI 的研究科学家 Mark Chen，主要介绍基于 Transformers 的 GPT-3、Codex；Google Brain 的科学家 Lucas Beyer，主要介绍 Transformer 在视觉领域的应用；Meta FAIR 科学家 Aditya Grover，主要介绍 RL 中的 Transformer 以及计算引擎等。

此前，CS25 会在 Youtube 平台同步课程视频，已经累积了百万播放量。但这一次，CS25 决定把影响力再提升一下：

第一，CS25 会向所有人开放，任何人都可以通过 Zoom 接入直播参与课程。

第二，CS25 每次都会邀请 Transformer 研究前沿的专家分享最新突破 —— 从 GPT 和 Gemini 等 LLM 架构到生成艺术（例如 DALL-E 和 Sora）、生物学和神经科学应用、机器人、复杂游戏的创意用例。

目前已经确定的嘉宾有：OpenAI 的 Jason Wei / Hyung Won Chung、Edward Hu，艾伦人工智能研究所 (AI2) 的 Nathan Lambert，Mistral AI / 剑桥大学的 Albert Jiang 和来自中国公司智谱 AI 的丁铭博士。

第三，参加这门课程的学生唯一的作业是每周参加讲座。

值得注意的是，在 CS25 课程中，除了基于自然语言处理（NLP）的演讲内容之外，也覆盖了视觉 Transformer 的相关内容。

在这个生成式 AI 技术不断更新的时代，如果你也想「紧跟时代潮流」，不妨收藏、学习一番？

入门2024 CS231n李飞飞斯坦福大学

相关数据

李飞飞人物

李飞飞，斯坦福大学计算机科学系教授，斯坦福视觉实验室负责人，斯坦福大学人工智能实验室（SAIL）前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌，担任谷歌云AI/ML首席科学家。2018年9月，返回斯坦福任教，现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启，李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人，Christopher Manning接任该职位。

来源：个人主页维基百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

无人机技术

无人机（Uncrewed vehicle、Unmanned vehicle、Drone）或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统，是DeepMind在2017-2018年中一直在研究的项目，它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多，在生物学的核心挑战之一上取得了重大进展。

来源：机器之心 DeepMind博客

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。

来源：维基百科

生成对抗技术

生成对抗是训练生成对抗网络时，两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

来源：wiki

Zoom机构

http://zoom.us/