Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

墙裂推荐!Karpathy大模型培训课LLM101n上线了,非常基础

让我们训练一个 Storyteller。

图片

今天外网又被 Andrej Karpathy 这一良心课程刷屏了!

项目是 11 小时前被 Karpathy 上传到 Github 的,目的是要构建一个能够创作、提炼和阐释小故事的大语言模型。如今已经被许多网友转发推荐。

图片

项目地址:https://github.com/karpathy/LLM101n

有网友表示,这是 karpathy 老师的新冒险。它将带您从语言建模、机器学习的基础知识开始学习,然后到多模态、RLHF、模型部署。

图片

也有网友称:看起来 karpathy 正在做一门完整的、类似 cs231n 的课程, 《LLM101n》将讲授如何从头开始构建类似 ChatGPT 的模型,非常雄心勃勃!

图片

以下是该课程的项目简介:

在本课程中,我们将构建一个 Storyteller AI 大型语言模型 (LLM),旨在使用 AI 创建、完善和说明小故事,涵盖从基础到类似于 ChatGPT 的可运行 Web 应用程序,并使用 Python、C 和 CUDA 从头开始构建项目,并且只需要最少的计算机科学前提条件。这门课程将使学生对 AI、LLM 和深度学习有相对深入的了解。

教学大纲如下:

  • 第 01 章 Bigram 语言模型(语言建模)

  • 第 02 章 Micrograd(机器学习、反向传播)

  • 第 03 章 N-gram 模型(多层感知器、matmul、gelu)

  • 第 04 章 Attention(attention、softmax、位置编码器)

  • 第 05 章 Transformer(transformer、residue、layernorm、GPT-2

  • 第 06 章 Tokenization(minBPE、字节对编码)

  • 第 07 章 优化(初始化、优化、AdamW)

  • 第 08 章 Deepspeed I:设备(设备,CPU,GPU,...)

  • 第 09 章 DS II:精度(混合精度训练,fp16,bf16,fp8,......)

  • 第 10 章 DS III:分布式(分布式优化、DDP、ZeRO)

  • 第 11 章 数据集(数据集、数据加载、合成数据生成)

  • 第 12 章 推理 I:kv-cache(kv-cache)

  • 第 13 章 推理 II:量化(quantization)

  • 第 14 章 微调 I:SFT(监督微调 SFT、PEFT、LoRA、聊天(chat))

  • 第 15 章 微调 II:RL(强化学习,RLHF,PPO,DPO)

  • 第 16 章 部署(API、Web 应用程序)

  • 第 17 章 多模态(VQVAE、扩散 transformer)

那还等什么,学起来吧!

入门Andrej KarpathyStoryteller
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~