2024/06/24 10:53

《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

自 ChatGPT 发布以来，大型语言模型（LLM）已经成为推动人工智能发展的关键技术。

近期，机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》，旨在讲解从头开始构建大型语言模型的整个过程，包括如何创建、训练和调整大型语言模型。

最近，Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。

项目地址：https://github.com/rasbt/LLMs-from-scratch/tree/main?tab=readme-ov-file

对 LLM 来说，指令微调能够有效提升模型性能，因此各种指令微调方法陆续被提出。Sebastian Raschka 发推重点介绍了项目中关于指令微调的部分，其中讲解了：

如何将数据格式化为 1100 指令 - 响应对；
如何应用 prompt-style 模板；
如何使用掩码。

《Build a Large Language Model (From Scratch)》用清晰的文字、图表和示例解释每个阶段，从最初的设计和创建，到采用通用语料库进行预训练，一直到针对特定任务进行微调。

具体来说，新书和项目讲解了如何：

规划和编码 LLM 的所有部分；
准备适合 LLM 训练的数据集；
使用自己的数据微调 LLM；
应用指令调整方法来确保 LLM 遵循指令；
将预训练权重加载到 LLM 中。

作者介绍

个人主页：https://sebastianraschka.com/

Sebastian Raschka 是一名机器学习和人工智能研究员，曾在威斯康星大学麦迪逊分校担任统计学助理教授，专门研究深度学习和机器学习。他让关于 AI 和深度学习相关的内容更加容易获得，并教人们如何大规模利用这些技术。

此外，Sebastian 热衷于开源软件，十多年来一直是一个充满热情的开源贡献者。他提出的方法现已成功应用于 Kaggle 等机器学习竞赛。

除了编写代码，Sebastian 还喜欢写作，并撰写了畅销书《Python Machine Learning》（《Python 机器学习》）和《Machine Learning with PyTorch and ScikitLearn》。

^{参考链接：https://twitter.com/rasbt/status/1802327699937009807}

入门Build a Large Language Model (From Scratch)Sebastian Raschka

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。