本文盘点了机器之心 2018 年 2 月~12 月的教程精华,分为入门、语言、框架、数据、进阶、人生选择、Just for Fun 七大板块,从基本概念到深度解析,从语言到框架,从读博到就业……既有理论,也有实战;既有精华文章,也有视频、教科书、笔记。总之,你想要的,这里都有。
入门
基本概念
机器学习、深度学习、强化学习……刚入门的你是不是觉得这些概念很难区分?仔细读以下几篇文章,迈出 AI 之路第一步:
入门 | CNN 也能用于 NLP 任务,一文简述文本分类任务的 7 个模型
入门 | 自然语言处理是如何工作的?一步步教你构建 NLP 流水线
入门 | 从 VGG 到 NASNet,一文概览图像分类网络
数学知识
数学在机器学习中非常重要,不论是在算法上理解模型代码,还是在工程上构建系统,数学都必不可少。2018 年,机器之心发布了多位「独秀同学」本着「再看不懂就 sǐ给你看」的态度写的数学知识解读,帮你完成从入门到精通(不放弃)的进阶之路。
专栏 | 从入门到高阶,读懂机器学习需要哪些数学知识(附网盘)
资源 | 用 Python 和 NumPy 学习《深度学习》中的线性代数基础
教材/课程
当然,要成功入门 AI,读几篇文章、掌握一点碎片知识是远远不够的,以下课程、教材帮你系统梳理了入门所需的基础知识。
从基础概念到数学公式,这是一份 520 页的机器学习笔记(图文并茂)
资源 | Bloomberg 推出在线免费课程:《机器学习基础》
一门面向所有人的人工智能公开课:MIT 6.S191,深度学习入门
线性代数与张量?这本开放书籍帮你扫清通往 ML 的数学绊脚石
读论文
学完了入门课程,是时候读一些论文了。但论文那么多,究竟怎么读?这里有两篇文章帮你解锁读论文的正确姿势。
工具
学了这么多理论知识,当然要来点实战检验一下。但在此之前,你还要 get 两样工具——GitHub 和 Jupyter Notebook。前者是一个大型代码库,是开发人员和公司托管项目、文档和代码的常用平台。后者是一款免费、开源的交互式 web 工具,你可以利用该工具将软件代码、计算输出、解释文本和多媒体资源组合在一个文档中。以下几篇文章将告诉你如何更好地利用这两个工具。
业界 | 为什么 Jupyter 是数据科学家们实战工具的首选?
我知道你会用 Jupyter Notebook,但这些插件你都会了吗?
入门 | 敲黑板!你和 GitHub 高手就差这三条规则······
实战
实战开始!Are you ready?
入门 | 无需基础知识,使用 JavaScript 构建你的第一个神经网络
从统计到概率,入门者都能用 Python 试验的机器学习基础
无需深度学习框架,如何从零开始用 Python 构建神经网络
教程 | 用 Scikit-Learn 构建 K-近邻算法,分类 MNIST 数据集
教程 | 通过 Python 实现马尔科夫链蒙特卡罗方法的入门级应用
教程 | 如何使用纯 NumPy 代码从头实现简单的卷积神经网络
资源 |《统计学习方法》的 Python 3.6 复现,实测可用
入门 | 三行 Python 代码,让数据预处理速度提高 2 到 6 倍
入门 | 神经网络词嵌入:如何将《战争与和平》表示成一个向量?
入门 | 自然语言处理是如何工作的?一步步教你构建 NLP 流水线
教程 | 如何在 Tensorflow.js 中处理 MNIST 图像数据
语言
Python
随着机器学习的兴起,Python 逐步成为了「最受欢迎」的语言。它简单易用、逻辑明确并拥有海量的扩展包,因此其不仅成为机器学习与数据科学的首选语言,同时在网页、数据爬取可科学研究等方面成为不二选择。此外,很多入门级的机器学习开发者都是随大流选择 Python(参见《人生苦短,为什么我要用 Python?》)。Stack Overflow 将 Python 称为「增长最快的主要编程语言」,Indeed.com 估计美国的 Python 开发人员平均年收入将超过 JavaScript 和 Java 的开发人员,达到 114,811 美元(参见《业界 | 2018 最流行的编程语言 Top 3(附薪资情况)》)。人生苦短,你还有什么理由不学 Python?
资源 | 开放 Python 书籍:一本短小精悍的初学者入门指南
资源 | Python 技巧 101:这 17 个骚操作你都 Ok 吗
资源 | 忘了 Python 关键语句?这份备忘录拯救你的记忆
世界上最好的 Python 编辑器是什么?我投 PyCharm 一票
资源 | 一个 Python 特征选择工具,助力实现高效机器学习
教程 | 入门 Python 神经机器翻译,这是一篇非常精简的实战指南
业界 | 四大机器学习编程语言对比:R、Python、MATLAB、Octave
Julia
今年 8 月份,Julia 1.0 正式发布,在社区内引发了极大的关注,成为热度上升最快的编程语言之一,下载量超过 200 万次,下载者包括谷歌、Facebook、FAA 和美国能源部等各个部门的开发者。该语言期望结合 C 的速度、Matlab 的数学表征、Python 的通用编程与 Shell 的胶水命令行,并构建开源、自由与便捷的编程语言。想成为斜杠青年,不多学点语言怎么行?
后 Python 时代,Julia 告诉你速度和灵活性真的都可以有
框架
深度学习是机器学习领域最热门的方向之一,而 Python 又是深度学习使用的热门语言,因此,能兼容 Python 的框架非常值得学习。下面我们将介绍两份框架学习教程。
TensorFlow
Kaggle 上的一份排行榜从领英职位需求、谷歌搜索热度、Medium 文章数、arXiv 论文数和 GitHub 活跃度等方面审视了不同的框架,发现 TensorFlow 是绝对赢家。在 GitHub 活跃度、谷歌搜索、Medium 文章数、亚马逊书籍和 arXiv 论文这些数据源上,它所占的比重都是最大的。此外,TensorFlow 还拥有最多的开发者用户,出现在最多的在线职位描述中。因此,框架还要从 TensorFlow 学起。
入门 | 关于 TensorFlow,你应该了解的 9 件事
揭秘框架的本源:开源中文书「TensorFlow 内核剖析」
学习了!谷歌今日上线基于 TensorFlow 的机器学习速成课程(中文版)
从框架优缺点说起,这是一份 TensorFlow 入门极简教程
资源 | 英语不行?你可以试试 TensorFlow 官方中文版教程
入门 | TensorFlow 的动态图工具 Eager 怎么用?这是一篇极简教程
教程 | 如何在 Tensorflow.js 中处理 MNIST 图像数据
资源 | TensorFlow 推出新工具 Seedbank:即刻使用的预训练模型库
TensorFlow 发布重要更新 AutoGraph,自动将 Python 转化为 TF 计算图
PyTorch
自 2017 年 1 月推出以来,PyTorch 热度持续上升,一度有赶超 TensorFlow 的趋势。PyTorch 能在短时间内被众多研究人员和工程师接受并推崇是因为其有着诸多优点,如采用 Python 语言、动态图机制、网络构建灵活以及拥有强大的社群等。因此,走上学习 PyTorch 的道路已刻不容缓。
库、教程、论文实现,这是一份超全的 PyTorch 资源列表(Github 2.2K 星)
还不会使用 PyTorch 框架进行深度学习的小伙伴,看过来
PyTorch 为何如此高效好用?来探寻深度学习框架的内部架构
教程 | 如何通过 PyTorch 上手 Tensor Comprehensions?
从零开始 PyTorch 项目:YOLO v3 目标检测实现
教程 | 从零开始 PyTorch 项目:YOLO v3 目标检测实现(下)
教程 | 如何直观地理解条件随机场,并通过 PyTorch 简单地实现
Oracle 开源 GraphPipe:几行代码让你在 TensorFlow 部署 PyTorch 模型
资源 | 用 PyTorch 搞定 GluonCV 预训练模型,这个计算机视觉库真的很好用
PaddlePaddle
百度深度学习框架 PaddlePaddle 自 2016 年开源以来,受到了业界的广泛关注。不久之前,PaddlePaddle 1.0 正式发布。这一由中国科技巨头开源的首个深度学习框架为我们提供了超全的官方模型支持和最完善的移动端硬件支持。更重要的是,这一框架非常适合国内开发者,有兴趣的geek可以从以下教程入手。
专栏 | 新手入门?一步一步教你如何安装 PaddlePaddle
专栏 | 百度深度学习平台 PaddlePaddle 框架解析
最适合中国开发者的深度学习框架:走向成熟的 PaddlePaddle 1.0
专栏 | 有趣!用计算机视觉技术与 PaddlePaddle 打造 AI 控烟项目
专栏 | 在 PaddlePaddle 上实现 MNIST 手写体数字识别
专栏 | 百度 PaddlePaddle 的新特性与大规模稀疏数据分布式模型训练
专栏 | 云脑科技-实习僧文本匹配模型及基于百度 PaddlePaddle 的应用
数据
数据是人工智能发展的一大基石。这部分教程包含了 AI 研究者、工程师等相关人员需要的数据集和数据可视化方法。
数据集
AI 研发者福利!谷歌推出数据集搜索专用引擎 Dataset Search
入门 | 从文本处理到自动驾驶:机器学习最常用的 50 大免费数据集
资源 |「蜘蛛」来了!耶鲁大学 11 名学生标注完成大规模复杂跨域 Text-to-SQL 数据集 Spider
资源 | 1460 万个目标检测边界框:谷歌开源 Open Images V4 数据集
资源 | 图像配对数据集 TTL:展现人类和机器判断图像相似性的差异
资源 | 百万级字符:清华大学提出中文自然文本数据集 CTW
资源 | 从图像处理到语音识别,25 款数据科学家必知的深度学习开放数据集
资源 | 伯克利发布 BDD100K:目前最大规模开放驾驶视频数据集
资源 | 让 AI 学会刨根问底和放飞自我,斯坦福最新问答数据集 CoQA
资源 | Chinese Word Vectors:目前最全的中文预训练词向量集合
资源 |「火锅问答」是啥?面向自然语言和多步推理问题,新型问答数据集 HotpotQA 面世
数据可视化
教程 | 5 种快速易用的 Python Matplotlib 数据可视化方法
进阶
掌握了基础知识,学了语言、框架,想不想在 AI 之路上再进一步呢?这一部分盘点了机器学习、深度学习、强化学习、计算机视觉、自然语言处理方面的理论知识、实践经验及工程技巧,此外还有全面、深入的详解、综述、竞赛类文章,既适合研究人员,也适合各个领域的工程师阅读学习。
机器学习
资源 | 这是一份收藏量超过 2 万 6 的计算机科学学习笔记
资源 | 吴恩达《ML Yearning》52 章译文,一份很有诚意的 GitHub 项目
斯坦福统计学习理论笔记:Percy Liang 带你搞定「贼难」的理论基础
演讲 | 技术讲解概率机器学习——深度学习革命之后 AI 道路
深度学习
资源 | 吴恩达 deeplearning.ai 五项课程完整笔记了解一下?
302 页吴恩达 Deeplearning.ai 课程笔记,详记基础知识与作业代码
这是一份优美的信息图,吴恩达点赞的 deeplearning.ai 课程总结
深度学习贝叶斯,这是一份密集的 6 天速成课程(视频与 PPT)
教程 | 如何使用 Kubernetes 轻松部署深度学习模型
强化学习
从 Zero 到 Hero,OpenAI 重磅发布深度强化学习资源
MIT 科学家 Dimitri P. Bertsekas 最新 2019 出版《强化学习与最优控制》(附书稿 PDF&讲义)
资源 | Bengio 等人的 2018 夏季课程视频终放出,但有些沉重
资源 | 学到了!UC Berkeley CS 294 深度强化学习课程(附视频与 PPT)
「AlphaGo 之父」David Silver 最新演讲,传授强化学习的十大原则
计算机视觉
深度 | 像玩乐高一样拆解 Faster R-CNN:详解目标检测的实现过程
教程 | 用摄像头和 Tensorflow.js 在浏览器上实现目标检测
从 R-CNN 到 RFBNet,目标检测架构 5 年演进全盘点
从 RCNN 到 SSD,这应该是最全的一份目标检测算法盘点
教程 | GitHub 项目:利用不完整的数据样本补全不完整的图像
教程 | 可视化 CapsNet,详解 Hinton 等人提出的胶囊概念与原理
教程 | 在 Keras 上实现 GAN:构建消除图片模糊的应用
教程 | TF 官方博客:基于 TensorFlow.js 框架的浏览器实时姿态估计
世界上最好的语言 PHP:我也可以用 OpenCV 搞计算机视觉
资源 | 用 PyTorch 搞定 GluonCV 预训练模型,这个计算机视觉库真的很好用
自然语言处理
图解当前最强语言模型 BERT:NLP 是如何攻克迁移学习的?
Facebook 开源 NLP 建模框架 PyText,从论文到产品部署只需数天
教程 | 利用 AllenNLP,百行 Python 代码训练情感分类器
资源 | 正则表达式的功法大全,做 NLP 再也不怕搞不定字符串了
教程 | 比 Python 快 100 倍,利用 spaCy 和 Cython 实现高速 NLP 项目
教程 | 如何通过 Scikit-Learn 实现多类别文本分类?
教程 | 如何使用 LSTM 在 Keras 中快速实现情感分析任务
教程 | 用 TensorFlow Estimator 实现文本分类
教程 | Adrian 小哥教程:如何使用 Tesseract 和 OpenCV 执行 OCR 和文本识别
深度 | 当前最好的词句嵌入技术概览:从无监督学习转向监督、多任务学习
综述/详解/竞赛
深度 | 最优传输理论你理解了,传说中的推土机距离重新了解一下
教程 | 22 分钟直冲 Kaggle 竞赛第二名!一文教你做到
业界 | 如何达到 Kaggle 竞赛 top 2%?这里有一篇特征探索经验帖
人生选择
继续深造还是就业?每个即将走出校门的人面临这种艰难的人生选择,甚至有些已经就业的人也在考虑重新选择。这里有一些过来人给出了一些实用的人生建议/职业指导,希望对你有所启发。
读博
观点 | 机器学习博士生的基本素养:除了硬技能,还要学会与导师相处
专栏 | UC Berkeley 刘畅流博士:湾区五年博士路
我的八年博士生涯——CMU 王赟写在入职 Facebook 之前
我收到了斯坦福、UCL、CMU、NYU、UW 的博士 offer,这是我的经验
就业
从构建关系网到面试最后一问,这是一份 AI 公司应聘全面指南
入门 | 如果是个穷光蛋:如何从零开始学习成为一个数据科学家?
Just for Fun!
2018 年,谷歌的「猜画小歌」在朋友圈火了一把,众多吃瓜群众惊呼「amazing!」这些小程序的出现拉近了 AI 与大众的距离,又好玩又亲切,想不想自己做一个出来玩呢?
教程 | 如何利用 TensorFlow.js 部署简单的 AI 版「你画我猜」图像识别应用
教程 |「川言川语」:用神经网络 RNN 模仿特朗普的语言风格
教程 | 用 Python 实现类 FaceID 的人脸识别?一文告诉你该怎么做
教程 |「世界模型」实现,一步步让机器掌握赛车和躲避火球的技能
教程 | 强化学习训练 Chrome 小恐龙 Dino Run:最高超过 4000 分
往年教程盘点