2017/04/22 14:29

人工智能研学社 · 入门组 | 一起研习Pedro Domingos的《终极算法》

近些年，人工智能领域发生了飞跃性的突破，更使得许多科技领域的学生或工作者对这一领域产生了浓厚的兴趣。在入门人工智能的道路上，The Master Algorithm 可以说是必读书目之一，其重要性不需多言。作者 Pedro Domingos 看似只是粗略地介绍了机器学习领域的主流思想，然而几乎所有当今已出现的、或未出现的重要应用均有所提及。本书既适合初学者从更宏观的角度概览机器学习这一领域，又埋下无数伏笔，让有心人能够对特定技术问题进行深入学习，是一本不可多得的指导性入门书籍。诙谐幽默的行文风格也让阅读的过程充满趣味。

以这本书为载体，机器之心「人工智能研学社 · 入门组」近期将正式开班！我们邀请所有对人工智能、机器学习感兴趣的初学者加入我们，通过对 The Master Algorithm 的阅读与讨论，宏观、全面地了解人工智能的发展历史与技术原理。本期招新，我们将对课本和加入流程进行介绍，文末还有第一、二章的总结提纲。报名请扫描文中的二维码。我们期待你的加入！

The Master Algorithm 介绍

The Master Algorithm 是一本介绍机器学习的科普性质读物，未涉及公式与代码，不要求读者具备相关的专业知识，一定的理科基础便足以通过阅读概念化的核心算法形成基础的框架式理解。作者 Pedro Domingos 是机器学习领域的资深专家，现任华盛顿大学计算机科学教授，著有多篇机器学习论文且荣获多项顶级科研奖项。全书条理清晰，内容丰富，深入浅出地介绍了机器学习中五大流派的衍生、发展和应用：推崇逆向演绎的符号学派、主张逆行分析的联结学派、模拟自然选择的进化学派、奉行概率推理的贝叶斯学派、以及根据相似性判断作出推理的类推学派。即使目前各种典型算法可以解决具有针对性的特定问题，书中有大量篇幅介绍通用算法的设想，试图将不同学派融为一体，博采众长，以一举解决所有的综合应用问题。作者对通用算法的存在和其即将出现的必然性所怀有的信心渗透在行文的字里行间。

The Master Algorithm Program 是研学社现下推出的一个入门级项目，基于 Pedro Domingos 所著的 The Master Algorithm 的阅读和讨论，旨在聚集起以此书入门机器学习的初学者，鼓励自由提问和开放式讨论，定期汇总问题并整理出相应的诠释，以创建一个有良好氛围的学习社区。项目推出至结束将持续十周，阅读进度为每周一章，每章讨论周期为一周，每周会引入一批新学员，通过相应章节测试题的申请者将被视为合格并会被邀请加入特定微信群。详情如下：

加入机器之心「人工智能研学社 · 入门组」

对于机器学习这样一个既有历史沉淀又有未来前景的技术领域，你一定充满了好奇和想要学习的渴望。也许你在计算机方面已经有了一定的技术积累，但要进入一个新的领域，你可能还是常常感到：

1. 找不到合适的学习策略

2. 有学习动力，但无法坚持

3. 学习效果无法评估

4. 遇到问题缺乏讨论和解答的途径

因此，为了帮助「机器学习新手」进入这一领域，机器之心发起了一个互助式学习小组——「人工智能研学社· 入门组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对机器学习的理解和认知。

面向人群：有一定的计算机技术基础，在机器学习方面处于学习阶段的人

学习形式：学习资料推荐、统一进度学习（章节总结与测验）、群组讨论、专家答疑、讲座等。

加入方式：

1）添加机器之心小助手微信，并注明：加入机器学习入门组

2）完成小助手发送的入群测试（题目会根据每期内容变化），并提交答案，以及其他相关资料（教育背景、从事行业和职务、人工智能学习经历等）

3）小助手将邀请成功通过测试的朋友进入「人工智能研学社· 入门组」

入群问卷

1）教育背景 2）从事行业和职务 3）计算机经历

The Master Algorithm 第一、二章预览

章节概要

第一章主要大体介绍了算法以及算法如何工作的。在此章节中，你也可以概览不同的算法（包括如何创造新算法）。算法的学习方式是不同的，而这种不同会产生影响。关于学习算法，作者给出了生动的暗喻。「学习算法就是种子，数据是土壤，学到的程序就是长出的植物。机器学习专家就像是农民，播种、感概、施肥，照看植物的健康，但在其他方面置身事外。」

在第二章中，主要讨论了一个问题：一个算法怎么能学习如此多不同的、困难的事情？所有的主要学习器（learner)，包括最近邻、决策树、贝叶斯网络、朴素贝叶斯的泛化，只要你给这些学习器足够多的合适数据，它们就能随意的逼近一个函数。

重点

第一章细节

第一章 | 了解学习器：我们所知的学习器，也就是做出其他算法的算法。有了机器学习，计算机能够写自己的程序，所以我们就没必要写了。
第一章 | 为什么商业开始接受机器学习：机器学习是很酷的一项新技术，但这并非商业接受它的原因，而是因为他们别无选择。
第一章 | 为该科学方法增压：生成、测试、放弃或维持假设。
第一章 | 10 亿个比尔·克林顿：学习案例
第一章 | 一个时走陆路，两个时就走网路（Internet)：机器学习的另一应用。
第一章 | 我们要到哪？：总结

第二章细节

在详细列出所有算法之前，作者从不同角度给出了以下论点：

神经科学：大脑中所有的信息表达方式都一样，通过神经元的电刺激（electrical firing）模式。学习机制也是如此：通过强化形成记忆；神经元之间的联结同时激发，使用了一种名为长时程增强（long-term potentiation）的生物化学过程。

大脑就是主算法。有大脑无法学习的东西吗？我们还未见过。

进化：进化是一种算法。它的输入是所有生物的经验和命运。

物理：在物理学中，所有用于不同工程量的同一等式经常描述完全不同领域的现象，例如量子力学、电磁学、流体力学。所有的这些等式相当简单，都涉及到同样少的时间、空间工程量的变体。

这里，主算法就是等式。

统计：一种简单的公式成为所有学习的基础。贝叶斯定理是一个机器能够将数据转化为知识。根据贝叶斯统计理论，这是将数据转化为知识的唯一正确方式。

计算机科学：如果你能有效的解决 NP 类问题中的一个，你就能解决所有的 NP 问题，包括彼此。一个问题是在 P 中，我们是否能有效的解决它，在 NP 中，我们是否能有效的检查它们的解决方案。

主算法像是一台图灵机。

主算法对于算法就像是手对于笔、剑、螺丝刀和叉子。然后，下面是机器学习的 5 个阵营：

符号主义
建构主义（Constructionists)
进化主义
贝叶斯
Analogizers

主要概念

算法：算法是告诉计算机做什么的指令。每个算法都可简化到三种运算：AND、OR、NOT。
学习算法：也被称为学习器，是能做出其他算法的算法。有了机器学习，计算机能写自己的程序，我们就不需要写了。
朴素贝叶斯：朴素贝叶斯是构建分类器的一种简单技术：模型为问题分配类型标签，表达为特征值的向量，其中分类标签来自于有限的数据集。它并非训练这种分类器的唯一算法，但这类算法基于同样的理论：所有的朴素贝叶斯分类器假设特定特征的值独立于其他特征的值，给定类别的变量。例如，如果一种水果是红色、圆的、直径大约为 10 厘米，它可能是苹果。一个朴素贝叶斯分类器将这些特征当成「此水果是苹果」概率的独立贡献，忽视颜色、形状、直径特征之间关联所带来的可能。
最近邻算法：最近邻算法是首个被用来决定旅行推销员问题解决方案的算法之一。其中，推销员随机从一个城市开始，然后反复到最近的城市，直到所有的城市都到过。它能快速的产生最短行程，但通常布施最优规划。
主算法：从过去、现在到未来的所有知识，都可由一种通用学习算法从数据中获得。我们要做的只是提供足够多正确类型的数据。

第一期问题

1. Could a single algorithm learn all that can be learned from data ?

2. Is there an algorithm that can take in any data and assumptions and output the knowledge that's implicit in them ?

3. Can data replace human intuition ?

4. List 3 applications of machine learning in your daily life.

产业机器学习终极算法Pedro Domingos入门书籍