2019/10/15 11:00

AI科技大本营来源龚力校对黄继彦编辑

简单粗暴上手TensorFlow 2.0，北大学霸力作，必须人手一册！（附资源）

本文将为你介绍一本全面详解 TensorFlow 2.0 的手册。

[ 导读 ]TensorFlow 2.0 于近期正式发布后，立即受到学术界与科研界的广泛关注与好评。此前，我们曾特邀专家回顾了 TensorFlow 2.0 从初版到最新版本的发展史。今天，我们将介绍一本全面详解 TensorFlow 2.0 的手册。这本手册是 Google Summer of Code 2019 项目之一，从基础安装与环境配置、部署，到大规模训练与加速、扩展，全方位讲解 TensorFlow 2.0 的入门要点，并附录相关资料供读者参考。

这是一本简明的 TensorFlow 2.0 入门指导手册，基于 Keras 和 Eager Execution（即时运行）模式，力图让具备一定机器学习及 Python 基础的开发者们快速上手 TensorFlow 2.0。

本手册的所有代码基于 TensorFlow 2.0 正式版及 Beta1 版本。

中文指南：

https://tf.wiki/

GitHub链接：

https://github.com/snowkylin/tensorflow-handbook

文中的所有示例代码：

https://github.com/snowkylin/tensorflow-handbook/tree/master/source/_static/code/zh

本手册所有章节如下图，不仅包含 TensorFlow 的概述，还含有基础、部署、大规模训练与加速、扩展，以及附录部分。

前言

此前，TensorFlow 所基于的传统 Graph Execution 的弊端，如入门门槛高、调试困难、灵活性差、无法使用 Python 原生控制语句等早已被开发者诟病许久。一些新的基于动态图机制的深度学习框架（如 PyTorch）也横空出世，并以其易用性和快速开发的特性而占据了一席之地。尤其是在学术研究等需要快速迭代模型的领域，PyTorch 等新兴深度学习框架已经成为主流。作者所在的数十人的机器学习实验室中，竟只有其一人 “守旧” 地使用 TensorFlow。

然而，直到目前，市面上相关的 TensorFlow 相关的中文技术书籍及资料仍然基于传统的 Graph Execution 模式，让不少初学者（尤其是刚学过机器学习课程的大学生）望而却步。由此，在 TensorFlow 正式支持 Eager Execution 之际，有必要出现一本全新的技术手册，帮助初学者及需要快速迭代模型的研究者，以一个全新的角度快速入门 TensorFlow。

同时，本手册还有第二个任务。市面上与 TensorFlow 相关的中文技术书籍大都以深度学习为主线，将 TensorFlow 作为这些深度学习模型的实现方式。这样固然有体系完整的优点，然而对于已经对机器学习或深度学习理论有所了解，希望侧重于学习 TensorFlow 本身的读者而言，就显得不够友好。

于是，作者希望编写一本手册，以尽量精简的篇幅展示 TensorFlow 作为一个计算框架的主要特性，并弥补官方手册的不足，力图能让已经有一定机器学习 / 深度学习知识及编程能力的读者迅速上手 TensorFlow，并在实际编程过程中可以随时查阅并解决实际问题。

适用群体

本书适用于以下读者：

已有一定机器学习 / 深度学习基础，希望将所学理论知识使用 TensorFlow 进行具体实现的学生和研究者；
曾使用或正在使用 TensorFlow 1.X 版本或其他深度学习框架（比如 PyTorch），希望了解 TensorFlow 2.0 新特性的开发者；
希望将已有的 TensorFlow 模型应用于业界的开发者或工程师。

提示

本书不是一本机器学习 / 深度学习原理入门手册。若希望进行机器学习 / 深度学习理论的入门学习，可参考附录中提供的一些入门资料。

TensorFlow 概述

学生和研究者：模型的建立与训练
开发者和工程师：模型的调用与部署
TensorFlow 能帮助我们做什么？

基础

1. TensorFlow 安装与环境配置

TensorFlow 的最新安装步骤可参考官方网站上的说明（https://tensorflow.google.cn/install）。TensorFlow 支持 Python、Java、Go、C 等多种编程语言以及 Windows、OSX、Linux 等多种操作系统，此处及后文均以 Python 3.7 为准。

提示

本章介绍在一般的个人电脑或服务器上直接安装 TensorFlow 2.0 的方法。关于在容器环境（Docker）、云平台中部署 TensorFlow 或在线上环境中使用 TensorFlow 的方法，见附录使用 Docker 部署 TensorFlow 环境和在云端使用 TensorFlow 。软件的安装方法往往具有时效性，本节的更新日期为 2019 年 10 月。

一般安装步骤
GPU 版本 TensorFlow 安装指南
- GPU 硬件的准备
- NVIDIA 驱动程序的安装
- CUDA Toolkit 和 cnDNN 的安装
第一个程序
IDE 设置
TensorFlow 所需的硬件配置 *

2. TensorFlow 基础

本章介绍 TensorFlow 的基本操作。

TensorFlow 1+1
自动求导机制
基础示例：线性回归
- NumPy 下的线性回归
- TensorFlow 下的线性回归

3. TensorFlow 模型建立与训练

本章介绍如何使用 TensorFlow 快速搭建动态模型。

模型（Model）与层（Layer）
基础示例：多层感知机（MLP）
- 数据获取及预处理：tf.keras.datasets
- 模型的构建：tf.keras.Model 和 tf.keras.layers
- 模型的训练：tf.keras.losses 和 tf.keras.optimizer
- 模型的评估：tf.keras.metrics
卷积神经网络（CNN）
- 使用 Keras 实现卷积神经网络
- 使用 Keras 中预定义的经典卷积神经网络结构
循环神经网络（RNN）
深度强化学习（DRL）
Keras Pipeline *
- Keras Sequential/Functional API 模式建立模型
- 使用 Keras Model 的 compile 、 fit 和 evaluate 方法训练和评估模型
自定义层、损失函数和评估指标 *
- 自定义层
- 自定义损失函数和评估指标

4. TensorFlow 常用模块

tf.train.Checkpoint ：变量的保存与恢复
TensorBoard：训练过程可视化
tf.data ：数据集的构建与预处理
- 数据集对象的建立
- 数据集对象的预处理
- 数据集元素的获取与使用
- 实例：cats_vs_dogs 图像分类
@tf.function ：Graph Execution 模式 *
- @tf.function 基础使用方法
- @tf.function 内在机制
- AutoGraph：将 Python 控制流转换为 TensorFlow 计算图
- 使用传统的 tf.Session
tf.TensorArray ：TensorFlow 动态数组 *
tf.config：GPU 的使用与分配 *
- 指定当前程序使用的 GPU
- 设置显存使用策略
- 单 GPU 模拟多 GPU 环境

部署

TensorFlow 模型导出
- 使用 SavedModel 完整导出模型
- Keras Sequential save 方法（Jinpeng）
TensorFlow Serving
- TensorFlow Serving 安装
- TensorFlow Serving 模型部署
  - Keras Sequential 模式模型的部署
  - 自定义 Keras 模型的部署
- 在客户端调用以 TensorFlow Serving 部署的模型
  - Python 客户端示例
  - Node.js 客户端示例（Ziyang）
TensorFlow Lite（Jinpeng）
- 模型转换
- Android 部署
- Quantization 模型转换
- 总结
TensorFlow in JavaScript（Huan）
- TensorFlow.js 简介
  - 浏览器中使用 TensorFlow.js 的优势
  - TensorFlow.js 性能对比
- TensorFlow.js 环境配置
  - 在浏览器中使用 TensorFlow.js
  - 在 Node.js 中使用 TensorFlow.js
  - 在微信小程序中使用 TensorFlow.js
- TensorFlow.js 模型部署
  - 通过 TensorFlow.js 加载 Python 模型
  - 使用 TensorFlow.js 模型库
- TensorFlow.js 模型训练 *

大规模训练与加速

1. TensorFlow 分布式训练

当我们拥有大量计算资源时，通过使用合适的分布式策略，可以充分利用这些计算资源，从而大幅压缩模型训练的时间。针对不同的使用场景，TensorFlow 在 tf.distribute.Strategy 中为我们提供了若干种分布式策略，从而能够更高效地训练模型。

单机多卡训练：MirroredStrategy
多机训练：MultiWorkerMirroredStrateg

2. 使用 TPU 训练 TensorFlow 模型（Huan）

2017 年 5 月，Alpha Go 在中国乌镇围棋峰会上，与世界第一棋士柯洁比试，并取得了三比零全胜战绩。之后的版本 Alpha Zero 可以通过自我学习 21 天即可以达到胜过中国顶尖棋手柯洁的 Alpha Go Master 的水平。

Alpha Go 背后的动力全部由 TPU 提供，TPU 使其能够更快地 “思考” 并在每一步之间看得更远。

TPU 简介
- 什么是 TPU
- 为什么使用 TPU
- TPU 性能
TPU 环境配置
- 免费 TPU：Google Colab
- Cloud TPU
TPU 基础使用

扩展

TensorFlow Hub 模型复用（Jinpeng）
TensorFlow Datasets 数据集载入
Swift for TensorFlow (S4TF) (Huan）
- S4TF 简介
  - 为什么要使用 Swift 进行 Tensorflow 开发
- S4TF 环境配置
  - 本地安装 Swift for Tensorflow
  - 在 Colaboratory 中快速体验 Swift for Tensorflow
  - 在 Docker 中快速体验 Swift for TensorFlow
- S4TF 基础使用
  - 在 Swift 中使用标准的 TensorFlow API
  - 在 Swift 中直接加载 Python 语言库
  - 语言原生支持自动微分
  - MNIST 数字分类
TensorFlow in Julia（Ziyang）
- TensorFlow.jl 简介
  - 为什么要使用 Julia ？
- TensorFlow.jl 环境配置
  - 在 docker 中快速体验 TensorFlow.jl
  - 在 julia 包管理器中安装 TensorFlow.jl
- TensorFlow.jl 基础使用
  - MNIST 数字分类

附录

图模型下的 TensorFlow
- TensorFlow 1+1
- 基础示例：线性回归
使用 Docker 部署 TensorFlow 环境
在云端使用 TensorFlow
- 在 Colab 中使用 TensorFlow
- 在 Google Cloud Platform（GCP）中使用 TensorFlow
  - 在 Compute Engine 建立带 GPU 的实例并部署 TensorFlow
  - 使用 AI Platform 中的 Notebook 建立带 GPU 的在线 JupyterLab 环境
- 在阿里云上使用 GPU 实例运行 Tensorflow（Ziyang）
部署自己的交互式 Python 开发环境 JupyterLab
TensorFlow 性能优化
参考资料与推荐阅读
术语中英对照表

答疑区

（中文）TensorFlow 中文社区 “简单粗暴 TensorFlow” 版面：https://www.tensorflowers.cn/b/48 （中文的疑问和建议请来此处，将以中文回答和讨论。欢迎使用中文的开发者们前来 TensorFlow 中文社区交流讨论）
（英文）https://github.com/snowkylin/tensorflow-handbook/releases （英文的疑问或建议可在 GitHub issue 中提出，会以英文回答）

PDF 下载（旧版）：

中文版：
https://www.tensorflowers.cn/t/6230 （同时也有英文版下载）
英文版：
https://github.com/snowkylin/tensorflow-handbook/releases

搜索页面：

https://tf.wiki/search.html

作者乃北大学霸

最后，我们有必要介绍一下《简单粗暴TensorFlow 2.0》的作者李锡涵。

图片来源：领英据领英资料显示，李锡涵是来自北大信息科学技术学院的准理科硕士生，担任见习顾问和研究助理，2016年本科毕业于浙大竺可桢学院，并在 2015 年以交换生的身份进入交通大学。

李锡涵曾在微软亚研院机器学习组实习，在谷歌还是机器学习方面的GDE（Google Developers Expert），目前的研究重点是基于图的现实场景中多主体强化学习的应用。

THU数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

入门TensorFlow 2.0

相关技术

区块链技术云计算机器学习

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

深度强化学习技术

强化学习（Reinforcement Learning）是主体（agent）通过与周围环境的交互来进行学习。强化学习主体（RL agent）每采取一次动作（action）就会得到一个相应的数值奖励（numerical reward），这个奖励表示此次动作的好坏。通过与环境的交互，综合考虑过去的经验（exploitation）和未知的探索（exploration），强化学习主体通过试错的方式（trial and error）学会如何采取下一步的动作，而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励（accumulated reward）。一般来说，真实世界中的强化学习问题包括巨大的状态空间（state spaces）和动作空间（action spaces），传统的强化学习方法会受限于维数灾难（curse of dimensionality）。借助于深度学习中的神经网络，强化学习主体可以直接从原始输入数据（如游戏图像）中提取和学习特征知识，然后根据提取出的特征信息再利用传统的强化学习算法（如TD Learning，SARSA，Q-Learnin）学习控制策略（如游戏策略），而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

来源：Scholarpedia

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

多层感知机技术

感知机（Perceptron）一般只有一个输入层与一个输出层，导致了学习能力有限而只能解决线性可分问题。多层感知机（Multilayer Perceptron）是一类前馈（人工）神经网络及感知机的延伸，它至少由三层功能神经元（functional neuron）组成（输入层，隐层，输出层），每层神经元与下一层神经元全互连，神经元之间不存在同层连接或跨层连接，其中隐层或隐含层（hidden layer）介于输入层与输出层之间的，主要通过非线性的函数复合对信号进行逐步加工，特征提取以及表示学习。多层感知机的强大学习能力在于，虽然训练数据没有指明每层的功能，但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定，学习算法只需通过模型训练决定网络参数（连接权重与阈值），即可最好地实现对于目标函数的近似，故也被称为函数的泛逼近器（universal function approximator）。

来源：Deep Learning Book

Julia技术

Julia 是MIT设计的一个面向科学计算的高性能动态高级程序设计语言，项目大约于2009年中开始，2018年8月JuliaCon2018 发布会上发布Julia 1.0。据介绍，Julia 目前下载量已经达到了 200 万次，且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外，Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库，这极大地扩展了 Julia 语言的使用范围。

来源：维基百科

TensorBoard技术

一个信息中心，用于显示在执行一个或多个 TensorFlow 程序期间保存的摘要信息。

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

线性回归技术

在现实世界中，存在着大量这样的情况：两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值，但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高，用Y表示他的体重。众所周知，一般说来，当X大时，Y也倾向于大，但由X不能严格地决定Y。又如，城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时，由于室内空调、冰箱等家用电器的使用，可能用电就高，相反，在春秋季节气温不高也不低，用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多，变量之间的这种关系称为“相关关系”，回归模型就是研究相关关系的一个有力工具。

来源：王松桂等编线性统计模型线性回归与方差分析高等教育出版社 Wikipedia

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

操作系统技术

操作系统（英语：operating system，缩写作 OS）是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

来源：百度百科

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

Jupyter技术

Jupyter Notebook（此前被称为 IPython notebook）是一个交互式笔记本，支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和 markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。

来源：百度百科

阿里云机构

阿里云创立于2009年，是全球领先的云计算及人工智能科技公司，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力，让计算和人工智能成为普惠科技。阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云保持着良好的运行纪录。阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。 2014年，阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击，峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中，阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015，阿里云利用自研的分布式计算平台ODPS，377秒完成100TB数据排序，刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日，2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r