Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Wayde Gilliam作者

使用AMD CPU,3000美元打造自己的深度学习服务器

本文作者详细描述了自己组装深度学习服务器的过程,从 CPU、GPU、主板、电源、机箱等的选取到部件的安装,再到服务器的设置,可谓面面俱到。作者指出,组装者首先要弄清自己的需求,然后根据预算做出合理的选择。

注:本文旨在讨论服务器设置及多用户协作,部件组装和软件安装过程是 Slav Ivanov 关于创建自己的 DL Box 的文章(https://medium.com/m/global-identity?redirectUrl=https://blog.slavv.com/the-1700-great-deep-learning-box-assembly-setup-and-benchmarks-148c5ebe6415)的简化版本。

我刚开始学习 fast.ai 课程的第一部分——「Practical Deep Learning for Coders」,我想搭建自己的服务器来训练模型,作为使用 AWS p2 和存储的升级。我将会使用更大的数据集,并且我不希望在训练模型时因为缺乏足够的处理能力而等待数小时,因此构建自己的 DL rig 服务器对我来说是一个不错的选择,而且从长远来看,它将为我节省大量的时间和金钱,而且可以积累组装服务器的良好经验。

组装

列出部件清单

在准备部件之前,你要弄清楚自己到底想从机器中得到什么。个人而言,我想获得以下改进:

  • 比 Amazon p2 更加强大

  • 容纳额外 GPU、RAM、存储及定制液体冷却的空间

  • 可以用很久的硬件

  • 预算控制在 3000 美元左右

我用 pcpartpicker.com来细化各个部件,因为它可以将对比和组装其它部件变得非常简单,而且还具备很不错的部件兼容性检查器。我将详细解释选择每个部件的原因以及它们如何与整个系统协同工作。以下是我的服务器链接地址:https://pcpartpicker.com/b/CgpG3C。

GPU: GTX 1080 Ti Hybrid

因为你要使用显卡来训练模型,所以这是组装过程中最重要的一部分,因此,GPU 越强大,你处理大型数据集的速度就越快。GPU 内存越大,处理能力也就越强(如:训练速度更快,批尺寸更大……)。我为自己的服务器选了两块这种显卡,因为我在预算里为它们预留了空间,这样我就能用其中一块显卡训练模型,让另一个用户在第二块卡上训练其模型。你可以根据自己的预算缩减 GPU 内存(1070、1060 等),防止与其它部件争抢预算。Hybrid 1080 GPU 也不错,因为除了大多数 GPU 具有的正常风扇冷却之外,它还预装了 aio 水冷系统。1080 Ti 在满负载运行时会过热,因此,在训练模型时,良好的冷却系统对于延长显卡寿命并保持其性能至关重要。关于显卡选择的更多细节,请参见 http://timdettmers.com/2017/04/09/which-gpu-for-deep-learning/,该文帮助我真正了解了如何选择适合深度学习环境的显卡。

CPU: AMD Threadripper 1900x

虽然你用显卡训练神经网络,但 CPU 依然很重要,因为你要用它来进行数据准备等操作,因此那些多核 CPU 将有助于加快速度。我用的是「线程撕裂者」Treadripper,因为这是市面上非常新的一款多核 CPU(ThreadRipper 2 代有 32 个内核!),而且比因特尔价格低得多。1900x 是去年发布的基础版 TR,它只有 8 个内核,不过我对这台服务器的整体目标是保持它的可升级性。

需要注意的一点是,在选择 CPU 时,要确保有 8 或 16 个 pcie 插槽供显卡使用,这样才能保证它们在低负载下发挥最好的性能,否则就有堵塞系统的风险。在高端 CPU 上,如果你的服务器中有 4 个显卡,那么你就有足够的 pcie 插槽。

主板:MSI X399 SLI Plus

选择这块主板是因为它是一块完整的 ATX 板,可容纳 4 个 GPU,RAM 最多可达 128GB。正如我前面所说,这个服务器的主要目标之一是保持它可升级。

内存:32GB Corsair Vengeance LPX DDR4 (2 x 16GB)

内存越大,处理大型数据集就越容易。我的下一个升级计划是再添加两个 16GB RAM 内存条,这也是我没有安装四通道内存(4 个 8GB 内存条)的原因,尽管它会提高我的服务器的性能。

存储:256GB Samsung SSD & 2TB HDD

我把 Ubuntu、我的所有库、我在 SSD 上正在使用的数据集以及手里的其它所有数据都存在 2TB 的机械硬盘上。

冷却器:Corsair H100i v2 液体冷却器

「线程撕裂者」没有备用冷却器(如果你有 30 美元的余款,至少应该买一个便宜的二手冷却器),所以我想要一个可以全天候使用的、便宜又容易维护的冷却器。这款集各种优点于一身的冷却器非常容易安装,而且非常可靠(在数十万台机组中,可能只有一两台发生冷却液泄漏)、安静。

电源:EVGA SuperNOVA 1000w 80 + Gold Certified

最好有一个功率超过技术要求的 PSU。PCPartpicker 的功率计算器能够大致算出你需要多大的功率(我的服务器是 824w),然而它经常在数量上出错,因此最好进行安全操作,以防你的计算机无法打开。「Gold Certified」只是指 PSU 的效率(浪费了多少功率作为热量)。

机箱:Corsair 760T Full Tower

我选择这个机箱是因为它的价格和内部空间大小。虽然它并不能提高你的模型训练速度,但是透明的侧面板和红色的 LED 确实让你看起来更酷。

这幅图里的东西花掉了我一年的积蓄和毕业的钱

把部件整合到一起

你可能不太了解如何组装一台电脑,这个过程其实就像组装一套昂贵的乐高积木一样。任何人都可以做到,因为它真的很简单。我将快速介绍如何组装电脑,并且我强烈建议你在组装自己的电脑时观看完整的视频(https://www.youtube.com/watch??v = IhX0fOUYd8Q)。这些说明几乎适用于任何你正在使用的电脑,就像我上面链接的视频指南一样。

第一步:组装 CPU

这可能是组装电脑过程中最可怕的部分,因为你必须遵循特定的步骤,并且可能由于一些小意外而毁掉价值 430 美元的 CPU(如弄断一个 CPU 的引脚)。不过这一步其实很简单,你只需确保组装前看过视频教程即可。对于 Threadripper 来说,安装过程略有不同,因为在大多数主板上,你不需要「锁紧」处理器,而是使用单个扣架即可。

照片来源:Slav Ivanov

第二步:组装电源设备

电源的安装顺序并没有对错之分,但我喜欢先把 PSU 放进盒子里,因为有些情况下你需要把 PSU 卡进一个插槽里,这样做你才能「穿过主板」。

第三步:组装其它部件

这是至关重要的一步,一旦主板安装好,那其他部分的安装会变得很容易。我将按照如下顺序进行安装:

  1. 安装 RAM。这很简单,只需把内存条向正确的方向移动,并把插槽正确地按进主板即可(请参阅安装手册,因为插槽要根据你拥有的内存条个数决定)。

  2. 安装 CPU 冷却器。唯一的小麻烦是为了与 TR 兼容,我必须更换安装支架,这需要很大的力气。安装散热器需要 8 个螺栓,我已安装完毕。

  3. 安装显卡。只需要把显卡安装到主板的特定卡槽中即可(像内存条一样,参照你的手册,看哪些插槽可以把显卡放入),再把散热器固定在你的机箱上。要确保你的散热器在 GPU 上方。在上图中我犯了个小错误,所以不得不把它重新挂在机箱的前板上。

  4. 安装存储器。为了获得更好的散热效果我卸掉了一块驱动板,所以我把 SSD 和 HDD 放在右下角的单驱动器槽里。

第四步:安装成功?

现在可以打开你的设备了。开始因为我设备的电源键上正负线接反了,所以我的设备并没有成功打开,但后来还是出现了预期的白光和红光。如果一切顺利,你可以看到你的电脑屏幕被点亮,然后主板开始搜索引导设备。

设置服务器

安装操作系统

下一步是安装操作系统。我使用的是 Linux,因为大多数 DL 框架都是针对该系统设计的。使用的台式机是 Ubuntu 16.04 LTS, 用 USB 就可安装全部的东西。有很多像 UNetbootin 或 Rufus(仅用于 Windows)的免费工具,可以先下载到 U 盘中备用。这是一个介绍在 Mac 上创建可启动 USB 的完整过程的教程(https://tutorials.ubuntu.com/tutorial/tutorial-create-a-usb-stick-on-macos?_ga=2.169997348.541383618.1529376295-1852780805.1529376295#0),如果你用 Windows,可以打开此链接:https://www.howtogeek.com/howto/linux/create-a-bootable-ubuntu-usb-flash-drive-the-easy-way/。

设置 SSH

第一步:端口映射

你需要对所有的路由器进行类似处理,如果是 apple 的路由器可以遵循这个指南:https://portforward.com/apple/,操作如下:1. 为你的服务器设置一个静态 IP,防止它在每次关闭时更改。2. 用 Apple Airport Utility 登录你的路由器。3. 为服务器映射端口,完成这一步需要找到服务器的 MAC 地址,如何在 Ubuntu 找到地址可以查看此链接:http://technologyinfinite.blogspot.com/2016/07/three-simple-ways-to-find-mac-address.html。

第二步:创建一个动态 IP 地址

我之前为服务器创建过动态 IP 地址,可以允许我在终端远程连接它。你可以通过该网站(http://canyouseeme.org/)验证它的有效性。

键入一个如下所示的命令连接到我的服务器:

ssh [my_username]@[my_ip] -L 8888:[dl-rig_static_ip]:8889

我的服务器在端口 8888 上运行,jupyter notebooks 运行在 8889 上(-L 选项将指定的本机端口重新定向到不同的主机和端口)。这样我们就可以在本地运行我们的设备,与服务器同时测试,以便训练。如果不想这样,在-L 之前把所有东西输入进去即可。在下一节我会解释如何更改运行 jupyter notebooks 的端口。

安装深度学习/机器学习

现在需要安装所有的与深度学习/机器学习相关的库。我会将安装脚本进行分节,这样你就容易理解这些内容。该脚本是基于 Jeremy Howard』s 编写的 install-gpu.sh(https://github.com/fastai/courses/blob/master/setup/install-gpu.sh),这里边很多东西不仅仅是因为它们是实用性工具,更是因为这也是我们要在 Fastai 中使用的。

首先,我们需要保证系统是最新的,并且安装了所有我们需要的基础工具包:

sudo apt-get update
sudo apt-get --assume-yes upgrade
sudo apt-get --assume-yes install tmux build-essential gcc g++ make binutils unzip
sudo apt-get --assume-yes install software-properties-common
sudo apt-get --assume-yes install git

下一步是下载和安装所有 CUDA GPU 的驱动包:

mkdir ~/downloadscd ~/downloads

wget http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_9.0.176-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu1604_9.0.176-1_amd64.deb
sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda
sudo apt-get --assume-yes upgrade
sudo apt-get --assume-yes autoremove
sudo apt-get install cuda-toolkit-9.0 cuda-command-line-tools-9-0

现在我们开始验证是否正确安装了 CUDA:

sudo modprobe nvidia
nvcc --version
nvidia-smi

现在开始,我们将 CUDA(Nvidia Deep Learning api)添加到路径变量:

cat >> ~/.bashrc << 'EOF'
export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64\
${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
EOF

source ~/.bashrc

下一步是安装 CuDNN 库(创建神经网络所需):

wget http://files.fast.ai/files/cudnn-9.1-linux-x64-v7.tgz
tar xf cudnn-9.1-linux-x64-v7.tgz
sudo cp cuda/include/*.* /usr/local/cuda/include/
sudo cp cuda/lib64/*.* /usr/local/cuda/lib64/

现在我们为当前用户安装 Anaconda:

wget "https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh"
bash "Anaconda3-5.0.1-Linux-x86_64.sh" -b

cd ~

echo "export PATH=\"$HOME/anaconda3/bin:\$PATH\"" >> ~/.bashrc
export PATH="$HOME/anaconda3/bin:$PATH"
conda install -y bcolz
conda upgrade -y --all

下一步,安装 Tensorflow 和 Keras:

pip install --ignore-installed --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow_gpu-1.8.0-cp36-cp36m-linux_x86_64.whl

pip install keras
mkdir ~/.keras
echo '{
    "image_dim_ordering": "tf",
    "epsilon": 1e-07,
    "floatx": "float32",
    "backend": "tensorflow"
}' > ~/.keras/keras.json

接下来,我们将为 Fastai 安装 Python 依赖项:

mkdir -p ~/development/_training/ml
cd ~/development/_training/ml

git clone https://github.com/fastai/fastai.git
cd fastai
conda env update

以下几节将介绍如何配置 jupyter notebook:

# Leaving the next line uncommented will prompt you to provide a password to
# use with your jupyter notebook.
jupass=`python -c "from notebook.auth import passwd; print(passwd())"`
# To hardcode the password to 'jupyter' comment line above and uncomment the line below.
#jupass=sha1:85ff16c0f1a9:c296112bf7b82121f5ec73ef4c1b9305b9e538af

# create ssl cert for jupyter notebook
openssl req -x509 -nodes -days 365 -newkey rsa:1024 -keyout $HOME/mykey.key -out $HOME/mycert.pem -subj "/C=IE"

# configure notebook
echo "c.NotebookApp.certfile = u'/home/{user}/mycert.pem'" >> $HOME/.jupyter/jupyter_notebook_config.py
echo "c.NotebookApp.keyfile = u'/home/{user}/mykey.key'" >> $HOME/.jupyter/jupyter_notebook_config.py
echo "c.NotebookApp.password = u'"$jupass"'" >> $HOME/.jupyter/jupyter_notebook_config.py
echo "c.NotebookApp.ip = '*'" >> $HOME/.jupyter/jupyter_notebook_config.py
echo "c.NotebookApp.open_browser = False" >> $HOME/.jupyter/jupyter_notebook_config.py

要更改默认端口以在(端口 8888)上运行 Jupyter notebook,请取消注释,并输入所需端口。这样就可以在服务器和本地同时运行你的笔记本,也可以在你使用笔记本时让多个用户使用他们自己的笔记本。

#echo "c.NotebookApp.port = 9999" >> $HOME/.jupyter/jupyter_notebook_config.py

现在我们开始配置 tmux,这个工具可以使我们在终端窗口创建多个「窗口」,同时在断开连接后仍能保持程序的运行。因为这个文件能够帮助我们理解 tmux 的所有功能,所以需要检查此文件。它非常的有用,因为你可以在一个窗口中运行你的笔记本,在另一个窗口中监视 GPU 使用,并在第三个窗口中打开一个 linux 终端:

pip install tmuxp
mkdir ~/.tmuxp

接下来,我们将创建 tmuxp 的配置文件,该文件将在一个命令中对开发环境进行设置,这样我们每次想处理事务的时候就无需配置窗口、启用 jupyter notebook 了。对于 fastai 环境,我们将从 tmuxp 加载 fastai 开始。请参见使用 tmuxp 的链接,此处是 bash 脚本中的文档,此链接用于在服务器重启时保存 tmux 会话。现在让我们配置运行环境。

cat > $HOME/.tmuxp/fastai.yml <<tmuxp-config 
session_name: fastai
windows:
- window_name: dev window
  layout: main-vertical
  options:
    main-pane-width: 140
  shell_command_before:
    # run as a first command in all panes
    - cd ~/development/_training/ml/fastai
    - source activate fastai
  panes:
    - shell_command:
      - clear
    - shell_command:
      - clear
      - jupyter notebook
    - shell_command:
      - watch -n 0.5 nvidia-smi
Tmuxp-config

因为我们不再需要这些,所以可以删除安装文件:

cd ~/downloads
rm -rf cuda-repo-ubuntu1604_9.0.176-1_amd64.deb xf cudnn-9.1-linux-x64-v7.tgz Anaconda3-5.0.1-Linux-x86_64.sh        

cd ~

就是这样。在我写这篇文章的时候,服务器一直在全天候运行,无问题、无噪声、非常轻松地通过了训练。

其他参考资料来源:

  • https://www.digitalocean.com/community/tutorials/how-to-set-up-ssh-keys--2

  • https://towardsdatascience.com/building-your-own-deep-learning-box-47b918aea1eb

  • https://medium.com/impactai/setting-up-a-deep-learning-machine-in-a-lazy-yet-quick-way-be2642318850 


原文链接:https://waydegg.github.io/making-a-dl-server.html#making-a-dl-server

工程AMDCPU硬件
51
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

推荐文章
赛福天,听说万达正在谈,要火。