Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器学习成功降低数据中心能耗,谷歌打算开源相关技术

虚拟世界是建立在物理世界基础之上的。每次搜索、email 发送、网页投放、时间线留言和视频加载的请求都需要有比足球场还大的数据中心进行处理。在这里,成千上万的服务器机架需要消耗大量能源。全球所有数据中心所消耗的电力大约占世界电力消费的 2%,如果不加控制,服务器的能源需求将会呈指数级增长。所以,提高数据中心的能源效率就显得尤为重要了。


幸运的是,尽管随着新技术的发展,计算需求正在急剧增长,但数据中心用电量在过去几年里已经趋于平稳,这多亏了人们旨在提高效率的各项措施。数据中心节能是一个非常复杂的过程。数据中心的能效标准:能源使用效能(PUE)受到数十个变量的影响。一个典型的数据处理设施包含多种不同设备,有冷却器、冷却塔、水泵、热交换器和控制系统,每一个装置都需要调整自己的运行参数,并以复杂和经常是违反直觉的形式互相影响。如果再将外界温度和风扇温度考虑在内,系统的复杂程度将变得超乎想象。简单地考虑一个模型:假如一个数据中心只有 10 个设备,每个设备具有 10 个设置,这个数据中心会出现 10^10 种设置方式——或者说 100 亿,这个数字远远超过了真实情况下能够一一测试的能力——但实际上,这个数字远远少于数据中心存在的可能配置。


article-machine-learning-inline-1-2x.jpg

比利时,一家数据中心的冷却塔


谷歌拥有大量的数据中心,能耗效率一直是其研究解决的重点问题。在早期,我们决定从头开始设计,构建全新架构的数据中心,使我们可以不断尝试新的冷却技术和运营方式。我们的数据中心采用先进的冷却技术,尽可能使用高效蒸发冷却或外部空气,而不是机械冷却器。我们通过安装智能温度和照明控制系统,并重新设计功率分配机制以最小化能量损失,减少了设施能源的使用量。我们的高性能服务器被定制成尽可能节约能量的形式,去除一切不必要的组件,如显卡,并尽可能保持满负荷运转,这样一来,我们就可以使用更少的服务器去做更多的事。


所有这些努力造就了今天的领先:在 2014 年上半年,谷歌的数据中心相比业内平均节省了 50% 的能源。对于我们来说,下一个问题是,能否更加精益?谷歌工程师 Jim Gao 从机器学习中获得了灵感,决定采用最新技术来解决这个问题。


机器学习赋予了计算机能在没有明确编程的情况下拥有学习能力,它们是通过反复训练进而寻找解释大量数据的方法进行学习。Google 已经使用它来改善翻译和图片识别等功能,如当你向 Google Photos 查询人们拥抱的图片时,它的机器学习算法就能直接找到你所需要的。


article-machine-learning-inline-2-2x.jpg

数据中心内的阀门和压力传感器


Gao 希望通过「挖掘数据中的隐藏结构」来帮助他更好地理解巨量的数据中心信息。「他花费了六个月来构建所有一个数据中心所具备组件的概念验证模型。」他说:「这是超级艰难的代码编写,不过有很多原型都证明这个想法是有效的,它值得追求。」


初步的结果并没有那么有前景。Gao 也承认,「第一次预测完全失败。」「这个模型在预测 PUE 和预测我们的行为结果时表现并不好。」事实上,该模型第一次提出的能源节约最大化建议就是关掉整套设备,严格来说,这个建议并不是不准确定,但也并没有什么实际的帮助。


Gao 说:「我们必须要让我们的人工智能表现得像是有责任感的成人一样,要多一点自律。」他改变了其中的一些变量,重新进行了模拟实验,随着时间的推移不断对模型进行调整,更接近于最准确预测的配置,因此也最有可能提高设施的实际性能。在他觉得他的原型足够精确时,他发表了一份白皮书,并开始与网站运营团队合作,在实际设备的模型建议当中投入使用。


假如一个数据中心只有 10 个设备,每个设备具有 10 个设置,这个数据中心会出现 10^10 种设置方式——或者说 100 亿,这个数字远远超过了真实情况下能够一一测试的能力

同时,谷歌首要的人工智能研究团队 DeepMind 发布的关于 DQN 的论文也引起了轰动。DQN 是一款非常擅长玩 Atari 游戏(所有的 Atari 游戏)的人工智能体。训练一个程序在一个特定的游戏当中获得很好表现是一回事,但是一个可以在所有游戏中自我学习的程序就不一样了。在机器学习社区当中,这是一件非常令人兴奋的事情。当 Gao 听说这件事的时候,他很快就给 DeepMind 的负责人 Mustafa Suleyman 发了一封邮件,主题是:机器学习+数据中心=完美?(Machine learning + data centers = awesome?)


Suleyman 认为 Jim Gao 的成果令人兴奋。很快,DeepMind 便开始与 Gao 还有他的数据中心智能(DCIQ)团队一起开始了更加「强大和通用」任务模型的研究。大多数人不会需要一个只能玩转一种 Atari 游戏的人工智能,人们需要的是一个可以学习所有 Atari 游戏的智能,在数据中心的机器学习应用当中,模型已经开始变得通用化了。建立一个能够为每个数据中心建模的常规程序相对简单,但 Gao 说:「我们认为结果应该更好。如果我们能够创造出每个人都能利用的强人工智能,这个世界就会变得更美好。」


jim gao.jpg

Jim Gao 在谷歌园区


这就是谷歌的努力。在十八个月后,这些模型已在多个设施进行了试点,成功减少了 40%用于冷却的能耗,共计降低了 15%的总能耗。虽然这些实验已经成功地将其中一个 Google 测试数据中心的 PUE 带到了新低点,不断成长的 DCIQ 团队认为它只是机器学习更广泛应用的第一步。谷歌的环保团队希望他们的努力能减少碳排放,硬件部门希望我们能在此基础上进一步减少运行组件的故障率。人们最关心的就是服务器能耗,而机器学习可以帮助他们实现他们想要的效率。


谷歌的经验可以应用到全世界各个角落,」Jim Gao 说道。「我们试图真正开源这个项目,因为我们坚信这些成果也可以使他人受益。」第二份白皮书很快就会出炉,将提供有关 DCIQ 的更多细节,谷歌希望能帮助其他数据中心降低他们的能耗。同时,这也将降低许多其他基础设施(发电厂、工厂等)的数量。我们希望 DCIQ 会进一步帮助其他公司和行业,让地球增添一抹绿色。

产业谷歌大数据数据中心低能耗产业
1
暂无评论
暂无评论~