2020/01/08 17:27

李泽南作者

AI加持的精准天气预报将从深圳开始：两小时内，一平方公里范围

在天气预报中，我们常常会听到「局部地区」这样的字眼。随着技术的发展，「局部」出现的次数正越来越少。在深圳，大数据和人工智能的融入将在不久之后为我们带来「精准到街区」的个性化天气预报服务。

如果天气预报 APP 能告诉你两个小时后，一平方公里面积内的天气是什么样的，我们的生活方式可能会完全不一样了。

如何让天气预报变得更准确一直是个世界性难题。事实上，现代气象预报的准确度远没有人们想象的那么高。

想必不少人都遭遇过机场因为天气造成的大面积航班晚点的情况，乘飞机出行最怕遇上大雨。如果天气预报更准确一点，或许我们能够提早选择其他航班，而不是在机场苦等一宿。尤其对于深圳这种位于粤港澳湾区，人口密集，时常出现台风、雷暴等天气的城市而言，天气预报的准确性显得尤为重要。

去年 7 月，美国宾夕法尼亚州立大学等机构组成的研究小组开发出了一种用于识别潜在风暴的新模型，基于机器学习算法，可以从卫星图像中识别云的旋转运动。

研究人员发现，基于 AI 的方法可以有效地检测出逗点云型，准确率高达 99%，且平均每次预测仅需 40 秒。这种方法可以有效地预测出 64% 的恶劣天气事件，优于大多数其他现有的预测方法。

目前，虽然全球已经在为气象行业的智慧发展付诸行动，但是气象预报服务仍然面临着不小的挑战。

首先，当前天气预报最大的瓶颈要属雷雨大风、短时强降水等突发灾害性天气预报的准确率，同时预报预警信息精细化程度不高，如何千方百计提高预报预警准确率和提前量，实现定时、定点、定量的精准预报预警是气象部门永远的追求；其次，如何实现气象监测预报预警信息的快速精准发布、主动和被动实时快速获取。是人们获取气象信息「最后一公里」的瓶颈制约；另外，政府、行业和社会公众对气象服务需求具有复杂性，如何满足不同服务对象的个性化需求，进一步提高针对性和有效性实现智慧服务，也是推动气象服务发展不可忽视的关键点。

而人工智能正是能够解决上述瓶颈的一把利刃。

「在深度学习发展起来之后，有很多机构都在探索如何应用更多种类的数据，如大量使用云服务」。华为云人工智能领域总裁贾永利介绍道。「过去科研人员使用雷达去识别云的形态，现在也可以通过摄像头来采集图像，使用 AI 领域里的计算机视觉算法进行分析，这或许会是未来的重要发展方向。」

1 月 6 日，华为云与深圳市气象局签署深度合作协议，双方将就云计算、5G、人工智能等创新技术在气象领域行业的应用和推进、未来技术趋势研究展开合作，共同推动气象精准预报、智慧城市气象服务等业务创新。这意味着，深圳市民将率先享受到由 AI 带来的先进天气预报服务。

对于深圳市气象局而言，利用新兴技术，例人工智能，实现「精准预报服务」是其发展目标之一。通俗一点解释来说，如果将深圳市所在的区域分解成许多个 1 公里×1 公里的网格，而公众就生活在这样一个个的网格中，每个网格中的天气情况也会有所差异。「精准预报服务」计划就是针对这样的每一个网格开展预报的。

与原来的定点预报相比，网格化预报在空间上更加精细，也更具针对性。就拿深圳的预报来说，原来的预报只是以同一定点预报结果代表整个城市的天气情况，但通过开展网格化预报，人们可以在整座城市的每个不同的网格之中享受到更精细的气象服务。

在本次合作中，华为云发挥自己的技术优势，通过云+AI+5G 为深圳市气象局构建新一代超大城市精准预报系统，帮助推出基于智能网格的新一代精准预报，实现智能感知、精准预报等智能化服务，让大众体验到「两小时内、一平方公里范围」的个性化精准天气预报。

首先，在数据分析上，因为气象数据的时空分辨率都非常高（空间上每个像素值代表地面 1 公里 x1 公里的实际大小，时间上 6 分钟收集一次雷达回波样本），造成了数据量极大，普通服务器难以承受如此规模的数据处理和模型训练、推理，这也正是使用华为云 AI 昇腾集群进行模型训练的原因。华为云 AI 昇腾集群服务，可以按需提供强大的 AI 算力，并加速气象预测模型开发进程，对深圳市气象局 10 年的雷达数据进行训练仅仅需要 3 天的时间。

据介绍，华为云 AI 昇腾集群可以极大缩短气象预测模型训练周期，原先需要训练一到两个星期的模型，通过大规模并行计算，可以将训练时间缩短到三天甚至几个小时以内。

在数据存储上，气象局每年存档大约 300TB 的数据，对这些海量的气象资料进行存储需要建设庞大的数据中心，投资大，周期长，而华为云的弹性存储服务可以快速灵活地完成任务。

事实上，气象行业近年来一直在大数据的方向上进行探索——全球很多顶尖超算的算力经常会被用在气象学模型上。各种传感器接收到的气象观测资料都是海量的。据介绍，目前每年全球新增气象资料大约达到了 4PB（约 4×10^6GB），这一切都需要超大规模的 AI 计算资源做支撑。

台风「山竹」流动风场图。

其实，气象数据本质上就是一种时空数据格式，我们需要时间序列预测算法来进行短时气象预测，在这个过程中可以用到卷积神经网络、递归神经网络、对抗性图像生成网络等深度学习算法。相比传统方法，深度学习可以更好地挖掘数据中的时空变化信息，预测准确率可以提高 20% 左右。华为云表示，传统的预测方法可以刻画云团的移动信息，却难以建模云团的生消强弱变化信息，而深度学习很好地弥补了这一点。

经过两个多月研发，研究人员们通过华为云 ModelArts 一站式 AI 开发与管理平台训练了「灾害性天气 AI 气象预测模型」。它可以通过捕捉雷达、云图等数据中的时空关系，建立云团运动、生成和消散的预测模型，从而识别未来两小时内的降雨、雷暴等灾害性天气。在台风来临时，AI 算法还会通过分析卫星实况数据，预测台风可能的移动轨迹。

运用华为云 ModelArts 平台训练短临天气预测 AI 模型

除此之外，华为与深圳市气象局还计划探索有关 5G 的智能化应用，将先进通信技术应用在改进预警信息发布和传播上，开展气象信息发布传播技术应用和市民个性化服务，向市民提供实时预报预警和风险提示信息。

深圳市气象局还计划基于华为云人工智能和图像识别技术，研发云雨等天气现象的自动识别技术，实现天气智能感知：利用 5G 和边缘计算提升气象观测的精度和效率，并通过摄像头采集图像生成云天全景拼图，进行网格化的精准天气预测。

深圳气象局基于灾害风险影响预警信息靶向精准发布系统

从去年 9 月发布 AI 昇腾集群服务起，华为云目前已经开放了带有 2024 块昇腾 910 芯片的昇腾集群服务，众多企事业单位和科研院所已经提出使用申请。

入门华为云卷积神经网络递归神经网络对抗网络

相关技术

机器学习物体识别深度学习人脸识别图像分割

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

边缘计算技术

边缘运算（英语：Edge computing），又译为边缘计算，是一种分散式运算的架构，将应用程序、数据资料与服务的运算，由网络中心节点，移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解，切割成更小与更容易管理的部分，分散到边缘节点去处理。边缘节点更接近于用户终端装置，可以加快资料的处理与传送速度，减少延迟。在这种架构下，资料的分析与知识的产生，更接近于数据资料的来源，因此更适合处理大数据。

来源：Edge Computing: Vision and Challenges

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

云计算技术

云计算（英语：cloud computing），是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

来源：Cloud Computing

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

时间序列预测技术

时间序列预测法其实是一种回归预测方法，属于定量预测，其基本原理是;一方面承认事物发展的延续性，运用过去时间序列的数据进行统计分析，推测出事物的发展趋势；另一方面充分考虑到偶然因素影响而产生的随机性，为了消除随机波动的影响，利用历史数据进行统计分析，并对数据进行适当处理，进行趋势预测。