AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文第一作者陈谋祥是浙江大学计算机四年级博士生,研究方向为时间序列预测、LLM 代码生成和无偏排序学习。通讯作者刘成昊是 Salesforce 亚洲研究院高级科学家,曾提出时序预测基础模型 Moirai。该工作由浙江大学、道富科技和 Salesforce 共同完成。他们提出的 VisionTS 时序预测框架,基于何恺明的代表作 ——MAE 模型。VisionTS 仅从自然图像(ImageNet)中预训练而无需时间序列微调,即可直接跨界比肩(甚至超越)一众强大的时序预测基础模型,如 Moirai 和 TimesFM 等,而这些基础模型均使用了大量时间序列数据预训练。这篇论文证明了:计算机视觉和时间序列这两个看似风马牛不相及的领域,可能具有密切联系。其实,这也符合人类的习惯:我们很难从一串数字序列直接看出规律,但如果将其转成一张时序趋势图,就能更容易地从中看出图片变化的规律。- 论文题目:VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
- 论文地址:https://arxiv.org/abs/2408.17253
- 代码仓库:https://github.com/Keytoyze/VisionTS
图一:VisionTS 无需时序数据微调,即可在零样本情况下超越最大的时序基础模型 Moirai。近年来,预训练基础模型(Foundation Models)已经促进了自然语言处理(NLP)和计算机视觉(CV)领域的变革。通过在大量数据上进行预训练,这些模型在各种下游任务中表现出色,甚至在没有见过的数据上也能很好地完成任务。这种趋势正在推动时间序列预测发生重大变化,从传统的「单数据集训练单模型」 转向「通用预测」,即采用一个预训练模型来处理不同领域的预测任务。第二条路径是从零开始收集大量来自不同领域的时间序列大数据集,直接训练一个基础模型(如 Moirai,TimesFM 等)。然而,不同领域的时间序列数据之间在长度、频率、维度和语义上有很大差异,这限制了他们之间的迁移效果。到目前为止,构建高质量的时间序列数据集仍然充满挑战,处于探索阶段。在本文中,论文作者提出了创新的第三条路径:用预训练好的视觉模型来构建时序预测基础模型。这是因为图像中的像素变化可以自然地看作是时间序列。这一序列和现实中的时序数据有许多相似的特点:1. 相似的形式:图像和时序都是连续的,而语言是离散的。2. 相似的起源:图像和时序是自然信号,源于对真实世界物理现象的观测结果,而语言是人类创造的。3. 相似的信息密度:图像和时间序列通常包含大量冗余数据,而语言的密度更高。4. 相似的时序特征:图像中常见的许多特征也在真实世界的时间序列数据中出现,而这些特征在语言中很少见,如下图所示。 图二:ImageNet 上的一张图片:像素变化序列经常呈现出现实世界时间序列的特点,如趋势性(Trend)、周期性(Seasonality)和稳定性(Stationarity)。
基于这些见解,该论文希望回答这样一个问题:一个在图像上已经训练好的视觉模型,能否直接作为通用时间序列预测的基础模型,一站式加入午餐豪华大礼包?该论文基于提示学习(prompt learning)的思想,将时间序列预测任务重构为 MAE 预训练使用的块级图像补全任务。思路很简单:将时间序列的历史窗口转变为可见的图像块(visible patches),预测窗口转变为被遮挡的图像块(masked patches),如图三所示。对于一个长度为 L 的输入序列窗口,第一个目标是将其转换为二维矩阵。首先将其分割成 L/P 个长度为 P 的子序列,其中 P 是周期长度(如果时间序列没有明显的周期性,可以直接设置 P=1)。接着,这些子序列被堆叠成一个二维矩阵,形状 (P, L/P)。MAE 会对输入进行标准化。因此,该论文提出标准化二维矩阵,将其转变为标准差为 0.4 左右的数据。众所周知,每个图像有三个通道。该论文简单地将归一化后的矩阵渲染为灰度图像,也就是三个通道都相同。考虑到预训练时图像的大小可能与这一矩阵大小不匹配,该论文提出将图像的尺寸从原始的 (P, L/P) 调整为适合 MAE 输入的尺寸。论文作者选择双线性插值来调整尺寸。5. 重建与预测(Reconstruction & Forecasting)在得到 MAE 重建的图像后,可以简单地逆转之前的步骤来进行预测。具体来说,论文作者选择将重建的整个图像重新调整回时间序列的分段,然后提取出预测窗口。测试结果显示,VisionTS 在涵盖多个领域的35个基准数据集上表现出色,涉及时序预测的各种场景。
下表展示了部分数据,其中 VisionTS 在无需时序数据微调的情况下,能够惊人地达到最佳预测性能。零样本情况下,能够比肩甚至超越 Moirai(一个在 27B 通用时序数据上训练的时序大模型),甚至超越了少样本训练的 LLM(TimeLLM 和 GPT4TS)以及其他常用的时序预测模型。这些结果显示,图像→时间序列的迁移能力要强于文本→时间序列,甚至与不同时序数据领域之间的相互迁移能力相当。下图展示了 VisionTS 的一个预测样例,包括输入图像(a)、重建图像(b)以及对应的预测曲线(c)。可以发现,VisionTS 恰当地捕捉了这一数据的周期性和趋势性,而 Moirai 和 Seasonal Naïve 忽略了趋势性。