TimesFM时间序列模型:预测零售/金融/制造数据

9 个月前 金融科技 104

TimesFM是Google Research开发的一个预训练时间序列基础模型,使用包含1000亿现实世界时间序列数据集进行了预训练,拥有2亿参数,该模型在各种现实世界的预测基准上展现出令人印象深刻的零样本性能。

零样本性能,指模型在没有接受过任何特定任务训练数据的情况下,对该任务的预测能力。

时间序列预测在零售、金融、制造业、医疗保健和自然科学等各个领域无处不在,比如预测股市、降雨量、流感病例、GDP等各种各样的指标,是一种「基于过去预测未来」的科学。

相比非常容易大量爬取的文本数据,时间序列方面的公共数据集非常稀缺。而且为了训练通用的时序模型,数据集中应该包含大量的(百万级别)来自各种领域的多样化数据,且有不同的时间粒度,比如每小时、每日、每周等。

TimesFM的研究团队设法从三个特别渠道找到了这样的时序数据:

Google Trends中的随时间变化的搜索兴趣重新调整为时间序列

Wikipedia页面每小时浏览量随时间变化的数据

合成数据:使用传统的ARMA流程创建数据集

通过大量的数据集创建和评估工作,他们得到了包含1000亿个数据点的数据集。

虽然和Llama含有1T token的语料库依旧存在一定差距,但在时序预测领域是前所未有的大规模数据集。

相关资讯