由香港中文大学(深圳)赵俊华教授课题组与悉尼大学邱靖教授课题组联合提出的基于新闻事件驱动和大语言模型的时间序列预测方法——《From News to Forecast: Iterative Event Reasoning in LLM-Based Time Series Forecasting》,近期被 AI 领域顶会 NeurIPS 接收。该方法通过大语言模型对时间序列数据和新闻文本的推理,显著提升了在突发事件和社会行为结构性变化时的时间序列预测精度。研究表明,基于文本和 LLM 推理的时间序列预测有望引领新的研究范式。

时间序列预测是经济和社会领域决策的重要依据。传统预测方法虽能识别历史数据中的普遍模式,但在应对外部随机事件引发的突发变化时存在局限,也未能有效关联社会事件与时间序列波动。因此,将现实事件及其对社会和经济行为的影响融入预测,对于提高预测的准确性至关重要。

新闻文章和其他相关文本信息能够提供如突发事件、政策变化、技术进步和公众情绪等关键信息,而这些往往是数值数据难以捕捉的。将这些文本数据融入预测,不仅为模型提供了与人类行为、社会变化和时间序列波动相关的背景知识,还使模型能够结合现实动态,及时调整预测,从而提高预测的准确性和灵活性。

随着大语言模型的广泛应用,一些研究已经开始探索使用语言模型进行时间序列预测的可能性。然而,现有的研究大多只利用了语言模型的映射能力来进行数值回归,而没有充分利用外部文本输入以及语言模型对语言的推理能力。

针对这些局限,该研究首次提出了一种将新闻等补充文本信息嵌入时间序列数据的统一方法,利用大语言模型(LLM)和智能体(Agent)实现时间序列预测。该方法已经在多个与人类活动和市场行为密切相关的领域得到了应用,包括电力市场、比特币、外汇和交通等,显示出其作为解决与社会事件相关的时间序列预测问题的通用方法的潜力。

具体来说,其方法细节包括以下部分:

  • 构建新闻推理大模型智能体:构建具备推理能力且能处理复杂任务的 Reasoning Agent,搜索互联网新闻,动态、高效地筛选与时间序列最相关新闻,并针对新闻事件对于时间序列的影响进行复杂推理。在海量信息噪声中,精准筛选相关新闻是提升预测效果的关键,智能体通过链式推理(CoT),深入分析新闻事件对预测变量的深层影响,而不是依赖简单的关键词提取。

  • 微调预训练大语言模型:将时间序列数据与辅助文本信息(如相关新闻、天气、节假日等)匹配、整合为统一的输入和输出文本数据集。在输入中明确标注关键信息并组成逻辑语句,输出则为预测期内时间序列的实际值。基于此类上下文感知的高质量文本数据集,通过微调预训练大语言模型,将时间序列数值回归转化为基于文本的生成式预测。

  • 迭代评估模型:构建 Evaluation Agent 多次对比模型在验证集数据上的预测效果,识别并整合上一轮筛选中遗漏的关键新闻。借助自动化链式思维(CoT)提示,智能体能够学习遗漏新闻与预测误差的关联,推断特殊事件与预测变量的间接关系,持续优化新闻筛选逻辑。

打开网易新闻 查看更多图片

图 1:预测方法逻辑框图

新闻与时间序列的关系展示:

打开网易新闻 查看更多图片

图 2:筛选新闻与对应时间序列示例。

图 2 展示了智能体筛选的新闻,示例为 2019 年 6 月 10 日至 12 日澳大利亚维州的电力负荷数据。黑色箭头标示特定事件,蓝色曲线显示负荷波动,横轴为时间,纵轴为电力负荷。绿色框中展示了智能体筛选的短期影响新闻(如交通事故)和长期影响新闻(如新建工程项目)。

智能体筛选的新闻主要包括经济或政治事件、公共卫生危机、自然灾害、技术发展和社会情绪变化,例如:

1. 财政政策变化影响汇率;

2. 公共卫生危机(如新冠疫情)影响交通流量和电力负荷;

3.AI 技术突破可能影响比特币价格;

4. 选举或立法影响汇率和区域电力需求。

此外,Evaluation Agent 通过分析预测误差和遗漏新闻,有助于识别那些隐藏的意外或反直觉事件。例如,沙特“碳中和”目标通过影响油价,间接影响澳大利亚经济和汇率,尽管这类新闻表面上并不直接涉及经济政策,但通过碳减排对石油价格和汇率产生了间接影响。

迭代新闻筛选:如图 3 所示,研究将新闻推理与评估智能体结合,以提升新闻数据质量。在初始迭代中,智能体根据时间序列任务建立新闻筛选逻辑,筛选相关新闻并与时间序列数据对齐,输入模型微调。然后,基于验证集上的预测结果,检查遗漏新闻,并将这些信息反馈给智能体以优化新闻筛选规则。该过程持续迭代,直至生成用于训练的最终新闻筛选逻辑。在此过程中,研究使用了 GPT4-Turbo 模型作为智能体中的 LLM。

打开网易新闻 查看更多图片

图 3:新闻筛选与评估提示词流程。

实验结果:

实验结果表明,新闻数据驱动的时间序列预测在外汇、能源、交通和比特币等多个领域显著提升了预测准确性,在处理区域电力负荷需求预测时,效果尤为突出。这项研究为时间序列预测任务提供有价值的见解,促进了语言模型在现实世界场景中的应用。

新闻数据:研究中使用的新闻数据集主要来自 GDELT Dataset、Yahoo Finance 和 News AU 等公开新闻数据,涵盖全球范围内的网络实时新闻。针对预测任务,共收集近 42 万篇新闻文章,这些原始新闻数据为分析各类事件的影响奠定了基础。

其他辅助文本数据:除了新闻数据,研究还利用开源工具获取了额外的数据,以丰富预测模型的背景信息和提高预测的准确性。这些数据包括天气数据(每日温度、大气压力、风速和湿度),日历信息(工作日/周末、节假日),经济指标(GDP、通胀率和就业统计等)。

为验证新闻数据整合的必要性和有效性,团队进行消融实验,比较了四种情境:

1. 纯数值输入:仅使用数值标记,涵盖所有变量和时间序列,但不包含新闻和其他文本补充信息。除区域名称或日期信息外,不加入其他文本标记,作为基准对照组。

2. 纯文本描述:使用文本语句形式的描述,涵盖所有变量、时间序列、其他文本补充信息,但不包含新闻数据。

3. 未筛选新闻与文本描述:使用文本语句形式的描述,涵盖所有变量、时间序列、其他文本补充信息,且包含未筛选的初始新闻。

4. 筛选新闻与文本描述:使用文本语句形式的描述,涵盖所有变量、时间序列、其他文本补充信息,且包含智能体筛选后的新闻。

打开网易新闻 查看更多图片

结果如表 1 所示,引入经过 Agent 筛选后的新闻和其他辅助文本信息,显著提升了基于 LLM 的时间序列预测表现。如果新闻信息未经过仔细筛选,反而会严重影响结果,因为无关新闻带来的噪声和错误因果信息可能导致错误预测。

与现有方法的比较:

打开网易新闻 查看更多图片

与现有的时间序列预测方法相比,研究所提的方法在电力负荷、汇率、比特币等领域明显取得了更好的效果,这充分证明了结合新闻信息在时间序列预测中的潜力。

打开网易新闻 查看更多图片

图 4:引入新闻带来的预测精度增长。

图 4 以电力领域为例,比较了包含和不包含新闻数据的预测结果与实际值,展示了新闻整合对预测模型的影响。引入新闻的预测更接近实际值,尤其在突发事件发生时,如疫情政策宣布、居民电力消费行为更改、区域停电等。

结论:这项研究展示了如何通过基于大语言模型的预测方法和智能体筛选整合新闻信息,提升时间序列预测的效果。LLM 智能体能够自主识别遗漏的新闻、优化逻辑并评估事件对预测的影响,增强模型的智能性。研究强调了整合广泛领域知识的必要性,使预测更具适应性和智能性,与现实动态更加一致。

需要注意的是,虽然新闻整合提升了模型在人类和市场活动影响较大的领域中的预测效果,但在气象或物理等人类活动影响较小的领域中,其表现较弱。此外,LLM 的最大序列长度限制了处理大量时间序列数据的能力,可能导致数据截断,影响长期预测。

团队表示,未来该研究将聚焦扩展模型适用范围和智能程度,为智能体提供一系列工具应用,以进行更复杂的数据分析和推理。同时需要严格审查新闻来源的准确性,防止假新闻传播,确保信息可靠性。未来,该方法还可用于预测 GDP 趋势、碳排放等多领域数据,辅助公共政策制定和规划。

本文的第一作者系悉尼大学博士生王馨蕾。论文可在 Arxiv 上访问:https://arxiv.org/abs/2409.17515

代码和数据已公布在:

https://github.com/ameliawong1996/From_News_to_Forecast