智能AI
morning
TSFMAudit:预测时间序列基础模型中的数据污染审计
2026-05-27
1 阅读
Hongkai Li, Shifeng Xie, Lefei Shen, Zhuo Li, Mouxiang Chen, Xiaobin Zhang, Han Fu, Jianling Sun, Xiaoxue Ren, Chenghao Liu
arXiv:2605.26161v1 公告类型:新 摘要:时间序列基础模型 (TSFM) 越来越多地在大型语料库上进行预训练,引发了人们对评估数据集可能在预训练期间暴露并因此产生过于乐观的性能估计的担忧。在时间序列中审计此类污染具有挑战性,因为信号是连续且异构的,并且通常缺乏语料库文档。据我们所知,这是第一项研究 TSFM 训练前污染审计的工作。我们形式化了 TSFM 的预训练污染审计问题,并提出了 TSFMAudit,一种基于探针自适应动态的方法。我们的主要直觉是,污染表现为异常有效的适应:经过微调探针后,受污染的数据集往往会表现出更快的损失减少和更小的骨干移动。我们使用记录的培训源证据作为监督,在 6 个 TSFM 和 187 个数据集上评估 TSFMAudit,并与改编自法学硕士文献的 10 个竞争基线进行比较。