我院李元祥教授团队在ICML 2025提出“时序问答”新范式 开创时序数据与语言交互研究方向

2025年08月09日 327

      近日,williamhill威廉希尔官网空天智能光电技术实验室李元祥教授团队在人工智能顶级会议International Conference on Machine Learning (ICML 2025)上发表研究论文《ITFormer: Bridging Time Series and Natural Language for Multi-Modal QA with Large-Scale Multitask Dataset》。该工作面向航空发动机运维场景,首次系统性定义“时序问答(Time-Series QA)”任务,并发布首个工业级大规模多任务时序-语言问答数据集 EngineMT-QA,设计了高效的时序多模态大模型框架 ITFormer,为复杂时序数据与自然语言交互提供了全新解决方案。

      在现实工业系统中,工程师常以自然语言提出如“是否存在异常震动”“未来是否需停机检修”等复杂问题,这对模型的交互性、推理能力和多任务泛化能力提出更高要求。而现有时序分析技术多聚焦于分类、预测等封闭式任务,缺乏对开放式问答和多轮交互的支持。ITFormer 可通过一个模型统一完成理解、感知、推理、决策四类复杂任务。该模型允许用户以自然语言提问,例如“当前是否存在流量异常”“某部件是否需维修”等,系统自动从多通道、多周期时序信号中解析并生成专业回答。相比仅支持分类、预测的传统方法,ITFormer 面向现实工业需求,支持多任务泛化、开放式交互与可解释问答。

      ITFormer架构通过轻量桥接模块,实现冻结时序编码器与语言大模型间的高效对齐与融合。核心模块包括:TPE(三层次结构编码)、LIT(可学习任务令牌)、ITA(双阶段指令注意力)、TAL(时序语义语言化),形成从时序建模到语言生成的端到端流程,支撑全任务、多模态问答体系。

      实验结果显示,仅 0.5B 参数规模的 ITFormer 模型便已全面超越大模型 ChatGPT-4o(200B)与 Gemini(175B)等国内外顶尖多模态大模型,在时序理解、感知、推理和决策任务中表现更优,展现出出色的参数效率与专业适配性。同时,ITFormer 还提供 3B 和 7B 等不同规模版本,支持从轻量化边缘部署到高精度复杂分析的多场景灵活应用,满足工业系统在性能与资源之间的不同需求。该研究已在发动机引气系统智能健康监测中展现实际应用潜力。工程师可通过自然语言查询传感器数据状态与风险评估,显著提升了诊断效率与维护决策的智能化水平,标志着时序智能向可交互、可泛化、可解释的新时代迈出关键一步。

 

关于作者

      本研究的通讯作者为李元祥教授,第一作者王艺霖为与国家人工智能学院联合培养博士生。该研究团队研究方向涵盖机器学习理论及在图像识别、飞行器运维、航空气象等领域中的应用。近年来,聚焦于时间序列智能与工业多模态大模型,致力于探索人工智能在大飞机等重大复杂装备运维中的应用,推动大模型与工业系统的深度融合,提升新一代复杂工业系统的智能诊断与运维能力。相关研究成果发表于《IEEE Trans. on Neural Networks and Learning Systems》《IEEE Trans. on Geoscience and Remote Sensing》《IEEE Transactions on Image Processing》《Pattern Recognition》《Reliability Engineering and System Safety》《Advanced Engineering Informatics》《IEEE Internet of Things Journal》等国际学术期刊。

 

关于会议

      International Conference on Machine Learning是机器学习领域最具影响力的国际顶级会议之一,因其前沿性与实践导向而广受认可,在 CCF A 类会议中具有重要地位,其录用成果常被视为引领行业技术发展的风向标。