用于工业大数据应用的分布式和并行时间序列特征提取
题目:
Distributed and parallel time series feature extraction for industrial big data applications
作者:
Maximilian Christ, Andreas W. Kempa-Liehr, Michael Feindt
来源:
Machine Learning (cs.LG)
Submitted on 25 Oct 2016
文档链接:
https://arxiv.org/pdf/1610.07717v5.pdf
代码链接:
https://github.com/blue-yonder/tsfresh
摘要
特征选择的所有相关问题都是为了识别出所有强相关和弱相关属性。对于诸如预测性维护或生产线优化的工业应用中的时间序列分类和回归两类问题,尤其难解决,其中每个标签特征和回归目标特征同时与若干时间序列和元信息相关联。在这里,我们提出了一种用于时间序列的高效,可扩展的特征提取算法,该算法在机器学习流程的早期阶段过滤可用特征,以及量化确定它们对分类或回归任务的重要程度,同时控制所选但不相关特性的预期百分比。该算法将已有的特征提取方法与特征重要度滤波器相结合。它具有较低的计算复杂度,允许在仅有有限的领域知识的情况下开始一个问题,可以简单地并行化,高度可伸缩,并基于经过充分研究的非参数假设测试。我们针对UCR时间序列分类档案中的所有二分类问题,以及生产线优化项目中的时间序列问题,以及具有潜在动力学定性变化的模拟随机过程,对我们提出的算法进行了基准测试。
要点
为了将机器学习模型应用到工业中,我们扩展了Fulcher和Jones的高度并行的有限元滤波方法,提出了基于可伸缩的假定测试(简称:FRESH)特征提取方法。该算法利用完备的特征映射刻画时间序列,并考虑描述元信息的附加特征。然后,根据每个特征向量在预测被调查目标时的重要性,分别对其进行可靠的评估。这些测试的结果通过P-value值进行量化。表示出每个特性对于预测标签/目标的重要性。这个向量是基于Benjamini-Yekutieli过程进行评估的,以决定保留哪些特征。
本文工作首先介绍第2节中的时间序列特征提取。然后,在第3节中,介绍了新的算法。在第4节中,,在UCR时间序列和工业数据集上对其Python实现的性能进行了评估。然后,第5节讨论了鲜的特性。本工作以第6节中的总结和对未来工作的展望结束。此外,附录A还包含对所考虑的特性映射的概述。
图1:滤波后的特征提取算法的数据处理层。除了贝尼亚米尼-耶库提利程序外,其他所有程序都可以并行计算。
图2:benjamin - yekutieli程序对一个样本的模拟P-Value值进行250个个体特征显著性检验。拒绝假设的目标是控制10%的FER a水平
图3:准确率平均值:UCR时间序列归档的31个两类数据集,iPRODICT研究项目的数据,不同特征提取方法和DTW_NN的准确率。报告的准确性平均超过10倍交叉验证,其中每种方法都可以访问相同的折叠,以确保公平的比较。
图4:精度的标准偏差:此热图显示了在10倍交叉验证期间,不同方法和数据集的组合的精度指标与图3的标准偏差。
图5:在10个特征选择过程中,对10000个不同数量的特征映射样本运行平均特征提取运行时(FRESH和FRESH_PCAa曲线重叠)。我们可以观察到,只有新鲜的和它的变异规模与考虑的特征的数量线性。FRESH_PCAb的红线是对所有特征进行PCA计算,而FRESH PCAa则使用滤波后的特征矩阵
英文原文
The all-relevant problem of feature selection is the identification of all strongly and weakly relevant attributes. This problem is especially hard to solve for time series classification and regression in industrial applications such as predictive maintenance or production line optimization, for which each label or regression target is associated with several time series and meta-information simultaneously. Here, we are proposing an efficient, scalable feature extraction algorithm for time series, which filters the available features in an early stage of the machine learning pipeline with respect to their significance for the classification or regression task, while controlling the expected percentage of selected but irrelevant features. The proposed algorithm combines established feature extraction methods with a feature importance filter. It has a low computational complexity, allows to start on a problem with only limited domain knowledge available, can be trivially parallelized, is highly scalable and based on well studied non-parametric hypothesis tests. We benchmark our proposed algorithm on all binary classification problems of the UCR time series classification archive as well as time series from a production line optimization project and simulated stochastic processes with underlying qualitative change of dynamics.
本文暂时没有评论,来添加一个吧(●'◡'●)