赶上最新的AI论文

将自编码器 Shapelets 应用于时间序列聚类。

将自编码器 Shapelets 应用于时间序列聚类。

时间序列

三个要点
✔️ 提出AUTOSHAPE,一种基于自动编码器的小形状方法,在无监督下搜索用于时间序列聚类和学习时间序列部分表征的辨别性小形状
✔️ 提出四个目标:潜在表征的自我监督损失、普遍性和异质性的多样性损失,保留形状的重建损失,以及提高最终聚类性能的联合DBI目标,学习最终的shapelet进行聚类
✔️ 经过验证,AUTOSHAPE与最先进的方法相比,在精度上有明显的竞争力✔️已经对其可解释性进行了评估。

AUTOSHAPE: An Autoencoder-Shapelet Approach for Time Series Clustering
written by Guozhong LiByron ChoiJianliang XuSourav S BhowmickDaphne Ngar-yin MahGrace Lai-Hung Wong
(Submitted on 6 Aug 2022 (v1), last revised 18 Aug 2022 (this version, v2))
Comments: Published on arxiv.

Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code:   

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

最近,人们发现时间序列的小形状是时间序列聚类(TSC)的一个有效的鉴别性子阵列。这意味着shapelets对于解释集群是有用的。目前,TSC的主要挑战是发现高质量的可变长度的小形状,以识别不同的集群。在本文中,我们提出了一种新的自动编码器-小形状方法(AUTOSHAPE),这是第一个利用自动编码器和小形状的优势,以无监督的方式确定小形状的研究。这个自动编码器是专门为学习高质量的形状子而设计的。具体来说,它有以下三个特点。

采用最先进的自监督损失来学习不同变量的可变长度的候选shapelet(时间序列的子序列)的统一嵌入,以指导潜在表征学习,并提出多样性损失来选择统一空间中的可识别嵌入。

- 对于聚类,引入了重构损失来恢复原始时间序列空间中的小形状。

Davies-Bouldin指数(DBI)用于告知AUTOSHAPE在训练期间的聚类性能。

而且,它已经对AUTOSHAPE进行了广泛的实验。单变量时间序列(UTS)的聚类性能评估,在UCR档案数据集上将AUTOSHAPE与15种代表性方法进行了比较。对多变量时间序列(MTS)的性能评估,在30个UEA档案数据集上将AUTOSHAPE与五个竞争方法进行了比较。结果验证了AUTOSHAPE是所有比较方法中最好的。本文还描述了使用shapelets对聚类的解释,以及分别在两个UTS和一个MTS案例研究中获得的关于聚类的有趣直觉。

(文章作者:除了偏移、漂移、尖峰和振荡之外,时间序列数据中还有其他奇特的异常模式。传统上,类似的概念在质量控制中使用西电规则的控制图,但小形状可以看作是这一思想的延伸,而本文介绍的AUTOSHAPE可能具有处理可变长度小形状的优势。本文介绍的AUTOSHAPE可以处理可变长度的小形状,这在现场应用时可能是一个优势。其目的是聚类,而不是异常检测)。

介绍。

时间序列聚类(TSC)在学术界和工业界都有大量的应用,因此提出了许多解决TSC的研究方法。解决TSC问题的经典方法可以分为基于时间序列、基于特征和基于模型的方法。.这些方法涉及原始时间序列本身、特征提取、模型参数转换和应用K-means、DBSCAN或其他聚类算法。TSC的一个最新趋势是在原始时间序列数据中找到一些局部模式或特征。在这些方法中,基于小形状的方法在TSC中多次表现出优异的性能;图1显示了AUTOSHAPE从一个UCR UTS数据集,即ItalyPowerDemand中发现小形状S1的例子。

尽管shapelets最初是为时间序列分类问题而提出的,但关于shapelets的代表性研究表明,它们是可识别的时间序列的子句,并提供可解释的结果。形状单元的可解释性也已经通过关于人类的认知措施进行了评估。首先从无标签的时间序列数据中学习了无监督的小形状(u-shapelets),用于对时间序列进行聚类。可扩展的u型小体方法也被提出,以提高TSCs中小体学习的效率。此外,为了提高聚类的质量,Zhang等人引入了一个无监督的shapelet学习模型,称为ULS。STCN也被提出来同时优化特征提取和自监督聚类。

最近,基于自动编码器的方法(如DEC、IDEC)已被应用于聚类问题,并取得了有效的结果。他们为聚类目的进行优化,学习从原始数据空间到低维空间的映射。然而,它们是为文本和图像聚类而开发的,而不是为时间序列。一些基于自动编码器的方法(如DTC和DTCR)已被提出用于时间序列。这些都是利用自动编码器网络,在几个不同的目标下学习整个时间序列实例的一般表示。学习到的编码器网络自然被用来将原始时间序列嵌入到一个新的表征中,然后用来替代原始数据进行最终聚类(如K-means)。然而,这些方法关注的是整个时间序列实例,忽视了局部特征(时间序列部分)的重要性,并且忽略了聚类的原因,即可解释性。

与上述基于自动编码器的研究不同,我们为不同变量的变长时间序列的子序列(即候选形状单元)学习一个统一的表示。在所有的候选小形状被嵌入到相同的潜在空间后,衡量候选小形状之间的相似性并进一步确定用于聚类的小形状就变得容易了。重要的是,由于采用了自动编码器方法,小形状不再局限于实时序列的子序列,扩大了从原始数据中发现小形状的范围。

在本文中,我们对TSC问题提出了一种新的基于自动编码器的shapelet方法,称为AUTOSHAPE。据我们所知,这是第一个利用基于小形状的方法和基于自动编码器的方法进行TSC的研究。

我们专门设计了四个目标,以学习最终的shapelets进行聚类。

(1) 自监督损失学习时间序列子句子的一般统一嵌入(候选shapelet)。具体来说,采用了聚类的三联体损失,这已被证明在表示时间序列方面是有效的。

(2) 在对所有嵌入进行聚类后,提出多样性损失来学习前k个候选者。学习到的候选者质量很高,有两个特点:他们最接近集群的中心点,从而形成大的集群,而且集群之间的距离很远。

(3) 选定的嵌入物通过重建损失进行解码,得到解码后的shapelet。这样的shapelet保留了原始时间序列的子序列的形状,便于人类解释。然后原始时间序列相对于解码后的shapelets进行转换然后,新的转换后的表征被传递给建立一个聚类模型(例如K-means)。

4)实现聚类结果后,计算Davies-Bouldin指数(DBI)以调整shapelets。

一个自动编码器网络被应用于共同学习时间序列的部分表示,以选择一个高质量的小形状进行转换。用于转换的shapelets不一定限于原始时间序列,而是由自动编码器解码。同时,AUTOSHAPE的重建损失在最终的shapelet中保留了原始时间序列子序列的形状,而不是学习一个与原始时间序列有很大差别的子序列。

对短变量时间序列(UCR档案)和多变量时间序列(UEA档案)都进行了综合实验。结果显示,在恶性互信息含量(NMI)和土地指数(RI)方面,AUTOSHAPE在单变量时间序列(UTS)和多变量时间序列(MTS)的15种和6种代表性方法中分别表现最好。 AUTOSHAPE在36种UTS中表现最好在30个MTS数据集中,有15个数据集的性能最好,这是值得注意的。此外,消融研究验证了自监督损失、多样性损失和DBI目标的有效性;介绍和学习了来自UCR档案的三个例子(人类运动感知、电力需求和图像)和来自UEA档案的一个例子(人类活动感知的脑电图)。描述了shapelets的直觉。

本文的主要贡献可以概括为以下几点

- 为了以无监督的方式发现用于TSC的判别性小形状,我们提出了AUTOSHAPE,这是一种基于自动编码器的小形状方法,可以共同学习时间序列的部分表征。

- 四个目标--潜在表征的自监督损失、普遍性和异质性的多样性损失、保留形状的重建损失和提高最终聚类性能的DBI目标--被专门设计用来学习聚类的最终小形状。设计用于。

- 在UCR(UTS)和UEA(MTS)数据集上进行的广泛TSC实验验证了我们的AUTOSHAPE与最先进的方法相比,在准确性方面明显更具竞争力。

- 学习到的小形状可能不是原始时间序列数据的实际子序列,但它们的可解释性在UTS和MTS数据集的四个案例研究中得到了证明。

相关技术

本节介绍了本方法中使用的基于shapelet和自动编码器的方法。

基于Shapellet的方法

"时间序列小形状:数据挖掘的新基元 "中介绍了小形状方法,强调了其可解释性,随后研究了逻辑小形状、小形状变换、学习小形状、Matrix Profile、高效学习等。关于shapelets的研究主要是针对时间序列分类提出的。"使用无监督的小形体对时间序列进行聚类 "中也提出了无监督的小形体方法(通常称为u小形体)。Ulanova等人还提出了可扩展的u形图方法,这是一种基于哈希的算法,用于有效地发现u形图。

k-Shape依靠一种可扩展的迭代细化方法来生成同质和分离良好的聚类。Zhang等人提出了一种用于TSC的无监督部分学习(USSL模型的提出。它包含了小形状学习、小形状正则化、光谱分析和伪标签分析和伪标签 USSL类似于时间序列小形状学习方法 时间序列小形状学习方法(LTS)用于分类。

自监督时间序列聚类网络(STCNs)通过使用RNNs进行一步式时间序列预测来优化特征提取,捕捉时间序列的时间动态并保留时间序列的局部结构。

无监督的shapelets不仅可以用于时间序列的分类,还可以用于时间序列的聚类,因为它们是在没有任何标签信息的情况下被发现的;Li等人提出了ShapeNet框架,用于发现多变量时间序列分类的shapelets。相比之下,本文是第一个研究如何发现单变量和多变量时间序列的shapelets进行聚类的工作

基于自动编码器的方法。

深度嵌入聚类(DEC)是一种流行的方法,用于使用深度神经网络为许多数据驱动的应用领域同时学习特征表示和集群分配。在学习了低维特征空间后,聚类目标被迭代优化。

Guo等人发现,定义的聚类损失会破坏特征空间,导致无意义的表示。他们提出的算法--改进的深层嵌入聚类(IDEC),可以在不完善的自动编码器下保留数据生成分布的结构。

深度时间聚类(DTC)自然地整合了一个用于降维的自动编码器网络和一个新颖的时间聚类层,用于在一个没有标签的端到端学习框架中对新的时间序列表示进行聚类。DTCR提出了一个seq2seq自动编码器表征学习模型,整合了一个重建任务(用于自动编码器)、一个K-means任务(用于隐藏表征)和一个分类任务(用于提高编码器能力)。

在训练完自动编码器后,经典的方法(如Kmeans)被应用于隐藏的表示。正如本文后面所讨论的,自动编码器的损失函数是专门为确定时间序列聚类的shapelets而设计的。

形状单元的自动编码器(AUTOSHAPE)

在这里,我们提出了一种基于自动编码器的小形状方法,称为AUTOSHAPE,顾名思义,它采用了一个自动编码器网络来搜索小形状。它学会了嵌入它们,同时保留了原始时间序列的部分形状,从而使人们能够直观地了解这些集群。具体来说,AUTOSHAPE使用一个自动编码器网络来学习时间序列参数(候选小形状)的一般统一嵌入,有以下四个目标。

1.自我监督损失
2.多样性损失
3.重新配置损失
4.Davies-Bouldin指数(DBI)目标

该方法使用所有四个目标来共同学习没有标签的小形状;表一总结了所使用的符号及其含义。

shapelet搜索

本节详细介绍了潜在表征的自监督损失,普遍性和异质性的多样性损失,以及学习自动编码器的重建损失。

1)自我监督的损失

其目的是学习不同变量的变长shapelet候选人的统一嵌入。作为一种 自我监督的损失,我们采用了聚类三重损失,它已被 证明能有效地代表时间序列子集,以无监督地学习嵌入聚类三要素损失函数被定义为(i)锚点与多个阳性样本之间的距离(DAP ),(ii)锚点与多个阴性样本之间的距离(DAN )和(iii)每个阳性和阴性的内部距离Dintra 之和。集群式三联体损失被重述。

(符号的解释见原始文件)。

阳性(阴性)样本之间的距离也被包括在内。它包括在内,必须是小(大)号。所有阳性(阴性)样本之间的最大距离由方程2(方程3)给出。

样本内损失的定义如下。

编码器网络,从原始时间序列空间映射到隐藏空间嵌入函数为

它是。该函数采用自监督损失法进行训练。它可以由任何神经网络架构进行参数化,唯一的要求是遵循一个因果顺序(即未来的值不会影响当前的值)。在这里,编码器网络是用时间卷积网络(TCN)实现的。我们还为自动编码器实现了一个递归网络,即vanilla RNN。在下面的实验中,TCN被作为默认网络使用。

2) 多样性损失

自动编码器提出了原始的多样性损失,以发现高质量的多样性小形状。

按照早期研究的协议,USL和DTCR选择不同的小形状进行小形状转换。在新的表示空间中对候选的小形状进行聚类。在聚类之后,会产生几个代表的聚类。最接近每个聚类中心点的候选者被选中。提出了一种多样性损失,它同时考虑了(i)每个群组的大小和(ii)选定的识别候选人之间的距离。

(符号的解释见原始文件)。

多样性损失的设计是为了选择具有两个特征的小形状。代表性的集群大小决定了候选人的普遍性,而距离则表明集群的异质性。

3) 重建的损失

然后,它引入了一个由MSE(平均平方误差)指导的解码器网络作为重建损失。

(符号的解释见原始文件)。

分析:传统的三联体损失只考虑一个锚,正的或负的,并没有充分使用邻里结构的上下文洞察力,而且三联体术语并不总是匹配。为了学习输入数据的一般嵌入,我们提出了自我监控损失,它考虑并惩罚许多积极因素和许多消极因素。此外,对于多样性损失,我们建议选择高质量的小形体进行小形体转换,考虑到两个方面:代表普遍性的大小和代表多样性的距离。重构损失支持最终小形状的可解释性。

形状的调整

在小形状搜索之后,原始时间序列被转化为使用小形状的转换表示。在这里,每个代表是一个向量,其中每个元素是原始时间序列和其中一个小形状之间的欧氏距离。

 

直观地说,它计算较短序列Tp与Tq的最相似子序列(即最佳匹配位置)之间的距离。

1) DBI损失。

一个经典的聚类方法(如K-means)被应用于转换后的表征,然后提出一个DBI目标,以告知shapelets的一些调整。

选择DBI是因为它不需要测量的地面实况,因此与AUTOSHAPE的无监督学习一致。

为了计算损失函数的导数,模型中涉及的所有函数必须是可微的。然而,方程8中的最大函数不是连续和可微的。因此,我们引入了一个最大函数的可微调近似值。为了组织上的清晰,我们在此简化如下。

总损失功能

最后,AUTOSHAPE的总体损失LAS定义如下

其中λ是正则化参数。

通过最小化整体损失(公式10),联合学习了用于转换的小形状(见图2)。在生成候选小形状后,(i)LTriplet学习潜在的表征,以便候选小形状捕捉其属性 LDiversity选择具有普遍性和异质性的候选人(iii)LReconstruction重建潜在的表征,并保留了候选者的形状然后,它将聚类算法(如K-means)应用于由选定的小形状候选者转化的表示。 从聚类结果中计算出LDBI,以调整shapelets,提高最终聚类性能

所有损失函数都对编码器网络进行建模,而重建损失和DBI损失只构建解码器网络。

关于该算法的更多信息,请参见原始论文。它由小形状搜索、小形状变体和复杂性分析等模块组成�

实验

首先,介绍了用AUTOSHAPE和15种相关方法在UCR(单变量)数据集上进行的综合实验。接下来,我们报告了AUTOSHAPE与五种相关方法的比较结果,特别是在UEA(多变量)数据集上;与AUTOSHAPE比较的方法是STCN、DTCR和USSL。

实验装置。

所有的实验都是在一台装有两台Xeon E5-2630v3 @ 2.4GHz (2S/8C) / 128GB RAM / 64GB SWAP和两台NVIDIA Tesla K80的机器上进行的,安装在CentOS 7.3(64位)上。

本实验中使用的关键参数--批次大小、通道数量、卷积网络核大小和网络深度--分别被设置为10、40、3和10。学习率被固定为一个很小的值η=0.001,网络训练次数被设定为400次。形状子的数量选自{1,2,5,10,20}。滑动窗口的长度(即候选小形状的长度)在{0.1, 0.2, 0.3, 0.4, 0.5}的不同范围内被尝试。每个数字代表原始时间序列长度的一个百分比(例如,0.1意味着原始时间序列长度的10%)。形状子的数量和长度符合LTS、ShapeNet和USSL。

比较法

本节比较了15种典型的TSC方法,并在下文中对每种方法进行了简要介绍。

K-means: K-means是对整个原始时间序列进行的。

UDFS无监督 判别特征选择方法(l2,1-norm正则化)。

NDFS :通过非负谱分析进行非负判别性特征选择。

RUFS :使用正交非负矩阵分解的鲁棒性无监督判别特征选择。

RSFS :用于无监督特征提取的鲁棒性谱系学习和稀疏图嵌入。

KSC :用于K-means的成对缩放距离和中心点计算的光谱规范。

KDBA :K-means聚类中的动态时间扭曲加权平均法。

k-Shape :一个可扩展的迭代细化程序,在归一化的交叉相关度下搜索形状。

U-shapelets:发现无标签的shapelets。发现用于时间序列聚类的无标记的shapelets。

USSL :利用小形状正则化、频谱分析和伪标签从无标签的时间序列中学习突出的子序列。

DTC :时间序列数据的自动编码器。用于时间序列降维的自动编码器和一个新的时间序列聚类层。

DEC :一种同时学习特征表示和聚类的方法。同时学习特征表示和集群分配的方法。一种利用深度神经网络同时学习特征表示和集群分配的方法。

IDEC :通过用自动编码器操作特征空间来分散数据点,以聚类损失为指导。

DTCR :利用时间重建、K-means和分类学习特定集群的隐藏时间表征。

STCN :一个自我监督的时间序列聚类 框架,共同优化了特征提取和时间序列聚类。

单变量时间序列的实验。

它遵循以往研究中使用的协议,如k-Shape, USSL, DTCR和STCN。

测试了来自UCR档案的36个数据集,这是一个著名的时间序列数据集的基准。关于这些数据集的更多信息可以从UCR时间序列分类档案获得

归一化互信息含量(NMI)被用作评估方法的指标,因为在RI(兰特指数)的结果中可以看到类似的趋势,RI的背景在补充材料中给出(见原始论文)。NMI接近1表示高质量的聚类。结果是10次运行的平均值,所有数据集的标准偏差都小于0.005。

1) 单变量时间序列的NMI

所有的基线NMI结果都来自原始出版物;36个UCR数据集的整体NMI结果见表二。

从表二可以看出,AUTOSHAPE的整体性能在15种比较的方法中排名第一。此外,AUTOSHAPE在10个数据集上表现最好,而且比其他方法好得多,但STCN除外:AUTOSHAPE的1:1 Wins NMI数至少是USL、DTCR和STCN的1:1损失的1.6倍,而且AUTOSHAPE在一些数据集上取得了更高的NMI数,如BirdChicken和ToeSegmentation1.在1对1-Losses数据集上的结果与USL相似(如Ham,Lighting2)和DTCR(如Car,ECGF5Days),结果略低。

2)弗里德曼和威尔科克森测试

对于所有的方法,我们使用Holm's alpha(5%)进行Friedman和Wilcoxon签名排名测试。Friedman测试是一个非参数统计测试,用于检测15种方法的36个数据集的差异我们的统计学意义是P < 0.001,小于α = 0.05。因此,我们拒绝无效假设,并发现所有15种方法都有显著差异。

然后在所有方法之间进行事后分析。结果由图3中的临界差分图显示出来。

粗横线将没有明显差异的方法集合在一起--注意,除了STCN、DTCR和USL,AUTOSHAPE明显优于所有其他方法。然而,与STCN和DTCR相比,可以看出AUTOSHAPE提供了一个shapelet,一个可识别的子序列用于聚类,而不是一个黑盒子;AUTOSHAPE的重建损失不会学习不在原始时间序列中的子序列,而是它保持了最终小形状的细节,使其更容易解释。

3) 形状单元数量的变化

在四个数据集--BirdChicken、Coffee、SwedishLeaf和ToeSegmentation1中,比较了不同数量 的shapelets对AUTOSHAPE的最终NMI的影响显示了NMI。

四个不同的数据集显示了不同的趋势,导致了数据集的适当数量的shapelets。例如,在BirdChicken中,当shapelets的数量变化时,NMI是稳定的。对于SwedishLeaf来说,随着shapelet数量从1增加到20,NMI迅速增加,然后稳定下来。因此,它的shapelet编号被设定为20。

4) 分割分析

为了测试LT riplet、LDiversity和LDBI的效果,我们用AUTOSHAPE进行了一系列的消融实验,将AUTOSHAPE与其三种消融模型进行了比较:自我监督无损失(w/o triplet)、无多样性损失(w/o diversity)和无DBI损失(w/o DBI);AUTOSHAPE及其三种消融模型(w/o triplet)以及AUTOSHAPE及其三种消融模型(w/o diversity)。/otriplet,无多样性损失(w/o diversity)和无DBI损失(w/o DBI)

从表三可以看出,这三个因素都对最终的聚类性能做出了重要贡献。特别是,一般的统一表征学习(自监督损失)发挥了重要作用,因为w/o三联体的NMI结果总是比其他两种损失要差。我们还发现,候选小形状的选择(多样性损失)和DBI目标明显地、持续地提高了最终性能。

5) 与其他RI方法的比较

所有的基线RI结果都来自原始出版物;36个UCR数据集的总体RI结果见表四。

表四显示,在比较的15种方法中,AUTOSHAPE的整体性能排名第一。此外,AUTOSHAPE在九个数据集上表现最好。除STCN外,这一数字高于其他所有方法;AUTOSHAPE的一对一获胜RI数明显大于其他所有方法的一对一损失;AUTOSHAPE的总最大RI数大于USL和DTCR,除STCN外,明显大于其他方法。AUTOSHAPE在一些数据集上取得了明显较高的RI数,如BirdChicken和ToeSegmentation1,而在1:1损失数据集上的结果仅略低于USL(如肉类,SonyAIBORobotSurface)和DTCR(如照明2,酒)只是略低。

6) 网络的比较

比较了时间卷积网络(TCN)和递归网络(如香草RN)在自动编码器方面的性能。对TCN和vanilla RNN的最终NMI(图5(a))和RI(图5(b))性能进行了比较。最后,可以看出,对于大多数数据集,TCN和vanilla RNN之间的NMI和RI的差异可以忽略不计。统计测试没有提供任何证据表明任何一个网络比另一个更好。唯一的要求是网络遵循因果排序(即未来的价值不影响当前的价值)。

 

7)关于UTS的可解释性的实验

进一步探讨了小形状方法的优势--可解释性:报告了由AUTOSHAPE从两个数据集生成的小形状(k = 1, 2)。选择这些数据集只是因为它们可以在没有太多领域知识的情况下呈现出来;从图6和图7可以看出,集群的原始时间序列的一些子序列与它们的小形状相似。

案例研究1:脚趾分割1

ToeSegmentation1数据集是CMU图形实验室运动捕捉数据库(CMU)中人类步态识别的Z轴值的左脚趾。该数据集包括两个类别,"正常步态 "和 "异常步态",其中 "正常步态 "包括带有跛行或腿部疼痛的步态。在这一类别的异常步态中,演员被弄得看起来有正常步态的困难。

从图6中不难看出,前两个小形状S1和S2在正常步态类中出现的频率更高;S1代表一个单位的正常步态,S2代表两个连续单位的步态间隔。

案例研究2:意大利电力需求

意大利电力需求是由1997年意大利12个月的电力消费时间序列得出的。数据集中有两个类别,4月至9月的夏季和10月至3月的冬季; S1是用AUTOSHAPE训练的,如图7左侧所示 从训练好的形状可以看出,夏季上午5点到晚上11点的用电需求比冬季低。这是因为,在收集数据时,意大利冬季的早晨供暖仍然较少,夏季的制冷也较少。

多变量时间序列的实验。

在MTS上进行的实验的主要结果在下一节中介绍:NMI被用作评价MTS上的方法的一个指标。土地指数(RI)的结果被省略,因为它们显示了类似的趋势。Kmeans, GMM, k-Shape, USSL和DTCR被选为比较方法。由于这些方法不考虑MTS数据集,MTS版本只是将不同的变量串联成一个变量(例如k-形状-M、USSL-M、DTCR-M)。 所有六种方法的结果都是10次运行的平均值,所有数据集的标准偏差都低于0.01。是。

1)多变量时间序列的NMI;30个UEA MTS数据集的总体NMI结果见表五。

表五显示,在比较的六种方法中,AUTOSHAPE的整体性能排名第一。

此外,AUTOSHAPE在22个MTS数据集上表现最好,明显多于其他五种方法。这一结果表明,AUTOSHAPE能够从不同的变量中学习高质量的小形状。

(2) Friedman和Wilcoxon测试。

我们使用弗里德曼检验和霍尔姆阿尔法(5%)进行威尔科森签名等级检验;弗里德曼检验用于检测30个UEA数据集在6种方法中的差异我们的统计学意义是P < 0.001,小于α = 0.05。因此,我们拒绝了无效假设,并发现在所有六种方法中都存在着显著的差异。

然后在所有被比较的方法之间进行事后分析。结果通过图8中的临界差分图直观显示,AUTOSHAPE明显优于其他五种方法。

 

3) 形状单元数量的变化。

对于四个MTS数据集--BasicMotions、Epilepsy、SelfRegulationSCP1和StandWalkJump,我们进一步比较了不同数量的shapelets对AUTOSHAPE最终NMI的影响。

图9显示了六个不同数量的小形状的NMI,小形状的数量不同。

这四组数据显示了不同的趋势,表明为数据集选择了适当数量的shapelets。例如,在癫痫病中,NMI随着shapelets的数量从1增加到2而迅速增加,然后稳定下来。因此,它的shapelet编号被设置为2。

4)关于MTS的可解释性的实验

最后,我们考察了训练后的小形状在MTS上的解释情况;图10显示了由AUTOSHAPE从癫痫数据集中生成的小形状(例如k=2)。同样,选择这个数据集只是因为它可以在没有太多领域知识的情况下进行说明;癫痫数据集是通过模拟一个健康参与者进行的类活动而产生。该数据集包括四个类别:行走、跑步、锯木和癫痫模仿。

摘要

本文提出了一种新型的基于自动编码器的小形状的时间序列聚类方法,称为AUTOSHAPE。我们提出了一个自动编码器网络,通过以下目标来学习小形状候选者的统一嵌入。

自监督损失被用来学习时间序列子句的一般嵌入(候选shapelets)。提出了在候选小形状之间的多样性损失,以选择不同的候选人。重构损失保留了原始时间序列的形状,以提高可解释性;DBI是一个内部指标,用于指导网络学习以提高聚类性能;在UTS和MTS数据集上,我们的AUTOSHAPE优于其他14种方法和5种方法。在UTS和MTS数据集上,大量的实验表明,我们的AUTOSHAPE优于其他14种方法和5种方法。此外,对UCR UTS数据集的三个案例研究和对UEA MTS数据集的一个案例研究证明了所学到的 shapelets的可解释性。在未来的工作中,他们计划研究基于shapelet方法的TSCs的效率和缺失值。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定 日本创新融合学会 DX检定专家 联合公司Amico咨询 CEO

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们