CJKmainfont |
---|
WenQuanYi Micro Hei |
领域不变(视图不变和模态不变)的特征表示对于人类行为识别至关重要。 此外,给定一个具有区分性的视觉表示,至关重要的是发现多个行为之间的潜在关联,以便于进行为作建模。 为了解决这些问题,我们提出了一种多领域多任务学习(MDMTL)方法:
- 为多视图和多模态行为表示提取领域不变信息
- 探索多个行为类别之间的相关性。
具体来说,我们提出了一种基于稀疏转移学习的方法,将多领域(多视图和多模态)数据共同嵌入单个公共空间中,以进行判别性特征学习。 此外,视觉特征学习已合并到多任务学习框架中,与 Frobenius 范数正则化项和稀疏约束项一起用于联合任务建模和任务相关性诱导的特征学习。 据我们所知, MDMTL 是第一个为多领域行为识别共同实现领域不变特征学习和任务建模的监督框架。 针对 INRIA Xmas 运动采集序列数据集,MSR 每日活动 3D(DailyActivity3D)数据集以及最新、最大的多视图和多模态行为识别数据集,证明了 MDMTL 优于最新方法。
- 领域不变学习
- 多任务学习
- 人类行为识别
人体行为识别 [1]-[2][3][4] 由于其在现实世界中的各种应用(例如人机交互,智能视频监控和多媒体内容理解及管理 [5]–[6][7][8])而在计算机视觉领域吸引了越来越多的关注。 许多方法已经被提出了来促进该领域的发展。
尽管对相关主题进行了数十年的广泛研究,但行为识别——尤其是通过融合多视图和多模态信息——仍然是一个活跃的研究领域 [9]-[10][11][12]。存在两个主要挑战:
- 如何区别地表示多领域(多视图和多模态)行为模式;
- 如何学习鲁棒的分类器以使用多领域数据识别行为类别。
我们从两个方面解释了本文的动机。
由于行为包含强烈的外观或运动的时空模式,大多数最先进的方法依赖于有区别的视觉表征 [13]-[14][15][16][17]。 特别地,[15] 使用了一种基于深度学习的无监督特征学习方法,在好莱坞 2、 UCF、 KTH 和 YouTube 数据集上表现良好。 然而,如图 1 所示,同一行为在不同的区领域(视图或模态)看起来相当不同。 因此,对于识别任务,当视图或模态存在变化时,从一个单一的视图和单一的模态进行为作模型学习会难以区分。
如图 1 所示,我们统一定义多视图和多模态数据为多领域数据。 特别地,在本文中我们只考虑最常见的行为的视觉模态,包括三原色和深度。 现有的行为识别研究大多基于三原色值模态,会受到光照条件、复杂背景和摄像机运动等因素的影响。 随着最近高性价比的深度传感器(例如微软 Kinect、 Asus Xtion 和 Prime Sense) 的发展,深度数据在计算机视觉任务中的应用受到了相当大的关注 [18]。 与三原色图像相比,深度图像对光照、遮挡和背景杂波的变化不那么敏感。 此外,三原色信息和深度信息是互补的 [10] ,[19]。
到目前为止,在融合三原色和深度信息的多领域人类行为识别上,只有有限的工作已经开展 [11] ,[20] ,[21]。 Kong 和 Fu [20] 对三原色和深度序列的特征矩阵进行了分解,并加强了相同的语义以从多模态数据中学习共享特征。 Rahmani 等 [21] 专注于如何从三维点云视频中检测和描述时空关键点,用于跨视图的行为识别。 然而,这些方法忽略了跨多领域的领域不变信息。 总的来说,提取和融合跨多领域来源的共享信息仍然是一个具有挑战性的问题 [22] ,[23]。
如图 2(a) 所示,大多数当前的方法集中于单任务学习 (STL) 问题 [17] 。 目标是独立地学习多个行为(任务) ,因为这些方法忽略了行为之间的相关性。 因此,单任务学习不具有足够的区分性,无法对具有相似运动模式的行为进行分类。 最近,一些研究人员尝试利用多任务学习 (MTL) 进行行为识别 [24]-[25][26]。 如图 2(b) 所示,多任务学习可以利用多个行为之间共享的相关知识进行模型学习,并进一步提高泛化能力 [27]。 实际上,经常出现的一种情况是,存在一些强相关的任务组而其他任务之间的相关性很弱 [24]。
多任务学习不能主动用于多领域行为识别。 视图和模态的变化可以诱导多领域信息,显著增加行为识别的难度。 例如,给定一个单一模态(三原色或深度)和一个单一视角(正面或侧面) ,拳击和跑步可以很容易地被多任务学习识别为两个不同的行为类别,因为它们可以分别表示为显著的上身运动和下身运动。 然而,在多模态(三原色和深度)的情况下,每个行为识别任务由两个模态变量的子任务组成(例如,在三原色和深度模态的拳击),在多任务学习试图同时处理这两个模态时很容易产生混淆。 此外,在多视图(正视图和侧视图)的情况下,每个任务由两个视图不同的子任务组成(例如,分别在正面和侧面的三原色和深度模态的拳击),同样的问题也存在。 同时,三原色和深度模式有它们自己的区分特征(例如,照明、背景和外观)。 因此,基于经典多任务学习理论的多领域学习对多领域数据的性能有负面影响。 总体而言,在多领域场景中,仍然很难考虑行为之间的相关性。
基于 [9]、[24]、[28] 和 [29] ,我们提出了一个多领域多任务学习 (MDMTL) 框架,
- 提取多视图和多模态行为表征的领域不变信息,
- 探索多个行为类别之间的相关性。
目前大多数的工作都集中在监督式学习上,每个例子都有一个行为标签。 在我们的框架中,一个行为集被标记为一个行为标记。 特别地,行为集的所有实例都是从同一个行为样本的不同视图和模态中捕获的。 如图 1 所示,每个集合与一组特征向量相关联,这些特征向量是从这个集合中的多领域行为实例中提取的。 一个理想的学习算法应该生成能够正确分类以前没有看到的集合的分类器。 该框架的关键问题是如何联合实现领域不变特征表示和模型学习。
为了解决这个问题,我们将 MDMTL 公式化为一个目标函数,该目标函数包含两个潜在成分:领域不变特征表示和行为建模。
- MDMTL 同时学习一组来自各个领域的共嵌入矩阵,以便于将每个实例直接转换到一个公共的领域不变空间。 我们提出了一种基于集成学习策略的单个集合实例级融合方法。
- 在 MDMTL 框架中引入 frobenius 范数正则化项和稀疏约束项,实现特征学习和关联发现相结合。
我们使用多视图和以及或多模态人类行为识别数据集来评估 MDMTL。 通过对 INRIA 圣诞节运动捕获序列 (IXMAS)、 MSR 每日活动 3D (DailyActivity3D) 和多模态多视图交互 (M2I) 数据集的大量定量实验,验证了 MDMTL 在多领域数据行为识别中的有效性。
本文的主要贡献概述如下:
- 据我们所知,MDMTL 是第一个联合实现视图不变和模态不变行为识别领域不变特征学习和潜在任务相关性发现的监督框架。
- 我们针对这个问题提出了一个特定的目标函数,并将这个非凸公式的解分解为两个连续的步骤:领域不变特征学习和行为建模。
- 在 IXMAS [30]、 DailyActivity3D [31] 和 M2I [32] 数据集上的综合实验证明了 MDMTL 的优越性。特别地,我们对比深度学习方法评估 MDMTL 。
本文的其余部分如下。 第二节简要介绍相关工作。 在第三节中,我们详细介绍了 MDMTL 框架。 第四节报告了在三个基准数据集上的实验结果。 第五节总结全文。
相关研究大致可以分为两类:多领域表示和多任务学习。 前者侧重于提取和融合跨多视图或多模态来源共享的信息。 后者侧重于利用多个行为之间共享的相关知识进行模型学习。
研究人员已经开发了多种实现视图变化行为识别的方法,这些方法大致可以分为三类。
- 第一类方法采用独立于视图的方法来确定合适的分类方案。 具体来说,分类要么通过训练多个分类器 [33] ,[34] ,要么通过使用所有可用视图 [35]-[36][37][38][39] 的训练数据训练一个通用分类器。
- 第二种类型的方法依赖于跨视图行为识别,它们在一个视图(通常称为参考视图)中学习行为分类,并在另一个(目标)视图中识别行为。 为了这个目标已经引入了好几种技术,包括迁移学习 [9]、[40]、[41]、信息最大化 [42] ,以及利用适当设计的特征 [21] 和场景几何学 [43] 的方法。
- 第三类方法利用视图不变行为表示 [12] ,[44]-[45][46][47][48] ,这些方法是基于多台摄像机获取的二维图像建立的。 提出了一些工作,包括轨迹提取 [49] ,[50] ,自相似矩阵 [45] ,以及利用源视图和目标视图之间的联系的方法 [12] ,[51]。
与此同时,模态变化信息的联合使用也成为众多研究者关注的焦点。 在本文中,我们只考虑最常见的视觉行为模态,包括三原色和深度,并将模态变化融合方法分为三个基本方案。
- 针对多模态信号源的集成问题,提出了启发式融合方案,即原始的融合框架。 例如,Cruz 等人 [52] 提议使用 Kinect 游戏系统,选择不同的算法模块从三原色和深度模式中提取有意义的信息。
- 集成融合方案试图并行地将多模态信息反馈到现有的表达式中。 例如,Ni 等人 [53] 开发了两种三原色和深度融合技术,这两种融合技术基于两种最先进的行为识别特征表示方法。
- 自适应融合方案着重于捕捉多模态信息之间的关系。 例如, Kong 和 Fu [10] , [20] 将三原色和深度特性投射到一个共享空间,并学习它们之间共享的跨模态特性,以便进行行为识别。
虽然上述融合方法已经成功地应用于解决了一些视觉问题,但是它们还不够复杂,不足以同时考虑视图不变和模态不变的特征分布。 因此,发展一种能够利用大量领域不变来源的融合方法是非常值得的。 在我们的框架中,视图不变实例和模态不变实例被统一定义为多领域实例,它们被用于形成行为集。 我们提出了集成学习策略来量化每个实例在一个集合中的贡献。
近年来,多任务学习来越受到人们的关注,它可以利用模型之间共享的知识,联合执行多个学习任务,从而提高模型的泛化性能。 多任务学习的有效性已经在理论性的 [54] ,[55] 和经验性的 [56] ,[57] 上得到了演示。 进一步地,不同的多任务学习方法在如何建模任务之间的关联性方面存在差异,这些方法可以大致分为两类。
- 第一种类型的方法基于所有任务都是相关的假设。 Evgeniou 等人 [58] 提出了正则化多任务学习方法,其中所有任务的模型都被启发式地约束以彼此接近。 进一步地,任务相关性可以通过约束多个任务共享一个公共底层结构来建模。 Ando 和 Zhang [54] 提出了一个结构学习公式,其中假设不同任务的多个预测器在底层预测空间中具有共同的结构。 然而,任务可能表现出更复杂的群体结构。
- 第二种类型的方法假定来自同一组的任务的模型彼此之间比来自不同组的任务的模型更加相似。 以前的许多工作都是从事这个方向的研究,称为集群式多任务学习 (CMTL)[60] ,[61]。 在 [60] 中,我们估计了任务之间的相互关系,并且一个任务的知识可以转移到同一集群中的其他任务。 Bakker 和 Heskes [61] 在贝叶斯设置中使用了集群式多任务学习,通过考虑混合高斯变量来代替单一高斯变量优先。 进一步地, 陈等人 [62] 提出了一种稳健的多任务学习 (RMTL) 算法,该算法使用低秩结构捕获多个相关(正常)任务之间的关系,并使用组稀疏结构识别不相关(异常)任务。 此外,龚等人 [63] 提出了一种稳健的多任务特征学习 (rMTFL) 算法,该算法同时捕获相关任务和不相关任务之间的一组共同特征集。
在现有分类方法的基础上,我们研究了对多领域分类器的生成。 不同于以往大多数多任务学习方法,我们的工作有效,它不仅研究了获取多领域行为类别之间的相关性,还研究了联合实现领域不变特征学习和多任务建模来提高人类行为识别能力。
这项工作的目标是联合学习领域不变的特征表示,并针对多领域人类行为识别发现多个行为之间的潜在的相关性。 符号如表 I 所示,框架如图 3 所示。
我们考虑由${{Xi,Y}}^v_{i = 1}$表示的$V$领域,其中$X_i = {X_i^\text{[train]}, x_i^\text{[val]}}$由训练特征矩阵$X^\text{[train]}_i$和验证特征矩阵$X^\text{[val]}i$组成,$Y$是对应的二元标签矩阵。 这里的每个领域对应一个特定的观点和模态。 例如,图 3 中行为样品的每一列都来自一个领域。 $X_i$也可以用${{x{ij}}}n^j = 1$表示,其中$x{ij}$表示第$i$个领域中第$j$个实例的特征。
我们定义了一个实例集,该实例集由$a_j = {{x_{ij}}}^v_{i = 1}$构成,它从$V$领域中收集第$j$个行为的实例,其中$j$的范围从 1 到
权重矩阵$R = {r_{ij}}{i = 1, 2, \ldots, V; j = 1, 2, \ldots, N}$通过基分类器学习(在第三节 B 被引进)学习对行为类别中的每个实例评分。 然后我们利用$R$和$B_j$的集成学习策略,得到领域不变特征矩阵$F = {{f_j}}^n{j = 1}$。