25
大规模低质量多模态数据聚类 刘新旺 Email: [email protected] 国防科技⼤学 计算机学院 模式识别与机器智能教研室 2019 10 22 刘新旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 1 / 25

大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

大 规 模 低 质 量 多 模 态 数 据 聚 类

刘 新 旺

Email: [email protected]

国 防 科 技 ⼤ 学 计 算 机 学 院模 式 识 别 与 机 器 智 能 教 研 室

2019 年 10 月 22 日

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 1 / 25

Page 2: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

研究背景及现状

报告内容

1 研究背景及现状

2 我们的工作缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)

3 总结与展望

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 2 / 25

Page 3: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

研究背景及现状

大数据特性

大数据具有如下特性:

数据量大:计算效率?

信息多:多源信息融合

数据质量低:数据缺失、噪声

· · ·聚类是大数据分析中的常用算法之一,聚焦于大规模低质量多模态数据的聚类算法研究。

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 3 / 25

Page 4: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

研究背景及现状

聚类及其应用

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 4 / 25

Page 5: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

研究背景及现状

多视图表示

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 5 / 25

Page 6: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

研究背景及现状

典型的多视图聚类算法

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 6 / 25

Page 7: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

研究背景及现状

多核 K− 均值聚类 (Multiple Kernel k-means, MKKM)

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 7 / 25

Page 8: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作

报告内容

1 研究背景及现状

2 我们的工作缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)

3 总结与展望

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 8 / 25

Page 9: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作

研究动机

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 9 / 25

Page 10: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)

缺失多核聚类算法—动机

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 10 / 25

Page 11: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)

缺失多核聚类算法—优化目标

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 11 / 25

Page 12: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)

缺失多核聚类算法—求解算法

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 12 / 25

Page 13: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)

缺失多核聚类算法—试验结果 (1/2)

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 13 / 25

Page 14: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)

缺失多核聚类算法—试验结果 (2/2)

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 14 / 25

Page 15: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)

非完整多视图聚类—研究动机

高额的计算和存储开销

过度复杂的填充模型

有限改进的聚类性能

首先定义第 p-th (1 ≤ p ≤ m) 个基聚类矩阵为

Hp = [H(o)p

⊤,H(u)

p⊤]⊤ ∈ Rn×k, (1)

其中 H(o)p ∈ Rnp×k 可以对 m 个非完整核矩阵 {Kp(sp, sp)}m

p=1 执行核

k-means 算法获取到,H(u)p ∈ R(n−np)×k 表示 Hp 的非完整部分,它需要

在在学习的过程中填充。

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 15 / 25

Page 16: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)

非完整多视图聚类–算法模型

EE-IMVC 同时执行聚类和对 {H(u)p }m

p=1 的填充,同时保持 {H(o)p }m

p=1 在学习的过程中保持不变。

maxH,{Wp,H(u)

p ,βp}mp=1

Tr[

H⊤∑m

p=1βp

(H(o)

pH(u)

p

)Wp

]s.t. H ∈ Rn×k, H⊤H = Ik, Wp ∈ Rk×k, W⊤

p Wp = Ik,

H(u)p ∈ R(n−np)×k, H(u)

p⊤

H(u)p = Ik, β ∈ Rm,

∑m

p=1β2

p = 1, βp ≥ 0,

(2)其中 H 和 H(u)

p 分别代表公共聚类矩阵和第 p 个基聚类矩阵的缺失部分,Wp 代表第 p 个置换矩阵,用于最优地匹配 Hp 和 H,β = [β1, · · · , βm]⊤ 是 m 个基聚类矩阵的权重。

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 16 / 25

Page 17: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)

非完整多视图聚类—优化算法

设计了一个简单但计算有效的方法来解决该优化问题。1) 固定 {Wp,H(u)

p }mp=1 和 β 来优化 H;

2) 固定 H, {H(u)p }m

p=1 和 β 来优化;

3) 固定 {Wp}mp=1, H 和 β 来优化 {H(u)

p }mp=1;

4) 固定 H and {Wp, H(u)p }m

p=1 来优化 β。

算法从理论上保证具有(局部)最优解。

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 17 / 25

Page 18: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)

非完整多视图聚类—实验结果

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

missing ratio

0.3

0.35

0.4

0.45

0.5

0.55

AC

C

Flower17

MKKM+ZF

MKKM+MF

MKKM+KNN

MKKM+AF

MKKM-IK

LI-MKKM

EE-IMVC0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

missing ratio

0.2

0.25

0.3

0.35

0.4

AC

C

Flower102MKKM+ZF

MKKM+MF

MKKM+KNN

MKKM+AF

MKKM-IK

LI-MKKM

EE-IMVC

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

missing ratio

0.15

0.16

0.17

0.18

0.19

0.2

0.21

0.22

0.23

0.24

0.25

AC

C

CCVMKKM+ZF

MKKM+MF

MKKM+KNN

MKKM+AF

MKKM-IK

LI-MKKM

EE-IMVC

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

missing ratio

0.14

0.16

0.18

0.2

0.22

0.24

0.26

0.28

0.3

0.32

AC

C

Caltech102

MKKM+ZF

MKKM+MF

MKKM+KNN

MKKM+AF

MKKM-IK

LI-MKKM

EE-IMVC

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 18 / 25

Page 19: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)

基于 DNN 的近似大规模多核 K 均值聚类—动机

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 19 / 25

Page 20: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)

基于 DNN 的近似大规模多核 K 均值聚类—示意图

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 20 / 25

Page 21: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)

基于 DNN 的近似大规模多核 K 均值聚类算法

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 21 / 25

Page 22: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

我们的工作 基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)

基于 DNN 的近似大规模多核 K 均值聚类—试验结果

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 22 / 25

Page 23: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

总结与展望

报告内容

1 研究背景及现状

2 我们的工作缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)

3 总结与展望

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 23 / 25

Page 24: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

总结与展望

值得探索的方向

深度嵌入聚类、深度单分类

基于深度神经网络的迁移学习

深度核学习

深度学习的泛化性能分析(深度:表示能力更强、信息损失更重)

谢谢!请多批评指正[email protected]

刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 24 / 25

Page 25: 大规模低质量多模态数据聚类 - VALSEvalser.org/.../2019.10.23-multiviewClustering0624.pdf · 缺失多核聚类算法(aaai-2017、ieee tpami-2019) 非完整多视图聚类(ieee

总结与展望

部分参考文献

1 Xinwang Liu et. al.: Late Fusion Incomplete Multi-viewClustering. IEEE TPAMI 2018. (CCF Rank A)

2 Xinwang Liu et. al.: Multiple Kernel k-means withIncomplete Kernels. IEEE TPAMI 2019. (CCF Rank A)

3 Xinwang Liu et. al.: Absent Multiple Kernel LearningAlgorithms. IEEE TPAMI 2019. (CCF Rank A)

4 Xinwang Liu et. al.: Efficient and Effective IncompleteMulti-view Clustering. AAAI2019. (CCF Rank A)

5 Xinwang Liu et. al.: Multiple Kernel k-means withIncomplete Kernels. AAAI2017. (CCF Rank A)

6 Xinwang Liu et. al.: Optimal Neighborhood Kernel Clusteringwith Multiple Kernels. AAAI2017. (CCF Rank A)

7 Xinwang Liu et. al.: Efficient and Effective RegularizedIncomplete Multi-view Clustering. IEEE TPAMI 2019. (MajorRevision) (CCF Rank A)刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 25 / 25