聚类与先验知识

深度聚类利用了不同类型的"先验知识"——可以理解为各种人类常识以下介绍了现有的聚类方法常用的六种先验方法。

1.、结构先验

任何复杂的数据都可以在低维空间找到它的特征聚类，就像所有折纸艺术品都可以展开成一张皱巴巴的纸。

数学原理

基于流形假设(Manifold Hypothesis)和低维嵌入理论。即任何真实的高维数据集往往都位于一个低维流形上

2、分布先验

无论你在哪个学校哪个班级，该班级的考试成绩通常都会呈现某个区间上的正态分布，不可能全考满分或者全员0分。但尖子生班级与差生班级的成绩分布肯定存在差异。

数学原理

基于概率分布假设，同类的数据总是服从某种特定分布。(eg.高斯混合分布)

3、增广不变性

无论一只猫是站着还是躺着还是只露出爪子，人类都能认出它是同一只猫。

数学原理

同种数据，进行不同的增广后，依然存在表征一致性。

4、邻域一致性

住在同一个地区的人生活习惯会趋同。邻域内的数据点也很可能属于同一类。

数学原理

局部连续性假设。

5、伪标签引导

学生做题前会先看一些例题和参考答案，接下来就可以自己去推测解答其他的题目。但如果这些参考答案有误，学生做的其他题目也很可能大错特错。

数学原理

基于自训练(Self-training)理论，将当前模型预测的结果中，一些可信度比较高的样本当作伪标签。将无监督的聚类学习过渡为伪标签引导的半监督学习。

6、外部知识引导

人类遇到不懂的知识时，会查询百科全书来辅助判断。同样的，计算机也可以利用外部知识（预训练模型M）来提升自己的聚类效果。

数学原理

基于迁移学习和知识蒸馏理论

出处：https://mp.weixin.qq.com/s/d-AFKJsb_jrwgSqnInmULg

聚类与先验知识 ​

1.、结构先验 ​

数学原理 ​

2、分布先验 ​

数学原理 ​

3、增广不变性 ​

数学原理 ​

4、邻域一致性 ​

数学原理 ​

5、伪标签引导 ​

数学原理 ​

6、外部知识引导 ​

数学原理 ​

聚类与先验知识

1.、结构先验

数学原理

2、分布先验

数学原理

3、增广不变性

数学原理

4、邻域一致性

数学原理

5、伪标签引导

数学原理

6、外部知识引导

数学原理