外观
聚类与先验知识
深度聚类利用了不同类型的"先验知识"——可以理解为各种人类常识 以下介绍了现有的聚类方法常用的六种先验方法。
1.、结构先验
任何复杂的数据都可以在低维空间找到它的特征聚类,就像所有折纸艺术品都可以展开成一张皱巴巴的纸。
数学原理
基于流形假设(Manifold Hypothesis)和低维嵌入理论。即任何真实的高维数据集往往都位于一个低维流形上
2、分布先验
无论你在哪个学校哪个班级,该班级的考试成绩通常都会呈现某个区间上的正态分布,不可能全考满分或者全员0分。但尖子生班级与差生班级的成绩分布肯定存在差异。
数学原理
基于概率分布假设,同类的数据总是服从某种特定分布。(eg.高斯混合分布)
3、增广不变性
无论一只猫是站着还是躺着还是只露出爪子,人类都能认出它是同一只猫。
数学原理
同种数据,进行不同的增广后,依然存在表征一致性。
4、邻域一致性
住在同一个地区的人生活习惯会趋同。邻域内的数据点也很可能属于同一类。
数学原理
局部连续性假设。
5、伪标签引导
学生做题前会先看一些例题和参考答案,接下来就可以自己去推测解答其他的题目。但如果这些参考答案有误,学生做的其他题目也很可能大错特错。
数学原理
基于自训练(Self-training)理论,将当前模型预测的结果中,一些可信度比较高的样本当作伪标签。将无监督的聚类学习过渡为伪标签引导的半监督学习。
6、外部知识引导
人类遇到不懂的知识时,会查询百科全书来辅助判断。同样的,计算机也可以利用外部知识(预训练模型M)来提升自己的聚类效果。
数学原理
基于迁移学习和知识蒸馏理论