Skip to content

聚类与先验知识

深度聚类利用了不同类型的"先验知识"——可以理解为各种人类常识 以下介绍了现有的聚类方法常用的六种先验方法。

Image

1.、结构先验

任何复杂的数据都可以在低维空间找到它的特征聚类,就像所有折纸艺术品都可以展开成一张皱巴巴的纸。

数学原理

基于流形假设(Manifold Hypothesis)和低维嵌入理论。即任何真实的高维数据集往往都位于一个低维流形上

2、分布先验

无论你在哪个学校哪个班级,该班级的考试成绩通常都会呈现某个区间上的正态分布,不可能全考满分或者全员0分。但尖子生班级与差生班级的成绩分布肯定存在差异。

数学原理

基于概率分布假设,同类的数据总是服从某种特定分布。(eg.高斯混合分布)

3、增广不变性

无论一只猫是站着还是躺着还是只露出爪子,人类都能认出它是同一只猫。

数学原理

同种数据,进行不同的增广后,依然存在表征一致性。

4、邻域一致性

住在同一个地区的人生活习惯会趋同。邻域内的数据点也很可能属于同一类。

数学原理

局部连续性假设。

5、伪标签引导

学生做题前会先看一些例题和参考答案,接下来就可以自己去推测解答其他的题目。但如果这些参考答案有误,学生做的其他题目也很可能大错特错。

数学原理

基于自训练(Self-training)理论,将当前模型预测的结果中,一些可信度比较高的样本当作伪标签。将无监督的聚类学习过渡为伪标签引导的半监督学习。

6、外部知识引导

人类遇到不懂的知识时,会查询百科全书来辅助判断。同样的,计算机也可以利用外部知识(预训练模型M)来提升自己的聚类效果。

数学原理

基于迁移学习和知识蒸馏理论

出处:https://mp.weixin.qq.com/s/d-AFKJsb_jrwgSqnInmULg

基于 VitePress 构建