无监督学习

本文总结了无监督学习技术，主要讨论并比较了不同聚类方法的差异。

K-means 聚类

· 分配：随机设置 K 个中心，将每个点分配给最接近点的中心

· 优化：移动中心以优化分配给它们的距离

· 重复步骤 1 和 2：将点重新分配给中心，并重新优化

缺点：

· 本地最小值 – 我们可以在不同的初始条件下多次运行 K-Means 聚类，以找到最佳输出。

· 对噪音和异常值敏感

选择 K

· 弯头方法：绘制 k 的升序值与使用该 k 计算的总误差，以查找最小总误差。

· 平均剪影方法：使用该 k 绘制 k 的升序值与平均剪影（同一聚类中点之间的平均距离）来查找最大平均剪影。

分层聚类

· 单链路：两个群集之间的距离由两个群集之间的最近点确定。然后将两个最近的群集合并到一个群集中。

· 完整链接：两个群集之间的距离由两个群集之间的最远点确定。然后将两个最近的群集合并到一个群集中。

· 平均链接：两个群集之间的距离由两个群集之间所有点的平均值确定。然后将两个最近的群集合并到一个群集中。

· 病房：获取 3 个中心点，群集 A 的中心点 A，群集 B 的中心点 B，两个群集中所有点的中心点 X。两个聚类之间的距离通过求和所有点到点 X 的距离，减去聚类 A 中所有点到点 A 的距离，以及聚类 B 中所有点到点 B 的距离。然后将两个最近的群集合并到一个群集中。合并后群集中方差增加最少。

优势：

· 生成的分层表示可以非常翔实

· 提供额外的可视化功能（图面图）

· 当数据集包含真正的分层关系时特别有效

缺点：

· 对噪音和异常值敏感

· 计算密集型 O（N2）

DBSCAN

输入：

Epsilon - 围绕点MinPoint的搜索距离 - 形成群集所需的最小点数

扫描所有点，并确定每个点是噪声点、核心点还是边界点。

优势：

· 无需指定群集数

· 集群形状和尺寸的灵活性

· 能够处理噪音和异常值

缺点：

· 可从两个群集到达的板点首先分配给群集，因此 DBSCAN 无法保证每次运行时相同的群集。

· 难以找到不同密度的聚类。（HDBSCAN 可以解决此问题）

GMM

· 初始化 K 高斯分布 - 可以使用 K-means 查找初始化点，设置均值、方差和共方差。

· 软聚类 - 查找它所属的群集的每个点的概率。

· 重新估计高斯 - 使用步骤 2 中的输出，使用群集中点的加权平均值查找新高斯的新平均值和新方差。

· 评估高斯Log可能性

· 重复步骤 2 - 步骤 4，直到日志可能性收敛

优势：

· 软群集（对于数据点，可以找到其成员/多个群集的可能性）

· 群集形状的灵活性（群集中可以包含另一个群集）

缺点：

· 对初始化值敏感

· 可能收敛到局部最佳

· 收敛速度慢

群集验证

· 外部索引：标记数据的评分方法调整兰特指数

· 内部指数：无标签数据的评分方法银点系数

PCA

· 将输入功能转换为主要组件，并将 PC 用作新功能

· PC 是能够最大化方差或最大限度地减少信息损失的数据方向

· PC 是彼此的独立功能

· PC 的最大数量是输入功能的数量

· 减小尺寸，降低噪音

· 使用 PCA 查找驱动数据模式的潜在特征

· 使其他算法更好地工作，因为输入更少

随机投影

当 PCA 太慢时，我们可以使用随机投影来减小尺寸。通过将随机矩阵相乘从 D 维度到 K 尺寸，并在很大程度上保持点之间的距离。

LCA

· 假定组件在统计上是独立的

· 组件是非 Causian

· 需要与原始来源一样多的观测值来分离

(本文翻译自Tivadar Danka的文章《Machine Learning Cheat Sheet — Unsupervised Learning》，参考：https://towardsdatascience.com/machine-learning-cheat-sheet-unsupervised-learning-d954a9247fbe)

网站首页 > 编程文章正文

无监督机器学习备忘清单（无监督机器学习中的聚类算法）

无监督学习

K-means 聚类

分层聚类

DBSCAN

GMM

群集验证

PCA

随机投影

LCA

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 编程文章 正文

无监督机器学习备忘清单（无监督机器学习中的聚类算法）

无监督学习

K-means 聚类

分层聚类

DBSCAN

GMM

群集验证

PCA

随机投影

LCA

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 编程文章正文

取消回复欢迎你发表评论: