数据分析第六篇：聚类的评估（簇数确定和轮廓系数）和可视化- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

在实际的聚类应用中，通常使用k-均值和k-中心化算法来进行聚类分析，这两种算法都需要输入簇数，为了保证聚类的质量，应该首先确定最佳的簇数，并使用轮廓系数来评估聚类的结果。

一，k-均值法确定最佳的簇数

通常情况下，使用肘方法（elbow）以确定聚类的最佳的簇数，肘方法之所以是有效的，是基于以下观察：增加簇数有助于降低每个簇的簇内方差之和，给定k>0，计算簇内方差和var(k)，绘制var关于k的曲线，曲线的第一个（或最显著的）拐点暗示正确的簇数。

1，使用sjc.elbow()函数计算肘值

sjPlot包中sjc.elbow()函数实现了肘方法，用于计算k-均值聚类分析的肘值，以确定最佳的簇数：

library(sjPlot)sjc.elbow(data, steps = 15, show.diff = FALSE)

参数注释：

steps：最大的肘值的数量
show.diff：默认值是FALSE，额外绘制一个图，连接每个肘值，用于显示各个肘值之间的差异，改图有助于识别“肘部”，暗示“正确的”簇数。

sjc.elbow()函数用于绘制k-均值聚类分析的肘值，该函数在指定的数据框计算k-均值聚类分析，产生两个图形：一个图形具有不同的肘值，另一个图形是连接y轴上的每个“步”，即在相邻的肘值之间绘制连线，第二个图中曲线的拐点可能暗示“正确的”簇数。

绘制k均值聚类分析的肘部值。该函数计算所提供的数据帧上的k均值聚类分析，并产生两个图：一个具有不同的肘值，另一个图绘制在y轴上的每个“步”（即在肘值之间）之间的差异。第二个图的增加可能表明肘部标准。

library(effects)library(sjPlot)library(ggplot2)sjc.elbow(data,show.diff = FALSE)

从下面的肘值图中，可以看出曲线的拐点大致在5附近：

2，使用NbClust()函数来验证肘值

从上面肘值图中，可以看到曲线的拐点是3，还可以使用NbClust包种的NbClust()函数，默认情况下，该函数提供了26个不同的指标来帮助确定簇的最终数目。

NbClust(data = NULL, diss = NULL, distance = "euclidean", min.nc = 2, max.nc = 15, method = NULL, index = "all", alphaBeale = 0.1)

参数注释：

diss：相异性矩阵（dissimilarity matrix），默认值是NULL，如果diss参数不为NULL，那么忽略distance参数。
distance：用于计算相异性矩阵的距离度量，有效值是： "euclidean", "maximum", "manhattan", "canberra", "binary", "minkowski" 和"NULL"。如果distance不是NULL，diss（相异性矩阵）参数必须为NULL。
min.nc：最小的簇数
max.nc：最大的簇数
method：用于聚类分析的方法，有效值是："ward.D", "ward.D2", "single", "complete", "average", "mcquitty", "median", "centroid", "kmeans"
index：用于计算的指标，NbClust()函数提供了30个指数，默认值是"all"，是指除GAP、Gamma、Gplus 和 Tau之外的26个指标。
alphaBeale：Beale指数的显著性值

利用NbClust()函数来确定k-均值聚类的最佳簇数：

library(NbClust)nc <- NbClust(data,min.nc = 2,max.nc = 15,method = "kmeans")barplot(table(nc$Best.nc[1,]),xlab="Number of Clusters",ylab="Number of Criteria",main="number of Clusters Chosen by 26 Criteria")

从条形图种，可以看到支持簇数为3的指标（Criteria）的数量是最多的，因此，基本上可以确定，k-均值聚类的簇数目是3。

二，k-中心化确定最佳簇数

k-中心化聚类有两种实现方法，PAM和CLARA，PAM适合在小型数据集上运行，CLARA算法基于抽样，不考虑整个数据集，而是使用数据集的一个随机样本，然后使用PAM方法计算样本的最佳中心点。

通过fpc包中的pamk()函数得到最佳簇数：

pamk(data,krange=2:10,criterion="asw", usepam=TRUE,      scaling=FALSE, alpha=0.001, diss=inherits(data, "dist"),      critout=FALSE, ns=10, seed=NULL, ...)

参数注释：

krange：整数向量，用于表示簇的数量
criterion：有效值是："asw"（默认值）、 "multiasw" 和 "ch"
usepam：逻辑值，如果设置为TRUE，那么使用pam算法，如果为FALSE，那么使用clara算法。
scaling：逻辑值，是否对数据进行缩放（标准化），如果设置为FALSE，那么不对data参数做任何缩放；如果设置为TRUE，那么对data参数通过把（中间）变量除以它们的均方根来完成缩放。

关键字：

万码学堂2025年课程全面升级

数据分析第六篇：聚类的评估（簇数确定和轮廓系数）和可视化

一，k-均值法确定最佳的簇数

二，k-中心化确定最佳簇数

青岛软件培训

联系我们

电话咨询

扫码添加微信

万码学堂2025年课程全面升级

数据分析 第六篇：聚类的评估（簇数确定和轮廓系数）和可视化

一，k-均值法确定最佳的簇数

二，k-中心化确定最佳簇数

青岛软件培训

联系我们

电话咨询

扫码添加微信

数据分析第六篇：聚类的评估（簇数确定和轮廓系数）和可视化