当前位置:首页 » 《随便一记》 » 正文

深入解密 K 均值聚类:从理论基础到 Python 实践

12 人参与  2024年11月03日 10:01  分类 : 《随便一记》  评论

点击全文阅读


1. 引言

在机器学习领域,聚类是一种无监督学习的技术,用于将数据集分组成若干个类别,使得同组数据之间具有更高的相似性。这种技术在各个领域都有广泛的应用,比如客户细分、图像压缩和市场分析等。聚类的目标是使得同类样本之间的相似性最大化,而不同类样本之间的相似性最小化。

K 均值聚类 (K-Means Clustering) 是一种基于距离度量的迭代优化算法,通过选择若干个质心 (centroid) 来对数据进行分组,使得每个数据点所属的聚类内距离质心的距离之和最小化。由于其算法的简单性和高效性,K 均值在数据分析中被广泛使用。

在现实生活中,我们可以将 K 均值聚类应用于客户细分,以帮助企业识别具有相似购买行为的客户群体,或者用于图像压缩,通过将图像像素点聚类来减少颜色的数量。在这篇文章中,我们将深入探讨 K 均值聚类的数学原理、算法实现步骤,并提供 Python 代码示例来帮助读者理解其实际应用。

2. 什么是 K 均值聚类?

K 均值聚类是一种基于质心的聚类算法,它通过反复迭代的方式将数据点分配到 K 个聚类中。每个质心代表一个聚类的中心位置,算法会不断调整质心的位置,直到满足一定的收敛条件。K 均值聚类的目标是最小化每个聚类内部所有点到其质心的距离之和。

具体来说,K 均值聚类的步骤可以概括如下:

随机选择 K 个初始质心。

将每个数据点分配到离它最近的质心所在的聚类。

重新计算每个聚类的质心,即对聚类中的所有数据点取平均值。

重复步骤 2 和 3,直到质心的位置不再发生变化,或者达到预设的迭代次数。

K 均值聚类的最终结果是 K 个聚类,每个聚类由一个质心及其所有属于该聚类的数据点组成。其目标是使得每个聚类内的数据点与质心之间的总距离最小。

3. K 均值聚类的数学原理

K 均值聚类的目标是最小化每个数据点到所属质心的距离的平方和 (Sum of Squared Errors, SSE):

其中,

:聚类的数量。

:第 i 个聚类。

:第 i 个聚类的质心。

:属于聚类 的数据点。

这个优化问题的目标是通过不断调整每个聚类的质心来最小化 SSE。该过程通过交替进行两步:分配 (Assignment) 和更新 (Update),直到达到收敛条件。

4. 算法实现步骤详解

K 均值聚类算法主要包含以下步骤:

步骤 1:选择 K 值

K 值是指要将数据分成的聚类数。选择合适的 K 值是 K 均值聚类算法中一个非常重要的步骤,因为不合适的 K 值会影响聚类的效果。通常可以通过 "肘部法则 (Elbow Method)" 来确定合适的 K 值。

步骤 2:初始化质心

可以随机选择 K 个数据点作为初始质心,或者使用一些启发式的方法,如 K-Means++,以更好地初始化质心,减少随机性对聚类效果的影响。

步骤 3:分配数据点

将每个数据点分配到离它最近的质心所在的聚类中。通常使用欧几里得距离来计算数据点与质心之间的距离。

步骤 4:更新质心

对于每一个聚类,重新计算其质心的位置。具体来说,将聚类中的所有数据点的坐标进行平均,得到新的质心位置。

步骤 5:收敛判断

判断质心是否发生变化。如果质心位置不再变化,或者达到预设的最大迭代次数,算法停止。此时的聚类结果即为最终的聚类划分。

5. Python 代码实现

下面我们用 Python 及其常用库 NumPy 和 Matplotlib 实现 K 均值聚类算法:

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import make_blobs​# 生成模拟数据集np.random.seed(42)X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.6, random_state=0)​# 可视化数据集plt.scatter(X[:, 0], X[:, 1], s=50)plt.xlabel('Feature 1')plt.ylabel('Feature 2')plt.title('Generated Data')plt.show()​# 定义K均值聚类算法class KMeans:    def __init__(self, k=3, max_iters=100, tol=1e-4):        self.k = k        self.max_iters = max_iters        self.tol = tol​    def fit(self, X):        self.centroids = X[np.random.choice(range(X.shape[0]), self.k, replace=False)]                for _ in range(self.max_iters):            # 分配数据点到最近的质心            self.clusters = self._assign_clusters(X)                        # 重新计算质心            new_centroids = self._compute_centroids(X)                        # 检查质心是否收敛            if np.all(np.linalg.norm(self.centroids - new_centroids, axis=1) < self.tol):                break                        self.centroids = new_centroids​    def _assign_clusters(self, X):        distances = np.linalg.norm(X[:, np.newaxis] - self.centroids, axis=2)        return np.argmin(distances, axis=1)​    def _compute_centroids(self, X):        return np.array([X[self.clusters == i].mean(axis=0) for i in range(self.k)])​    def predict(self, X):        distances = np.linalg.norm(X[:, np.newaxis] - self.centroids, axis=2)        return np.argmin(distances, axis=1)​# 训练模型kmeans = KMeans(k=4)kmeans.fit(X)​# 预测聚类结果y_pred = kmeans.predict(X)​# 可视化聚类结果plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', s=50)plt.scatter(kmeans.centroids[:, 0], kmeans.centroids[:, 1], s=200, c='red', marker='X')plt.xlabel('Feature 1')plt.ylabel('Feature 2')plt.title('K-Means Clustering Results')plt.show()

6. 选择 K 值:肘部法则

选择合适的 K 值是 K 均值聚类的重要步骤。肘部法则是一种常用的方法,它通过计算不同 K 值下 SSE 的变化趋势来选择合适的 K。随着 K 的增加,SSE 会减少,但当减少的速度显著减小时,最佳 K 值即为 "肘部点"。

以下是使用肘部法则的代码示例:

sse = []for k in range(1, 10):    kmeans = KMeans(k=k)    kmeans.fit(X)    sse.append(sum(np.min(np.linalg.norm(X[:, np.newaxis] - kmeans.centroids, axis=2), axis=1) ** 2))​# 可视化肘部法则plt.plot(range(1, 10), sse, marker='o')plt.xlabel('Number of Clusters (K)')plt.ylabel('SSE')plt.title('Elbow Method for Optimal K')plt.show()

7. K 均值聚类的优缺点

优点:

简单易懂:K 均值聚类算法简单直观,易于实现。

高效性:对于较大规模的数据,K 均值算法计算效率较高。

缺点:

对初始值敏感:算法对初始质心位置敏感,可能陷入局部最优。K-Means++ 是一种改进方法,可以更好地选择初始质心。

需指定 K 值:K 值需要事先给定,这对于不熟悉数据结构的用户来说是个挑战。

易受异常值影响:异常值对质心计算有较大影响,可能使结果偏离。

8. K-Means++ 的改进

为了减少对初始质心选择的敏感性,K-Means++ 提供了一种改进策略,确保初始质心尽可能分散,减少局部最优解的可能性。Scikit-Learn 库实现的 KMeans 就采用了 K-Means++ 作为默认的初始质心选择方法。

from sklearn.cluster import KMeans​# 使用KMeans++初始化kmeans = KMeans(n_clusters=4, init='k-means++', max_iter=300, n_init=10, random_state=0)y_kmeans = kmeans.fit_predict(X)​# 可视化聚类结果plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis', s=50)plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')plt.xlabel('Feature 1')plt.ylabel('Feature 2')plt.title('K-Means++ Clustering Results')plt.show()

9. 实际应用

K 均值聚类在实际生活中有着广泛的应用,包括:

客户细分:根据购买行为或浏览习惯将客户进行分类,方便精准营销。

图像压缩:通过对图像的像素进行聚类,将相似颜色的像素归为同一类,从而减少颜色种类,达到压缩图像的目的。

市场分析:K 均值可以用于找出不同市场中的相似产品。

10. 总结

K 均值聚类是一种强大且简单的聚类算法,适合处理结构化的数值数据。它在很多应用场景下表现良好,但也有其局限性,比如对初始值敏感和易受异常值影响。在实际应用中,结合肘部法则和 K-Means++ 等改进方法,可以提高聚类效果。

希望本文让你对 K 均值聚类的原理和实现有更深的理解,并能利用代码在自己的项目中进行聚类分析。如果你有任何问题或建议,欢迎在评论区交流!


点击全文阅读


本文链接:http://m.zhangshiyu.com/post/181745.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1