《机器学习》K-means 聚类原理、参数解析、案例实现

class sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm=’auto’)[source]

2、参数

1）n_clusters: 类中心的个数,就是要聚成几类。【默认是8个】

2）init：参初始化的方法，默认为'k-means++'

(1)'k-means++': 用一种特殊的方法选定初始质心从而能加速迭代过程的收敛.

(2) ‘random’: 随机从训练数据中选取初始质心。

(3) 如果传递的是一个ndarray，则应该形如 (n_clusters, n_features) 并给出初始质心。

3）n_init: 整形，缺省值=10

用不同的质心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果，最优即轮廓系数最大

4）max_iter :执行一次k-means算法所进行的最大迭代数。

即上述流程途中的计算一次所有点到样本点的距离并更新样本点坐标，这一个流程为迭代一次

5）Tol: 与inertia结合来确定收敛条件。

6）precompute_distances：三个可选值，‘auto’，True 或者 False。

预计算距离，计算速度更快但占用更多内存。

(1)‘auto’：如果样本数乘以聚类数大于 12million 的话则不预计算距离。

(2)True：总是预先计算距离。

(3)False：永远不预先计算距离。

7）verbose：整形，默认值=0

8）random_state :随机状态

9）copy_x：布尔型，默认值=True

当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原。但是在计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别。

10）algorithm:'auto','full' or 'elkan'.默认为'auto'

full:采用经典的EM算法

elkan:通过使用三角不等式从而更有效，但不支持稀疏数据

auto:数据稀疏选择full模式，数据稠密选择elkan模式

3、属性

cluster_centers_：一个n-clusters * n_features的矩阵，表示聚类中心的坐标

labels_：每个点的分类标签。

inertia_：float型，每个点到其簇的质心的距离之和。

n_iter_ ： int 迭代次数。

4、案例实现

1）有如下文件

2）完整代码

import pandas as pd
from sklearn.cluster import KMeans  # 导入K-mean聚类的包
from sklearn import metrics

beer = pd.read_table('data.txt',sep=' ',encoding='utf8',engine='python') # 导入数据，指定分隔符

x = beer[['calories','sodium','alcohol','cost']]  # 取出这四列数据

scores = []
for k in range(2,10):   # 循环k值
    labels = KMeans(n_clusters=k).fit(x).labels_  # 建立模型，设置参数聚类的类别数，然后对其进行训练，然后再取出每个点的分类标签
    score = metrics.silhouette_score(x,labels)  # 计算轮廓系数
    scores.append(score)  # 将轮廓系数保存到scores列表
print(scores)
b =max(scores)  # 导出最大概率
a = scores.index(b)+2  # 有最大概率的索引对其求k值，因为k值从2开始，所以对其+2

import matplotlib.pyplot as plt   # 导入绘图库

plt.plot(list(range(2,10)),scores)  # 绘制折线图，x为2-10之间的数，y为上述求得概率
plt.xlabel("Number of Clusters Initinlized")  # x标签名
plt.ylabel("Sihouette Score")  # y标签名
plt.show()

km = KMeans(n_clusters=a).fit(x)   # 使用上述最优k值进行训练
beer['cluster'] = km.labels_  # 导出数据点的标签信息，将标签信息增加到原始数据beer


score = metrics.silhouette_score(x,beer.cluster)  # 计算轮廓系数，参数为特征值和预测结果
print(score)