2020年新年大赛！

Question

Pavel

Asked:2020-01-29 20:18:41 +0000 UTC2020-01-29 20:18:41 +0000 UTC 2020-01-29 20:18:41 +0000 UTC

在 K-means 中设置初始质心时出错

772

同事，帮我修复代码中的错误。

我无法为进一步的 K 均值聚类设置随机质心。

    # Number of clusters
k = 3
# X coordinates of random centroids
C_x = np.random.randint(0, np.max(X)-20, size=k)
# Y coordinates of random centroids
C_y = np.random.randint(0, np.max(X)-20, size=k)
C = np.array(list(zip(C_x, C_y)), dtype=np.float32)
print(C)

发生错误

ValueError：高超出 int32 的范围

如果您帮助 ML 新手，我将不胜感激

1 个回答

Voted

MaxU - stop genocide of UA · Answer 1 · 2020-01-29T20:35:23Z

显然，在向量X中，最大值超出了界限np.int32：

In [73]: np.iinfo('int32')
Out[73]: iinfo(min=-2147483648, max=2147483647, dtype=int32)

因此，它可能np.random.randint(..., np.max(X)-20, ...)会返回一个超出范围的数字，例如：

In [76]: np.random.randint(0, 10**10)
...
skipped
...
ValueError: high is out of bounds for int32

要修复此错误，您可以显式设置数据类型：

In [77]: np.random.randint(0, 10**10, dtype='int64')
Out[77]: 7882851664

但是主要的困难在前面等待着你——k-means它可以收敛到局部最小值，这在很大程度上取决于初始质心的选择。因此，该算法的所有工业实现都会使用不同的初始质心进行多次计算，从而返回最佳结果。使用一种SciKit-Learn算法k-means++来选择初始质心，其本质是选择尽可能远离彼此的质心。

PS链接到文档的理论部分

用法示例（来自文档）：

>>> from sklearn.cluster import KMeans
>>> import numpy as np
>>> X = np.array([[1, 2], [1, 4], [1, 0],
...               [4, 2], [4, 4], [4, 0]])
>>> kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
>>> kmeans.labels_
array([0, 0, 0, 1, 1, 1], dtype=int32)
>>> kmeans.predict([[0, 0], [4, 4]])
array([0, 1], dtype=int32)
>>> kmeans.cluster_centers_
array([[1., 2.],
       [4., 2.]])

在 K-means 中设置初始质心时出错

根据浏览器窗口的大小调整背景图案的大小

理解for循环的执行逻辑

复制动态数组时出错（C++）

Or and If,elif,else 构造[重复]

如何构建支持 x64 的 APK

如何使按钮的输入宽度？

如何显示对象变量的名称？

如何循环一个函数？

LOWORD 宏有什么作用？

从字符串的开头删除直到并包括一个字符

在 K-means 中设置初始质心时出错

1 个回答

相关问题