Clustering with k-means silhouette coefficients within Grasshopper.
Partitionnement k-means avec la méthode de classement automatique de silhouette
Adapted from this Jupyter notebook
Inputs :
values
daatree
clusters
numbers 'k' of clusters to test
iterations
number or minimal inertia
X
feature axe of scatter plots
Y
feature axe of scatter plots
plot
true/false
Outputs :
indices
of points
S
Points silhouette scores
Sk
Global silhouette scores for each k
Description
The centroids of each cluster will stabilize by grouping points closer and closer to the averages of the parts, but that does not mean points are not miss-classified. You can begin understanding the density of points by looking at the SSE or the silhouette score to see how many clusters are needed to best represent the data.
Selecting the number of clusters with silhouette analysis on KMeans clustering
Silhouette analysis can be used to study the separation distance between the resulting clusters. The silhouette plot displays a measure of how close each point in one cluster is to points in the neighboring clusters and thus provides a way to assess parameters like number of clusters visually. This measure has a range of [-1, 1].
Silhouette coefficients (as these values are referred to as) near +1 indicate that the sample is far away from the neighboring clusters. A value of 0 indicates that the sample is on or very close to the decision boundary between two neighboring clusters and negative values indicate that those samples might have been assigned to the wrong cluster.
This method allows to find an optimal value of K
Les centroïdes de chaque cluster se stabiliseront en regroupant les points de plus en plus près des moyennes des parties, mais cela ne signifie pas que les points ne sont pas mal classés. Vous pouvez commencer à comprendre la densité des points en regardant le SSE ou le score de silhouette pour voir combien de clusters sont nécessaires pour représenter au mieux les données.
Sélection du nombre de clusters avec analyse de silhouette sur le clustering KMeans
L'analyse de silhouette peut être utilisée pour étudier la distance de séparation entre les clusters résultants. Le tracé de la silhouette affiche une mesure de la proximité de chaque point d'un cluster par rapport aux points des clusters voisins et fournit ainsi un moyen d'évaluer visuellement des paramètres tels que le nombre de clusters. Cette mesure a une plage de [-1, 1].
Les coefficients de silhouette (comme ces valeurs sont appelées) proches de +1 indiquent que l'échantillon est éloigné des grappes voisines. Une valeur de 0 indique que l'échantillon est sur ou très proche de la limite de décision entre deux clusters voisins et des valeurs négatives indiquent que ces échantillons peuvent avoir été affectés au mauvais cluster.
La méthode de classement automatique Silhouette permet de trouver des valeurs optimales de K .