customer_segmentation

KMeans 模型数据预处理

Jiaxiang Li 2019-02-14

K-Means 模型需要对称分布的假设 参考DataCamp

  1. K-means works well on variables with the same mean
  2. K-means works better on variables with the same variance / standard deviation

工业界的处理方式

  1. 有 skewness 先 log
  2. 再 标准化

另外当数据存在负数时, 使用 todo Cube root transformation 之前在Stack Overflow看到过。

另外从降维角度,k-means 的效果在 feature 数量增加时,效果变差。 (Castanedo 2018)

因此这也引入了 t-SNE 等方式。

Castanedo, Federico. 2018. *Advanced Dimensionality Reduction in R*. DataCamp. <https://www.datacamp.com//courses/advanced-dimensionality-reduction-in-r>.