KMeans 模型数据预处理
Jiaxiang Li
2019-02-14
K-Means 模型需要对称分布的假设
参考DataCamp。
- K-means works well on variables with the same mean
- K-means works better on variables with the same variance / standard
deviation
工业界的处理方式
- 有 skewness 先 log
- 再 标准化
另外当数据存在负数时, 使用 todo Cube root transformation 之前在Stack
Overflow看到过。
另外从降维角度,k-means 的效果在 feature 数量增加时,效果变差。 (Castanedo 2018)
因此这也引入了 t-SNE 等方式。
Castanedo, Federico. 2018. *Advanced Dimensionality Reduction in R*.
DataCamp.
<https://www.datacamp.com//courses/advanced-dimensionality-reduction-in-r>.