t-SNE 与降维
t-SNE(t-distributed Stochastic Neighbor Embedding)是高维数据二维可视化的事实标准。但它的输出有不少容易被误读的”陷阱”——超参数、迭代步数、簇的大小都会改变最终图形的解读。
不同 perplexity 下的同一组数据
看的时候要小心
- 簇大小不代表密度 — t-SNE 会自动放大稀疏簇
- 簇间距离没有几何意义 — 只能看”邻近 / 不邻近”
- 必须看多组超参数 — 单张图容易被自欺欺人地解读
t-SNE(t-distributed Stochastic Neighbor Embedding)是高维数据二维可视化的事实标准。但它的输出有不少容易被误读的”陷阱”——超参数、迭代步数、簇的大小都会改变最终图形的解读。