可视化资源

t-SNE 与降维

t-SNE（t-distributed Stochastic Neighbor Embedding）是高维数据二维可视化的事实标准。但它的输出有不少容易被误读的”陷阱”——超参数、迭代步数、簇的大小都会改变最终图形的解读。

不同 perplexity 下的同一组数据

distill.pub How to Use t-SNE Effectively — 原文给出十余组对照实验：同一份高维数据，只改 perplexity 或随机种子，输出的形状就可能截然不同。

看的时候要小心

簇大小不代表密度 — t-SNE 会自动放大稀疏簇
簇间距离没有几何意义 — 只能看”邻近 / 不邻近”
必须看多组超参数 — 单张图容易被自欺欺人地解读

交互式资源

How to Use t-SNE Effectively ↗

distill 经典互动文章：拖动 perplexity 与迭代步数，实时看 t-SNE 演化。

Understanding UMAP ↗

Google PAIR 团队对 UMAP 与 t-SNE 的对比与原理图解。

TensorFlow Embedding Projector ↗

浏览器中加载自己的高维嵌入（如词向量），实时切换 PCA / t-SNE / UMAP。