t-SNE数据可视化与标准化/归一化的顺序问题

在做高维数据t-SNE可视化的时候，是否需要先将数据进行归一化处理再进行t-SNE可视化？还是说先进行t-SNE可视化之后进行归一化处理？是否有数学依据？

在进行高维数据的t-SNE可视化时，建议先将数据进行归一化处理，然后再进行t-SNE可视化。

归一化可以使得不同维度的特征值具有相同的尺度，避免某些维度的特征值过大而影响到t-SNE的计算。此外，归一化还可以加快t-SNE的计算速度和提高可视化效果。

具体来说，t-SNE算法的核心是将高维数据映射到低维空间中，并保留数据点之间的局部相似性。如果数据未经过归一化处理，则不同维度之间的尺度差异会对相似性度量产生影响，从而导致可视化效果不佳。

因此，建议在进行t-SNE可视化前，先对数据进行归一化处理。一般可以采用z-score标准化或者将数据缩放到[0, 1]范围内等方法进行归一化。

需要注意的是，在进行归一化处理后，数据的原始分布信息可能会受到影响。因此，有时候也可以先进行t-SNE可视化，然后再对可视化结果进行归一化处理。但这种方法需要谨慎使用，并根据具体情况进行调整。

总之，数据归一化和t-SNE可视化是相互依存的，二者都可以影响到可视化结果。具体的处理方法需要结合实际情况进行选择。

这篇博客: 高维数据可视化之t-SNE算法中的 什么是t-SNE？ 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
t-SNE的主要用途是可视化和探索高维数据。它由Laurens van der Maatens和Geoffrey Hinton在JMLR第九卷(2008年)中开发并出版。 t-SNE的主要目标是将多维数据集转换为低维数据集。相对于其他的降维算法，对于数据可视化而言t-SNE的效果最好。如果我们将t-SNE应用于n维数据，它将智能地将n维数据映射到3d甚至2d数据，并且原始数据的相对相似性非常好。与PCA一样，t-SNE不是线性降维技术，它遵循非线性，这是它可以捕获高维数据的复杂流形结构的主要原因。