南大通用GBase UP主成分分析法具体是什么?

南大通用GBase UP主成分分析法具体是什么?知道的请解答一下,谢谢!

主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

当样本数据成千上万时,维数上千时,它能起到的作用有两个:一个是节约存储空间,当数据量过多时,通过减少几个维度就可以节约很多空间;另一个是提供计算的速度,将数据降维后,无论是样本数据训练时,还有对新数据做出响应时,速度都会大幅提高。

近年来,PCA方法被广泛地运用于计算机领域,如数据降维、图像有损压缩、特征追踪等等。所以在机器学习和模式识别及计算机视觉领域,PCA方法被广泛的运用。在人脸识别中,假设训练集是30幅不同的N×N大小的人脸图像。把图像中每一个像素看成是一维信息,那么一副图像就是N2维的向量。因为人脸的结构有极大的相似性,如果是同一个人脸的话相似性更大。而我们的所希望能够通过人脸来表达人脸,而非用像素来表达人脸。那么我们就可以用PCA方法对30幅训练集图像进行处理,寻找这些图像中的相似维度。我们提取出最重要的主成份后,让被识别图像与原图进行过变化后的主元维度进行相似度比较,以衡量两幅图片的相似性。在图像压缩方面,通过PCA方法进行图像压缩,又称Hotelling或者Karhunen and Leove变换。通过PCA提取出图像的主分量,去除掉一些次分量,然后变换回原图像空间,图像因为维数的降低得到了很大程度上的压缩,同时图像还很大程度上保留了原图像的重要信息。PCA方法其实就是将数据空间通过正交变换映射到低维子空间的过程。而相应的基向量组应满足正交性且由基向量组构成的地位子空间最优地考虑了数据的相关性。在原数据集变换空间后应使单一数据样本的相互相关性降低到最低点。

要使PCA发挥最大的作用,训练用的原始数据就必须足够多,而数据的收集是制约主成分分析发展的障碍之一。比如,人脸识别系统中,人的面部表情不同时、有障碍物遮挡面部时、光线过强或过弱时都会影响照片的质量,难以提取有效的原始特征数据,也就难以得到好的低维空间。

除去收集数据需要花费大量精力和资源以外,在主成分分析时,同样需要注意数据的归一化问题。由于变量和变量之间的单位或者量纲不同,比如,人的牙齿长度按毫米计算,眼睛长度却按厘米计算,不同的量纲将导致计算特征值时变量所占比重不同。在进行主成分分析时,需要将所有的变量统一量纲,计算完毕后在还原至原始的量纲,否则计算结果将受到影响。

关于主成分分析法的算法介绍

主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如共p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。提取的综合指标应使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关。