艾丽游戏ing

主成分分析的注意事项 主成分分析的优缺点

艾丽游戏ing 1

主成分个数的选取原则

主成分个数的选取原则首先需要计算各主成分的方差,再求出各自对应的方差贡献率(即对应主成分方差除以总方差), 根据累积贡献率的大小取前面m 个(m

主成分分析的注意事项 主成分分析的优缺点主成分分析的注意事项 主成分分析的优缺点


主成分分析是最常用的线性降维方法,通过某种线性投影,将高维的数据映射到低维的空间,并期望在所投影的维度上数据的信息量最大(方差最大),以较少的数据维度去反映原数据的特性。

在机器学习的实际问题中,一般都会有几十个指标,高维数据离散度较大,不利于训练出较好的参数,而低维数据则可以更好的训练参数,因此可以通过降维的形式,计算出k列映射数据替代原数据。

主要步骤

1. 求样本均值

2.求样本协方差矩阵S

3.计算协方差矩阵的特征值和特征向量

4.将特征值排序

5.保留前N个最大的特征值对应的特征向量

6.将原始特征转换到上面得到的N个特征向量构建的新空间中

7.写出主成分的表达式

注:第五步和第六步,实现了特征压缩。

主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1组委纳入标准。

主成分分析法的优缺点

主成分分析(Principal Component Analysis,PCA)是一种常用的多元统计分析方法,其优缺点如下:

优点:

降维效果显著:PCA可以将原始数据集的维度降低,从而方便数据的可视化和处理。

减少冗余信息:PCA可以从原始数据中提取出主要的特征,减少冗余信息的影响。

去除噪声:PCA可以通过特征值分解的方法去除噪声,提高数据的准确性和可靠性。

提高计算效率:PCA通过对协方差矩阵进行特征值分解,可以将大规模数据计算转化为少量特征向量的计算,从而提高计算效率。

缺点:

对异常值敏感:PCA对异常值比较敏感,可能会导致提取出的主成分偏离真实情况。

对数据分布的假设:PCA假设数据符合高斯分布,如果数据分布与该假设不符,则可能导致分析结果不准确。

解释性不足:PCA提取的主成分可能难以解释其含义,需要通过额外的分析和解释才能得出结论。

受样本量和变量个数限制:PCA的应用需要考虑样本量和变量个数的限制,如果样本量不足或变量过多,可能会导致提取的主成分不具有代表性。

什么是主成分分析?主成分分析的步骤有哪些

主成分分析是指通过将一组可能存在相关性的变量转换城一组线性不相关的变量,转换后的这组变量叫主成分。

主成分分析步骤:1、对原始数据标准化,2、计算相关系数,3、计算特征,4、确定主成分,5、合成主成分。美信分析

主成分分析法详细步骤

主成分分析法的详细步骤如下:

第1步:标准化

这一步的目的是把输入数据集变量的范围标准化,以使它们中的每一个均可大致成比例地分析。

更具体地说,在使用PCA之前必须标准化数据的原因是PCA对初始变量的方差非常敏感。也就是说,如果初始变量的范围之间存在较大差异,那么范围较大的变量将占据范围较小的变量(例如,范围介于0和100之间的变量将占据0到1之间的变量),这将导致主成分的偏差。

因此,将数据转换为可比较的比例可避免此问题。在数学上,这一步可以通过减去平均值,再除以每个变量值的标准偏差来完成。只要标准化完成后,所有变量都将转换为相同的范围[0,1]。

第2步:协方差矩阵计算

了解输入数据集的变量是如何相对于平均值变化的。或者换句话说,是为了查看它们之间是否存在任何关系。因为有时候,变量间高度相关是因为它们包含大量的信息。因此,为了识别这些相关性,我们进行协方差矩阵计算。

第3步:计算协方差矩阵的特征向量和特征值,用以识别主成分

特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。开始解释这些概念之前,让我们首先理解主成分的含义。

主成分是由初始变量的线性组合或混合构成的新变量。该组合中新变量(如主成分)之间彼此不相关,且大部分初始变量都被压缩进首个成分中。

所以,10维数据会显示10个主成分,但是PCA试图在第一个成分中得到尽可能多的信息,然后在第二个成分中得到尽可能多的剩余信息,以此类推。

第4步:特征向量

正如我们在上一步中所看到的,计算特征向量并按其特征值依降序排列,使我们能够按重要性顺序找到主成分。在这个步骤中我们要做的,是选择保留所有成分还是丢弃那些重要性较低的成分(低特征值),并与其他成分形成一个向量矩阵,我们称之为特征向量。

因此,特征向量只是一个矩阵,其中包含我们决定保留的成分的特征向量作为列。这是降维的第一步,因为如果我们选择只保留n个特征向量(分量)中的p个,则最终数据集将只有p维。

第五步:沿主成分轴重新绘制数据

在前面的步骤中,除了标准化之外,你不需要更改任何数据,只需选择主成分,形成特征向量,但输入数据集时要始终与原始轴统一(即初始变量)。

这一步,也是最后一步,目标是使用协方差矩阵的特征向量去形成新特征向量,将数据从原始轴重新定位到由主成分轴中(因此称为主成分分析)。这可以通过将原始数据集的转置乘以特征向量的转置来完成。

主成分分析的前提条件

主成分分析的前提条件是原始变量之间有一定的相关性 。

主成分分析操作步骤

1、为消除量纲的影响,先对数据进行标准化处理;

2、计算相关系数:一般认为各变量之间的相关系数大于0.3较好;

3、KMO检验和Barlett(巴特利)检验;

(1)KMO取样适切性量数>=0.6较适宜(这里也是判断能不能用主成分分析的结果的重要指标。)

并非所有的数据都适用于主成分分析的。主成分分析本身并不是目的, 实际应用中主成分分析往往是一种手段。目的是通过主成分分析简化数据结构, 在此基础上进行进一步的分析。

因此, 使用主成分分析的前提条件是原始数据各个变量之间应有较强的线性相关关系。如果原始变量之间的线性相关程度很小, 它们之间不存在简化的数据结构, 这时进行主成分分析实际是没有意义的。所以, 应用主成分分析时, 首先要对其适用性进行统计检验。

主成分分析检验方法有巴特莱特球性检验,KMO检验等,本文主要介绍KMO检验。