问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

(PCA)

发布网友 发布时间:2023-06-20 04:47

我来回答

1个回答

热心网友 时间:2023-10-07 05:51

主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。

统计分析比中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数几个不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的不部分信息。

主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1,。之后对数据进行正交变换,用来由线性相关表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量一次成为第一主成分,第二主成分等。通过主成分分析,可以利用主成分近似地表示原始数据,这可理解为发现数据的“基本结构”;也可以把数据由少数主成分表示,这可理解为对数据降维。

方差最大的解释。假设有两个变量 ,三个样本点A,B,C。样本分布在由 轴组成的坐标系中,对坐标系进行旋转变换,得到新的坐标轴 ,表示新的变量 。坐标值的平方和 表示样本在变量 上的方差和。主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也是是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中变换中样本点到原点距离的平方和 不变,根据勾股定理,坐标值的平方和最大 等价于样本点到 轴的距离平方和 最小。所以,等价地,主成分分析在旋转变换中选取离样本点的距离的平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已有坐标轴正交的条件下,类似地进行

假设 是m维随机变量,其均值是
,
协方差矩阵是

考虑到m维随机变量 到m维随机变量 的线性变换

其中

由随机变量的性质可知

总体主成分的定义给定式(1)所示的线性变换,如果他们满足下列条件

设 是m维随机变量, 是 的协方差矩阵, 的特征值分别是 ,特征值对应的单位特征向量分别是 ,则 的第k主成分是

的第k主成分的方差是

即协方差矩阵 的第k个特征值

首先求 的第一主成分 ,即求系数向量 。第一主成分的 是在 的条件下, 的所有线性变换中使方差达到最大的

求第一主成分就是求解最优化问题

定义拉格朗日函数

其中 是拉格朗日乘子,将拉格朗日函数对 求导,并令其为0,得

因此 是 的特征值, 是对应的单位特征向量。于是目标函数

假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解,所以, 构成第一主成分,其方差等于协方差矩阵的最大特征值

接着求 的第二主成分 ,第二主成分的 是在 且 与 不相关条件下, 的所有线性变换中使达到最大

求第二主成分需参求解约束最优化问题

定义拉格朗日函数

其中 对应拉格朗日乘子。对 求偏导,并令其为0,得

将方程左则乘以 有

此式前两项为0,且 ,导出 ,因此式成为

由此, 是 的特征值, 是对应的特征向量,于是目标函数为

假设 是 的第二大特征值 的特征向量,显然 是以上最优化问题的解。于是 构成第二主成分,其方差等于协方差矩阵的第二大特征值,

按照上述方法可以求得第一、第二、直到第m个主成分,其系数向量 分别是 的第一、第二、直到m个单位特征向量, 分别是对应的特征值。并且,第k主成分的方差等于 的第k个特征值。

主成分分析的主要目的是降维,所以一般选择 个主成分(线性无观变量),使问题得以简化,并能保留原有变量的大部分信息。这里所说的信息是指原有信息的方差。

对任意正整数 ,考虑正交线性变换

其中 是q的维向量, 是q*m维矩阵,令 的协方差矩阵为

则 的迹 在 时取最大值,其中矩阵 是由正交矩阵A的前q列组成。

这表明,当 的线性变换 在 时,其协方差矩阵 的迹 取得最大值。也就是说,当A取前 的前q个主成分时,能够最大限度地保留原有变量方差的信息。

以上作为选择k个主成分的理论依据。具体选择k的方法,通常利用方差贡献率。

第k主成分 的方差贡献率定义为 的方差与所有方差之和的比记作

k个主成分 的累计方差贡献率定义为k个方差之和和所有方差之和的比

通常取k使得累计方差贡献率达到规定的百分比以上,例如70%~80%。累计方差贡献率反映了主成分保留信息的比例,但它不能反映对某个原有变量 保留信息的比例,这时通常利用k个主成分 对原有变量 的贡献率。

k个主成分 对原有变量 的贡献率为 , 的相关系数的平方,记作


计算公式如下:

其中, 是随机变量 的方差,即协方差矩阵 的对角元素。

在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果,为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1

设 为随机变量, 为第i个随机变量, ,令

其中, 分布是随机变量 的均值和方差,这时 就是 的规范化随机变量。

在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具体相同的性质。

使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵如下操作:

其中


样本协方差矩阵S是中体协方差矩阵 的无偏估计,样本相关矩阵R是总体相关矩阵的无偏估计,S的特征值和特征向量 的特征值和特征向量的无偏估计。

传统的主成分分析通过数据的协方差矩阵或相关矩阵的特征值分解进行,现在常用的方法是通过数据矩阵的奇异值分解进行。下面介绍数据的协方差矩阵或相关矩阵的分解方法

给定样本矩阵 ,利用数据的样本的协方差矩阵或样本相关矩阵的特征值分解进行主成分分析

给定样本矩阵 ,利用数据矩阵奇异值分解进行主成分分析,这里没有假设k个主成分

对于 维实矩阵A,假设其秩为r, ,则可将矩阵A进行截断奇异值分解

式 是 矩阵, 是k阶对角矩阵, 分别由取A的完全奇异分解的矩阵U,V的前k列, 由完全奇异分解的矩阵 的前k个对角元素得到

定义一个新的 矩阵

的每一列均值为0,

即 等于X的协方差矩阵

主成分分析归结于求协方差矩阵 的特征值和对应的单位特征向量。

假设 的截断奇异值分解为 ,那么V 的列向量就是 的单位向量,因此V的列向量就是X的主成分。于是X求X的主成分可以通过 的奇异值来实现

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
右附件包块怎么治疗? 右侧附件区见混合性包块回声、大小约4 .9*4。8cm.包膜完整、内可见不... 网络学术资源网络学术资源的获取途径 请问:正式出版物一定是合法出版物吗? 正式出版发行的期刊有哪些 玉米莲藕排骨汤怎么做才好吃 电脑开机进入不了BOSS, 怎么关闭苹果手机的自动备份功能 钢结构制作与安装的阶段和要点 钢结构设计的基本概念、关键步骤和应用 mta? DM? 96年BEYOND演唱会,黄贯中砸吉他之后,说了一段粤语,谁能翻译一下? 为什么停机保号申请了没有停机 为什么普票说设备不在线 手中这线中断竟暗示婚姻不顺 OPPO Watch 2? OPPO Watch2? 第一次申请农行信用卡金卡才给我三千额度 等我去激活的时候怎么申请提额度 是不是提供行驶证和房产证 信用卡激活提额怎么操作 什么是铝塑板??? 快乐崇拜的评价 立德 立志 立业的辩证关系 encourage? encourge? 哥斯拉1993演员表 初中生过新年日记300字以上 初二喜迎新年周记400字 关于春节的初二作文300字 老菜是什么蔬菜 如何分析转折关系?转折关系的类型有哪些? us? 请你为动物园写一条宣传标语制止游客给动物扔食品? 动物园笼车的宣传语怎么写 8086汇编中DS为什么要乘以10H + 偏移量才是物理地址 ,乘以10H什么意思 ? 从物理地址20100h单元开始,依次存放数据是什么意思 jg 小米平板6pro芯片位置 小米平板1屏幕是哪家的 笔记本电脑录制是什么意思? 关于基金衔接 不思议迷宫血腥工厂彩蛋汇总 不思议迷宫企鹅币兑换什么好 手机号码怎么添加? 关于友情的诗句诗经 汽车218这个号码好吗 车牌018,218,186怎么样 总水表数总是多出实际用水数十几吨,这是怎么回事???水表上的数字比实际用水多一倍是怎么回事 水费多了是什么原因呢 id为对象.属性名的要怎样由js赋值