范文一:[word doc]利用样本协方差矩阵特征值分解实现双通道SAR动目标检测
利用样本协方差矩阵特征值分解实现双通
道SAR动目标检测
第32卷第ll期
2010年11月
电子与信息
JournalofElectronics&InformationTechnology
Vb1.32NO.11
NOV.2010
利用样本协方差矩阵特征值分解实现双通道SAR动目标检测
田斌朱岱寅朱兆达
(南京航空航天大学信息科学与技术学院南京2100161
摘要:该文针对机载双通道SAR-GMTI系统及实测数据,提出一种新的地面慢动目标检测方法.该方法基于双
通道样本协方差矩阵特征值分解,将杂波第2特征值和干涉相位联合统计特性的研究结果用于慢动目标检测,即根
据给定的恒虚警概率确定一条联合分布的第2特征值一干涉相位等高线作为门限检测曲线,同时结合第2特征值,
干涉相位门限预处理,实现地面慢动目标的精确检测.实测数据实验结果表明:该方法不但扩大了慢动目标的可检
测速度范围,同时还降低了系统的虚警概率.
关键词:动目标检测;样本协方差矩阵;特征值分解;联合概率分布;等
高线
中图分类号:TN957.51文献标识码:A文章编
号:1009—5896(2010)11—2636—06
DOI:10.3724/SP.J.1146.2009.01570
DualChannelsSARGroundMovingTargetDetectionwith
Eigen-decompositionoftheSampleCovarianceMatrix
TianBinZhuDai..yinZhuZhao..da
(CollegeofInformationScienceandTechnology,NanjingUniversityofAeronauticsandAstronautics,
Nanjing210016,China)
Abstract:Anovelapproachtomovingtargetdetectionisproposedfordual-channelSARsystem.Thisapproachis
Oilthebasisofeigen—decompositionofthesamplecovariancematrixandexaminesthestatisticofthesecond
eigenvalueandtheAlong-TrackInterferometric(ATI)phaseforgroundmovingtargetindication.Basedonthis
statistic,anewConstantFalseAlarmRate(CFAR)detectorcal2bedesignedtosolvetheproblemofGMTI.To
detectslowmovingtargetsmoreaccurately,thesecondeigenvalueandtheATIphasepre-thresholdsare
implementedbeforeaCFARdetector.ExperimentalresultsonmeasuredSA
Rdataarepresentedtodemonstrate
thatthisnoveldetectorhaswiderrangeofdetectionvelocityandlowerfalseala
rmprobability.
Keywords:Movingtargetdetection;Samplecovariancematrix;Eigen-deco
mposition;Jointprobability
distribution;Contourline
1引言
以合成孔径雷达(SAR)技术为基础,解决机载
雷达对地面动目标的检测fGMTI1,是目前雷达信号
处理领域的一个重要研究方向,也是当前SAR领域
的一个研究热点.目前常用的双通道SAR/GMTI
数据处理技术包括:方位向干涉技术(Along-Track
Interferometry,ATI)和相位中心偏置技术
(DisplacedPhaseCenterAntenna,DPCA)[i-4].
ATI技术能检测到杂波谱内的慢速运动目标,但受
信杂比的影响较大,信杂比越小,难以有效提取出
动目标信息.而DPCA技术虽然简单准确,但使用
该方法时载机速度,脉冲重复频率和相位中心间距
2009—12—08收到,2010-04—21改回
航空科学基金(200801520?04)和教育部高校博士点基金
(20070280531)资助课题
通信作者:田斌tianbin218@163.corn
之间必须满足严格的条件,使其在实际应用中受到
了一定的限制.
2003年,Sikaneta,Gierull等人【5]通过对双通
道样本协方差矩阵特征值分解,提出利用特征分解
得到的第2特征值,干涉相位,相似度3个参量来
实现SAR图像上的动目标的检测.由于上述3个动
目标检测量只是利用了幅度和相位信息的单个方
面,其检测结果并不理想.为此,Sikaneta等人【61
在以后的研究中又提出了两种联合检测方法一归
一
化相位检测和双曲线检测.前者结合了相似度和
干涉相位信息,与干涉相位检测相比,仅提高了目
标相位落入【7r/2,不]区间时的检测性能;后者同时利
用了第2特征值,干涉相位和相似度信息,目标检
测性能得到一定的提高,但检验统计量表达式中第
2特征值阶数的选取有待进一步研究.
针对现有方法中存在的缺点,本文提出一种新
第l1期田斌等:利用样本协方差矩阵特征值分解实现双通道SAR动
目标检测2637
的基于第2特征值和干涉相位联合的动目标检测方
法.该方法将杂波第2特征值和干涉相位联合统计
特性的研究结果用于慢动目标的检测,即根据给定
的恒虚警概率确定一条联合分布的第2特征值一干
涉相位等高线作为门限检测曲线,来去除场景中的
杂波;在此基础上,结合第2特征值,干涉相位门
限预处理去除由强点状杂波,相位漂移和噪声影响
产生的干扰信号,从而提高对慢动目标的检测性能.
实验结果证明了该方法的有效性.
2双通道SAR样本协方差矩阵特征值分解
假设两幅SAR复图像已经通道误差校正和位
置配准,复图像1中各像素表示为(,Y),复图像
2中的对应像素为x,Y),构造向量Z=[Z1x,),
(,)],则该像素对应的样本协方差矩阵为(有效
视数为n1
ni=
1
=
(1)
其中砰,劈表示两通道信号的方差,7e表示通道
之间的复相关系数,复相关系数的幅度称为相关
度.
对壶进行对角化,有
R一=
11?!挖I=UR21R22lIc2=l一一I=I.I”(2)llIu/12I
由于袁是Hermite矩阵,所以其特征值,A全为
实数.为特征向量构成的随机矩阵,可表示
为[5]
将式(2)展开可得到分解前后各变量之问的对应关
系:
A=arg(R12)(4)
=
a
nf1.
咖
n『
=
l袁+袁.+?](6)
=
丢[袁+五z.一?](7)
其中0<,A?[一7r,7r),9?[0,7r/2).
从文献[5】的分析可知,第2特征值,干涉相
位,以及相似度9都可作为检测动目标的判断依
据,但从检测结果来看效果均不理想.本文提出一
种新的动目标检测算法.该算法的本质是对第2特
征值和干涉相位的有效组合,它融合了第2特征值
和干涉相位两种检测方法中的有利因素,提高了系
统对动目标的检测性能.
3第2特征值一干涉相位的联合检测
3.1第2特征值和干涉相位的联合分布
若雷达通道建模为零均值的高斯过程,则由文
献『5]可知特征值变量,和变量A,的联合
概率密度函数为
(,,,),/12,A,O0
一
!(2:::(二一nRur81
21rF(n)F(n一11det(R)
其中冗为杂波协方差矩阵,,(佗)是gamma函数,
det(.)表示行列式运算符,Tr(?)表示迹运算符.
对和9进行积分,求得第2特征值和干涉相位
?的边缘概率密度函数为[5]
,”2
()而舒n(2xp
『r(n+1,)2
I?
r(n,A)
(9)
其中A:?,B:
2sl82
(兰?兰二垒里(2,S1和82是杂波协方
28182
差矩阵R的两个特征值,且8=52(1+7),82=
.(1—7),6.为通道信号的方差,为杂波的相关
度.图1给出了当n=2时的第2特征值和干涉相位
联合概率分布的等高线图.
3.2第2特征值一干涉相位的联合检测
图2显示了SAR成像系统无噪声情况下杂波和
动目标的”第2特征值一干涉相位”分布情况.图
一图1第2特征值和干涉相位联合概率
分布的等高线图(6.=1,=0.9213)
e
吣
一
硼
ll
22115
二=H删黼豳?????
186420
聋蠊
2638电子与信息第32卷
中,杂波主要分布在坐标零点周围,具体表现为第
2特征值较大的像素点干涉相位小,第2特征值较
小的像素点干涉相位大;对于慢动目标而言,由于
径向速度的存在使对应的像素点具有较大的干涉相
位.同时慢动目标的存在使得通道之间不完全匹配,
从而引起该像素点对应的第2特征值增大,因而慢
动目标的像素点在第2特征值一干涉相位分布图中表
现为”奇异离散点”.可设置适当的第2特征值门限
或干涉相位门限来实现慢动目标检测,第2特征值
门限4和干涉相位门限4由下式决定【1-6】:
+..
(ff,s,)d=(10)uh
不
2f.厶(<In,)d(=(11)h
其中.,.分别为杂波第2特征值和干涉相位的概
率密度函数,,为目标虚警概率.
实际SAR成像系统往往存在加性噪声和随机
相位噪声,这些噪声将直接影响系统对慢动目标的
检测性能.图3给出了存在噪声时杂波和动目标的
“第2特征值一干涉相位”分布情况.由图可见,噪
声的存在使图上杂波像素点的第2特征值幅值增
大,同时也使干涉相位的标准差增大,这时如果继
续沿用常规的第2特征值或干涉相位方法很难实现
慢动目标检测,需要用性能更优的检测算法来实现
目标检测.由第2节中协方差矩阵的特征分解可知,
第2特征值是利用协方差矩阵元素的幅值信息实现
目标检测;而干涉相位则是利用副对角线元素的相
位信息实现目标检测.因此,两个检测量之间具有
较强的互补性.为了充分利用协方差矩阵元素的幅
度和相位信息,本文将杂波第2特征值和干涉相位
联合统计特性的研究结果用于慢动目标检测.图4
是在图3的基础上给出了一组联合分布的第2特征
值一干涉相位等高线,其高程值由外向里依次递增,
高程值越大表示杂波像素点落在该等高线附近的概
率越大.观察可知,可以找到一条合适的第2特征
图2杂波和动目标的第2特征值一干涉相位
分布图(动目标的信杂比分别为7.6dB,9.5dB)
值一干涉相位等高曲线将绝大部分杂波和噪声像素
点包含在里面.如果把此条曲线作为门限检测曲线,
可有效地去除杂波和噪声.
图4上的等高线可通过以下方式进行求解:令
,分别为杂波第2特征值和干涉相位,,
?为
门限检测曲线所对应的第2特征值一干涉相位等高线
高程值,则在给定目标虚警概率的条件下,?可
由下式确定:
P{,?(,)<,以}=,?(12)
其中P表示概率值,.
?表示虚警值,,
?表示杂
波第2特征值和干涉相位的联合概率密度函数.在
求解得到门限值后,就可以对每一个像素点
P(第2特征值,干涉相位?)进行检测.具体实
现时:首先,把像素点P的和?代入式(9),计
算得到像素点P对应的似然函数值.?(,);然
后将,?(,)与,?进行比较,若,
?(,厶P)
,则判定像素点P是杂波像素,否则为动目
标像素,以此对像素点进行遍历则可实现动目标检
测.
另外,从图4中不难发现,上述门限检测曲线
外的点并非全都是动目标的像素点,其中还包含了
许多虚警点.这些虚警点按其第2特征值和干涉相
位的大小可划分成两类:第1类,第2特征值小,
干涉相位大的虚警点.这主要是受相位漂移和噪声
影响产生的杂波点,相对于慢动目标,其第2特征
值幅度都较小;第2类,干涉相位小,第2特征值
大的虚警点.这些点主要是由杂波背景中的强点状
杂波产生的,与慢动目标相比,其干涉相位较小,
表现在第2特征值一干涉相位分布图上,零干涉相位
附近有许多第2特征值较大的离散点.以上两类虚
警点可通过设置适当的第2特征值门限和干涉相位
门限将其去除,两门限取值见第3.3.1小节.图5显
示了包络检测曲线,第2特征值门限和干涉相位门
限.
图3噪声,杂波和动目标的第2特征
值一干涉相位分布图(杂噪比为12.1dB)
图4直方图等高线叠加在第2
特征值.干涉相位分布图上
第11期IT1斌等:利用样小协方差矩阵特征值分解实现双通道
SAR~J目标检测2639
涉十H化门—
:
.:.
第2特f门
营--I像采瑙
一
.
;一2-1(1l2:j
L十一涉柑1化【rj,cI)
图5包络检测门限,第2特征值门限,
_『涉相化门限及第2特征值一T涉相何分图
3.3参数求解及检测流程
3.3.1参数求解(1)样本协方差矩阵的求解:以被
检测像素为中心,分别截取前向通道图像和后向通
道图像的-d,块数据估计样本协方差矩阵,假设数
据块大小为M×N(M,N分别代表方位和距离的像
素点数,设M,?是奇数),样本协方差矩阵的估计
值可写为
R()__
?
??Z(x+,Y+j)z(x+,Y+)”
一——i一一—一
(13)
其中Z(x,)=[Z1(x,),(,!,)],z和Y分别表示中
心像素点的方位向位置和距离位置.
f2)杂波协方差矩阵的求解:如果将SAR图像
作为一个整体来处理时,可认为不包含有任何有价
值的动目标信息,所以杂波协方差矩阵的求解一般
是通过求均值来完成的.实际处理中,为了确保
杂波协方差矩阵估计的准确性,可预先设置第2特
征值门限去除杂波背景中少数的奇异点,由去除剩
余的所有像素点进行杂波协方差矩阵估计,其估计
值可写为
『兄]l(?Z1)E(Z1-lz-)l,冗1.
flE(.)E(.)f(14)
其中,分别表示前向通道,后向通道复图像.
对其进行特征值分解,得到
s=
I
.R++,/41~l+(一).I
——
:(15)1r——————————————’———————————
—————————一l,,
82=
IRl+.一441R1.I+(蜀一).l
f31计算多视数_1J.用?z表示SAR图像方位分
辨率,6表示方位像素分辨率,在滑窗长度已知
的情况下,多视数可表示为
n:+1(16)=——十lllOJ?,
(4)第2特征值,干涉相位预处理门限,的
求解:在得到每个像素点对应的第2特征值,干涉
相位值后,和可通过式(17)算得
1]亩}fl7)
=
,J一
其中()为每个像素点对应的第2特征值,?为像
素点的总个数,为所有像素点干涉相位的统计标
准差.岛,是两个可调常数,其经验取值分别为
1,2.5,1,1.5,‰过大会造成信杂比较小的慢动目
标的漏检,而过大的如则会造成最小可检测速度的
增大.
3.3.2检测流程图6给出了本文所提的动目标检
测算法的基本流程,其实现过程可概括为:
第1步以被检像素为中心,分别截取前向通
道图像和后向通道图像的一小块数据估计样本协方
差矩阵,然后利用式(4)和式(7)求得对应这一像素的
第2特征值和干涉相位.遍历整幅SAR图像,得到
每个像素对应的第2特征值和干涉相位;
第2步利用式(14),式(15)和式(16)分别求解
得到杂波协方差矩阵的特征值8,s,和多视数n,
然后把,s.和n代入式(9)中,得到第2特征值和
干涉相位的联合概率密度函数;
第3步根据给定的恒虚警概率,利用式(12)
确定一条联合分布的第2特征值一干涉相位等高线
作为门限检测曲线;
第4步在第1步的基础上,利用式f171分别
求解得到第2特征值和干涉相位预处理门限.然后
利用第2特征值门限去除由相位漂移和噪声影响产
生的杂波点,接着利用干涉相位门限去除由强点状
杂波产生的奇异点;
图6基于第2特征值和干涉相位联合的双通道SAR动目标检测算
法流程
2640电子与信息第32卷
第5步利用式(9)计算得到所有剩余像素点对
应的似然函数值,然后将其逐一与第3步求得的包
络门限进行比较,给出最终的检测结果.
4实测数据处理
为了验证算法的有效性,本文对某型机载双通
道沿航迹干涉SAR的试飞数据进行了处理.试验
中,雷达工作在x波段,飞机高度为5300m,飞行
速度为110m/s,天线相位中心到成像区中心的距
离为22464m,发射LMF信号带宽180MHz,脉
冲重复频率1250Hz,孔径之间距离0.7in.地面场
景中,5个地面配合目标行驶在一段车辆相对较少
且笔直的乡间小道上,其中有两辆车的方向与另外
3辆的方向相反,5辆车的车速控制在1,7m/s.图
7给出了经过通道误差校正,像素位置配准后的双
通道SAR图像,从图中可以看出,两个接收通道对
地面同一场景的SAR图像基本一致.
方位向似m
(n)fi~t;,J通道SARl纠像(h)通道SAR像
图7双通道SAR图像
有了上述配准后的两幅SAR图像,便可按照上
节所述流程进行CFAR检测.其中,虚警概率设为
10,,所选窗口的大小为7×7,预处理门限参数kl,
‰分别为1.5,1.5,动目标CFAR检测结果如图8(a)
所示.在这块数据中我们总共检测到9个目标点,
经过确认后,其中1,2,3,4,5为5个地面配合
车辆,6为试验时出现在场景内的其它过往车辆,
其它3个目标点为虚警点.图8(b)给出了预处理门
限参数岛,‰分别为1,1时的检测结果,对比图
8(a)和图8(b)可以发现:检测器性能受第2特征值,
干涉相位预处理门限参数变化的影响较小.与此同
时,我们还给出了未经过第2特征值,干涉相位门
限预处理的检测结果,如图8(c)所示,其检测结果
与图8fb1基本相同.
为了进行对比分析,本文同样采用了文献[6]提
出的几种基于样本协方差矩阵特征值分解的动目标
检测方法对数据进行了处理,设第2特征值,干涉
相位,归一化相位,双曲线检测(检验统计量表达式
方位向方位向方位向
(n)kI羊?分别(k1雨【分别为1,1时(c-)术经过预处理刚
为15,15州
图8采用本文方法的CFAR检测结果
中第2特征值的阶数p----11的虚警概率都为10,,检
测结果如图9(a),9(b),9(c),9(d)所示.从检测结
果中容易发现:(1)第2特征值检测虽然能把所有的
目标都能检测出来,但虚警点数过多,导致相应的
检测性能下降.(2)归一化相位是通过对干涉相位和
相似度进行函数变换得到的动目标检验统计量,由
于检验统计量中的相似度信息对动目标存在敏感度
不高,因而其检测结果和ATI干涉相位方法的检测
结果基本上相同.从图9(b)和图9(c)可看到,两种
方法都对动目标3产生漏检,同时还存在一定数量
虚警点.产生漏检的主要原因是目标运动速度较小.
f3)双曲线检测方法是基于第2特征值和归一化相位
的联合信息进行检测,从图9(d)检测结果来看,该
方法与本文方法的目标检测性能相当.由文献『61分
析可知,双曲线检验统计量中第2特征值阶数P的
取值与实际检测环境有关,如何对其进行取值有待
进一步研究,而Sikaneta在文献中仅对p=l的情况
进行了研究.实测数据实验结果表明:当P的取值
在0.7到1.3之间时,CFAR检测结果基本保持不变;
当P的取值小于0.7或大于1.3时,检测结果图上虚
警点的个数明显增加;当P的取值小于等于0.3时,
甚至出现了漏警现象.图9(e)和9(f)分别给出了
p=0.3,1.5时的双曲线方法的检测结果.我们将以
上几种方法的检测结果列于表1.从表1中可看出,
与第2特征值,干涉相位和归一化相位检测方法相
比,本文所提检测方法具有稳健性强,可检测速度
范围大和虚警率低等特点;与双曲线检测方法相比,
该检测方法不受第2特征值阶数的影响,具有较高
的实用性.
5结论
本文提出了一种基于第2特征值和干涉相位联
合的双通道SAR-GMTI方法.该方法将杂波第2
特征值和干涉相位联合统计特性的研究结果用于慢
动目标检测,即根据给定的恒虚警概率确定一条联
合分布的第2特征值一干涉相位等高线作为门限检测
第l1期田斌等:利用样本协方差矩阵特征值分解实现双通道SAR动
目标检测2641
星
谴
蕾
毫
谴
山化
『}l1筇2特值,J法
力他阳
fl】)十涉丰H位办
力化向
?I化_卡H位山法
n债
(d),1州的双
I}I=1线力
乃f
)p=0.{时
的双曲线法
图9SAR图像的动目标检测的结果
表1动目标CFAR检测结果
方位阳
(f)15时
的双曲线,J浊
曲线,同时结合第2特征值和干涉相位门限预处理,
实现慢动目标的精确检测.实测数据实验结果证明
了该方法的有效性和优越性.
参考文献
f1]GierullCH.StatisticsofSARinterferogramswith
applicationtomovingtargetdetection[RI.TechnicalReport
2
4
8
TR2001—045,DefenceResearchandDevelopment,Canada,
2001.
BudillonA,PascazioV,andSchirinziG.Movingtarget
detectioninalongtrackSARinterferometryfromin—phase
andquadraturecomponentsdata.GeoscienceandRemote
SensingSymposium,Boston,USA,2008:1178—1181.
ChapinEandChenCW.Airbornealong—track
interferometryforGMTIfJ1.IEEETransactionson
AerospaceandElectronicSystems,2009,24(5):13—18.
LightstoneL,FaubertD,andRempelG.Multiplephase
centerDPCAforairborneradar.Proceedingsofthe1991
IEEENationalRadarConference,LosAngeles,USA,1991:
36—40.
SikanetaIC,GierullCH,andHouinardJY.Metricsfor
SAR-GMTIbasedoneigen-decompositionofthesample
covariancematrix.IEEENationalRadarConference,
Adelaide,Australia,2003:442—477.
decompositionofthe SikanetaICandHouinardJY.Eigen—
channelcovariancematrixwithapplicationsto multi—
SAR-GMTI[J】.IETSignalProcessing,2004,84(9):
1501—1535.
袁吴,周荫清,李景文.基于幅度和相位联合的ATI动目标
检测新方法.北京航空航天大学,2007,33(2):169—175.
YuanHao,ZhouYin—qing,andLiJing-wen.Newmethodof
ATImovingtargetsindicationbasedonamplitudeandphase
thresholds[J].JournalBeijingUniversityAeronautics
andAstronautics,2007,33(2):169—175.
时公涛,匡纲要,桂琳.基于邻域平均和正交分解的双通道
SAR图像域慢动目标检测方法[J].电子与信息,2009,
31(2):353—357.
ShiGong-tao,KuangGang—yao,andGuiLin.Anovelground
movingtargetdetectorindual—channelSARimagesbasedon
adjacentaverageandorthogonalprojection[J].Journal
Electronics&InformationTechnology,2009,31(2):353—357.
田斌:男,1983年生,博士生,研究方向为地面慢动目标检测.
朱岱寅:男,1974年生,教授,研究方向为雷达成像与信号处理.
朱兆达:男,1939年生,教授,博士生导师,研究方向为雷达信
号检测与处理,
范文二:PCA(协方差矩阵和奇异值分解两种方法求特征值特征向量)
PCA(协方差矩阵和奇异值分解两种方法求特征值特征向量 ) 2015-12-30 10:43 1157人阅读 评论 (0) 收藏 举报
分类:
模式识别(1)
1. 问题描述
在许多领域的研究与应用中,往往需要对反映事物的 多个变量进行大量的观测,收集大量数据以便进行分 析寻找规律。多变量大样本无疑会为研究和应用提供 了丰富的信息,但也在一定程度上增加了数据采集的 工作量,更重要的是在大多数情况下,许多变量之间 可能存在相关性,从而增加了问题分析的复杂性,同 时对分析带来不便。如果分别对每个指标进行分析, 分析往往是孤立的,而不是综合的。盲目减少指标会 损失很多信息,容易产生错误的结论。
2. 过程
主成分分析法是一种数据转换的技术,当我们对一个 物体进行衡量时,我们将其特征用向量
(a1,a2,a3,...an )进行表示,每一维都有其对应的 variance (表示在其均值附近离散的程度);其所有 维的 variance 之和,我们叫做总的 variance ; 我们对
物体进行衡量时, 往往其特征值之间是 correlated 的, 比如我们测量飞行员时,有两个指标一个是飞行技术 (x1) , 另一个是对飞行的喜好程度(x2),这两者之 间是有关联的,即 correlated 的。我们进行 PCA (主 成分分析时),我们并没有改变维数,但是我们却做 了如下变换,设新的特征为(x1,x2,x3...,xn ) ;
其中
1)x1的 variance 占总的 variance 比重最大;
2) 除去 x1,x2的 variance 占剩下的 variance 比重最 大;
....
依次类推;
最后,我们转换之后得到的 (x1,x2,...xn)之间都是 incorrelated ,我们做 PCA 时,仅取(x1, x2,....xk ) , 来表示我们测量的物体, 其中, k 要小于 n 。 主成分的 贡献率就是某主成分的方差在全部方差中的比值。这 个值越大,表明该主成分综合 X1, X2, … , XP 信息 的能力越强。如果前 k 个主成分的贡献率达到 85%, 表明取前 k 个主成分基本包含了全部测量指标所具有
的信息,这样既减少了变量的个数又方便于对实际问 题的分析和研究。
注意,当(a1,a2,a3,...an )之间都是 incorrelated 时,我们就没有做 PCA 的必要了
数据点在上图所示的方向上进行投影后,数据仍然有着很大的 variance,
但在下图所示的方
向上,投影后的数据的 variance 就很小。
我们所需要做的就是找到这一系列的向量,使得数据在其上的投影有着较大的 variance 。
3. 数学描述
为了能够找到这一系列的向量,我们对数据进行预 处理
注意 svd 函数只适合行数大于列数的矩阵,如果行数小于列数,可对其转 置矩阵做 SVD 分解
A = U*S*V';
而 (A'*A)*V = (U*S*V')' * (U*S*V') * V
= V*S'*U' * (U*S*V')*V
= V*S'*(U'*U)*S* (V'*V)
= V*(S'*S)*E*E (E是单位矩阵 )
= (S 的平方) *V (S在对角线上才有值,其余全为 0)....(2)
对照 (1)(2)式我们可以看到,
A 的 SVD 分解出来的 V 就是 (A'*A)这个矩阵的特征向量!
所以 PCA 算法 中我们不需要计算扩散矩阵 (A'*A),对 A 进行 SVD 分解, 得到 V ,取 V 的前 k 个 columns 即可。
1) Alcohol
2) Malic acid
3) Ash
4) Alcalinity of ash
5) Magnesium
6) Total phenols
7) Flavanoids
8) Nonflavanoid phenols
9) Proanthocyanins
10)Color intensity
11)Hue
12)OD280/OD315 of diluted wines
13)Proline
样本数为 130, 在 matlab 下按照以上步骤, 进行 PCA , 得到的特征值如下:
选取前 k 个特征值使得前 k 个主成分的贡献率达到 85%,计算得到的结果为 k=1,其对应的特征向量为 u=
令 X=X*u即可得到新的 X ,其中 X 原来维数为 130×13,进行 PCA 后的维数为 130×1。
范文三:PCA(协方差矩阵和奇异值分解两种方法求特征值特征向量)
------------------------------------------------------------------------------------------------
PCA(协方差矩阵和奇异值分解两种方法求特征值特征向量)
分类:
模式识别(1)
1.问题描述
在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。
2.过程
主成分分析法是一种数据转换的技术,当我们对一个物体进行衡量时,我们将其特征用向量
(a1,a2,a3,...an)进行表示,每一维都有其对应的variance(表示在其均值附近离散的程度);其所有维的variance之和,我们叫做总的variance;我们对
物体进行衡量时,往往其特征值之间是correlated的,比如我们测量飞行员时,有两个指标一个是飞行技术(x1),另一个是对飞行的喜好程度(x2),这两者之间是有关联的,即correlated的。我们进行PCA(主成分分析时),我们并没有改变维数,但是我们却做了如——————————————————————————————————————
------------------------------------------------------------------------------------------------
下变换,设新的特征为(x1,x2,x3...,xn); 其中
1)x1的variance占总的variance比重最大;
2)除去x1,x2的variance占剩下的variance比重最大;
....
依次类推;
最后,我们转换之后得到的(x1,x2,...xn)之间都是incorrelated,我们做PCA时,仅取(x1,x2,....xk),来表示我们测量的物体,其中,k要小于n。主成分的贡献率就是某主成分的方差在全部方差中的比值。这个值越大,表明该主成分综合X1,X2,…,XP信息的能力越强。如果前k个主成分的贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有
的信息,这样既减少了变量的个数又方便于对实际问题的分析和研究。
注意,当(a1,a2,a3,...an)之间都是incorrelated时,我们就没有做PCA的必要了
数据点在上图所示的方向上进行投影后,数据仍然有着很大的variance,
但在下图所示的方向上,投影后的数据的
variance就很小。
我们所需要做的就是找到这一系列的向量,使得数据在其上的投影有着较大的variance。
3.数学描述
——————————————————————————————————————
------------------------------------------------------------------------------------------------
为了能够找到这一系列的向量,我们对数据进行预处理
注意svd函数只适合行数大于列数的矩阵,如果行数小于列数,
可对其转置矩阵做SVD分解
A = U*S*V';
而 (A'*A)*V = (U*S*V')' * (U*S*V') * V
= V*S'*U' * (U*S*V')*V
= V*S'*(U'*U)*S* (V'*V)
= V*(S'*S)*E*E (E是单位矩阵)
= (S的平方)*V (S在对角线上才有值,其余全为0)....(2) 对照(1)(2)式我们可以看到,
A的SVD分解出来的V就是(A'*A)这个矩阵的特征向量~
所以PCA算法中我们不需要计算扩散矩阵(A'*A),对A进行
SVD分解, 得到V,取V的前k个columns
即可。 1) Alcohol 2) Malic acid 3) Ash 4) Alcalinity of ash 5) Magnesium 6) Total phenols 7) Flavanoids 8) Nonflavanoid phenols 9) Proanthocyanins 10)Color intensity 11)Hue 12)OD280/OD315 of diluted wines
13)Proline
样本数为130,在matlab下按照以上步骤,进行PCA,得到的特
征值如下:
选取前k个特征值使得前k个主成分的贡献率达到85%,计算得
到的结果为k=1,其对应的特征向量为u=
——————————————————————————————————————
------------------------------------------------------------------------------------------------
令X=X*u即可得到新的X,其中X原来维数为130×13,进行PCA
后的维数为130×1。
——————————————————————————————————————
范文四:PCA(协方差矩阵和奇异值分解两种方法求特征值特征向量)
PCA(协方差矩阵和奇异值分解两种方法求特征值特征向量)
2015-12-30 10:43 1157人阅读 评论(0) 收藏 举报
分类:
模式识别(1)
1.问题描述
在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。
2.过程
主成分分析法是一种数据转换的技术,当我们对一个物体进行衡量时,我们将其特征用向量
(a1,a2,a3,...an)进行表示,每一维都有其对应的variance(表示在其均值附近离散的程度);其所有维的variance之和,我们叫做总的variance;我们对
物体进行衡量时,往往其特征值之间是correlated的,比如我们测量飞行员时,有两个指标一个是飞行技术(x1),另一个是对飞行的喜好程度(x2),这两者之间是有关联的,即correlated的。我们进行PCA(主成分分析时),我们并没有改变维数,但是我们却做了如下变换,设新的特征为(x1,x2,x3...,xn); 其中
1)x1的variance占总的variance比重最大; 2)除去x1,x2的variance占剩下的variance比重最大;
....
依次类推;
最后,我们转换之后得到的(x1,x2,...xn)之间都是incorrelated,我们做PCA时,仅取(x1,x2,....xk),来表示我们测量的物体,其中,k要小于n。主成分的贡献率就是某主成分的方差在全部方差中的比值。这个值越大,表明该主成分综合X1,X2,…,XP信息的能力越强。如果前k个主成分的贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有
的信息,这样既减少了变量的个数又方便于对实际问
题的分析和研究。
注意,当(a1,a2,a3,...an)之间都是incorrelated时,我们就没有做PCA的必要了
数据点在上图所示的方向上进行投影后,数据仍然有着很大的variance,但在下图所示的方向上,投影后的数据的variance就很小。
我们所需要做的就是找到这一系列的向量,使得数据在其上的投影有着较大的variance。
3.数学描述
为了能够找到这一系列的向量,我们对数据进行预处理
注意svd函数只适合行数大于列数的矩阵,如果行数小于列数,可对其转置矩阵做SVD分解
A = U*S*V';
而 (A'*A)*V = (U*S*V')' * (U*S*V') * V
= V*S'*U' * (U*S*V')*V
= V*S'*(U'*U)*S* (V'*V)
= V*(S'*S)*E*E (E是单位矩阵)
= (S的平方)*V (S在对角线上才有值,其余全为0)....(2)
对照(1)(2)式我们可以看到,
A的SVD分解出来的V就是(A'*A)这个矩阵的特征向量~
所以PCA算法中我们不需要计算扩散矩阵(A'*A),对A进行SVD分解,
得到V,取V的前k个columns即可。 1) Alcohol
2) Malic acid
3) Ash
4) Alcalinity of ash
5) Magnesium
6) Total phenols
7) Flavanoids
8) Nonflavanoid phenols 9) Proanthocyanins
10)Color intensity
11)Hue
12)OD280/OD315 of diluted wines 13)Proline
样本数为130,在matlab下按照以上步骤,进行PCA,
得到的特征值如下:
选取前k个特征值使得前k个主成分的贡献率达到85%,计算得到的结果为k=1,其对应的特征向量为u=
令X=X*u即可得到新的X,其中X原来维数为130×13,进行PCA后的维数为130×1。
范文五:均值,方差,协方差,协方差矩阵,特征值,特征向量
1. 均值:描述的是样本集合的中间点。公式如下
2.标准方差:描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。
3.协方差:
1)是一种用来度量两个随机变量关系的统计量。
2)只能处理二维问题。
3)计算协方差需要计算均值。
4. 方差与协方差的关系
方差是用来度量单个变量“自身变异”大小的总体参数,方差越大表明该变量的变异越大
协方差是用来度量两个变量之间“协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,则二个变量相互影响越大。
5.协方差矩阵
1)协方差矩阵能处理多维问题;
2)协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。
3)协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。
4)样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要按列计算均值。
如果数据是3维,那么协方差矩阵是:
协方差(i,j)=(第i列所有元素-第i列均值)*(第j列所有元素-第j列均值)/(样本数-1)
下面在给出一个4维3样本的实例:
我们还可以看出,协方差矩阵都是方阵,它的维度与样本维度有关(相等)
6.特征值与特征向量
转载请注明出处范文大全网 » [worddoc]利用样本协