范文一:后验概率与贝叶斯
后验概率
求助编辑百科名片
后验概率是信息理论的基本概念之一.在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率.
简介
'后验概率' 相关的学术图片
后验概率是指在得到"结果"的信息后重新修正的概率,如贝叶斯公式中的,是"执果寻因"问题中的"因".先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础.
解释
1、当根据经验及有关材料推测出主观概率后,对其是否准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,修正后的概率称为后验概率,利用后验概率再进行风险分析
2、信息技术革命加快了人类迈向信息社会实际情况的进程,世界信息服务业正在成为最强劲的实质上,它是以新的信息做为条件的条件概经济增长点
3、P{H0|x}是给定观测值x条件下H0出现的概率,统称为后验概率.根据贝叶斯公式,后验概率可表示为P{H0|x}=P(H0)P{x|H0}P(x),P{H1|x}=P(H1)P{x|H1}P(x)(2)式中,P(x)为x的概率密度
4、也就是获得条件概率P(ωωt-k),这个概率常常称为后验概率.利用后验概率进行系统的状态决策无疑是更加合理的方法,因为它充分利用了先验知识和观测到历史时间变量的信息
5、这个概率称为后验概率.根据贝叶斯规则计算如下:P*^ωΦ(t)+=maxωP*Φ(t)ω+P(ω)P*Φ(t)+(5)这里的条件概率P*Φ(t)ω+是比较故障模型和输入模式之间符合程度的结果
贝叶斯公式
贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。
贝叶斯学习理论:
1.贝叶斯法则机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
2.先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。
3.贝叶斯公式贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法p(h|D)=P(D|H)*P(H)/P(D)P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。
4.极大后验假设学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h属于集合H)最后一步,去掉了P(D),因为它是不依赖于h的常量。
5.极大似然假设在某些情况下,可假定H中每个假设有相同的先验概率,这样式子可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。h_ml = argmax p(D|h) h属于集合HP(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设。
6.举例一个医疗诊断问题有两个可选的假设:病人有癌症、病人无癌症可用数据来自化验结果:正+和负-有先验知识:在所有人口中,患病率是0.008对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%总结如下P(cancer)=0.008,
P(cancer)=0.992P(+|cancer)=0.98, P(-|cancer)=0.02P(+|cancer)=0.03, cancer|-)=0.79贝叶斯推
理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。,P(-|cancer)=0.97问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症,求后验概率P(cancer|+)和P(cancer|+)因此极大后验假设计算如下:P(+|cancer)P(cancer)=0.0078P(+|cancer)P(cancer)=0.0298hMAP=cancer确切的后验概率可将上面的结果归一化以使它们的和为
1P(canner|+)=0.0078/(0.0078+0.0298)=0.21P(cancer|-)=0.79贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。
范文二:先验概率后验概率及贝叶斯公式
先验概率、后验概率及全概率公式、贝叶斯公式
2011-11-15 16:04:24| 分类: 数理统计|举报|字号 订阅
先验概率与后验概率
事情还没有发生,要求这件事情发生的可能性的大小,是先验概率.
事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是
后验概率.
一、先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为
“由因求果”问题中的“因”出 现。后验概率是指在得到“结果”的信息后重
新修正的概率,如贝叶斯公式中的,是“执果寻因”问题中的“因”。先验概率
与后验概率有不可分割的联系,后验概 率的计算要以先验概率为基础。
二、A prior probability is a marginal probability, interpreted as a description of what is known about a variable in the absence of some evidence. The posterior probability is then the conditional probability of the variable taking the evidence into account. The posterior probability is computed from the prior and the likelihood function via Bayes' theorem.
三、先验概率与后验概率通俗释义
事情有N种发生的可能,我们不能控制结果的发生,或者影响结果的机理是我们
不知道或是太复杂超过我们的运算能力。新发一个物种,到底是猫,还是小老虎
呢(朱道元的经典例子),是由于我们的无知才不能确定判断。
先验概率 ( Prior probability)
先验概率是在缺乏某个事实的情况下描述一个变量;而后验概率是在考虑了一个
事实之后的条件概率。先验概率通常是经验丰富的专家的纯主观的估计。比如在
法国大选中女候选罗雅尔的支持率 p,在进行民意调查之前, 可以先验概率来表
达这个不确定性。
后验概率 ( posterior probability)
Probability of outcomes of an experiment after it has been performed and
a certain event has occured.
后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。 四、一道经典概率题的终极解法——后验事实与先验概率的关系 经典题目:
有三个门,里面有一个里有汽车,如果选对了就可以得到这辆车,当应试者选定一个门之后,主持人打开了另外一个门,空的。问应试者要不要换一个选择。假设主持人知道车所在的那个门。
经典解法:
第一次选择正确的概率是1/3,因此汽车在另外两个门里的概率是2/3。主持人指出一个门,如果你开始选错了(2/3概率),则剩下的那个门里100%有汽车;如果你第一次选对(1/3)了,剩下那个门里100%没汽车。
所以主持人提示之后,你不换的话正确概率是1/3*100%+2/3*0=1/3,你换的话正确概率是1/3*0+2/3*100%=2/3。
对于这个解法的诘问就在于,现在主持人已经打开一个空门了(而且主持人是有意打开这个门的),在这一“信 息” 出现后,还能说当初选错的概率是2/3吗,这一后验事实不会改变我们对于先验概率的看法吗,答案是会的。更具体地说,主持人打开一扇门后,对当初选择错误 的概率估计不一定等于2/3。 从头说起。假设我选了B门,假设主持人打开了C门,那么他在什么情况下会打开C门呢,
若A有车(先验概率P=1/3),那主持人100%打开C门(他显然不会打开B); 若B有车(先验概率P=1/3),那此时主持人有A和C两个选择,假设他以K的概率打开C(一般K=1/2,但我们暂把它设成变量);
若C有车(先验概率P=1/3),那主持人打开C的概率为0(只要他不傻。。。) 已知他打开了C,那根据贝叶斯公式——这里P(M|N)表示N事件发生时M事件发生的概率:
P(B有车|C打开)= P(C打开|B有车)* p(B有车)/ P(C打开)
P(C打开|B有车)* p(B有车)
= P(C打开|A有车)* p(A有车)+ P(C打开|B有车)* p(B有车) K * 1/3
= 1 * 1/3 + K * 1/3
K
= -------
K + 1
该值何时等于1/3 呢(也就是经典解法里的假设), 只有 K=1/2 时。也就是一般情况下。但如果主持人有偏好,比方说他就是喜欢打开右边的门(假设C在右边),设K=3/4, 那么B有车的概率就变成了 3/5,不再是1/3,后验事实改变了先验概率的估计~
但这并不改变正确的选择,我们仍然应该改选A门, 解释如下: P(A有车|C打开)= P(C打开|A有车)* p(A有车)/P(C打开) P(C打开|A有车)* p(A有车)
= ------------------------------------------------------------ P(C打开|A有车)* p(A有车)+ P(C打开|B有车)* p(B有车)
= 1 * 1/3/1 * 1/3 + K * 1/3
=1/k+1
而K < 1(假设主持人没有极端到非c不选的程度),所以永远有="">
打开) < p(="" a有车|c打开).a有车的概率永远比b大,我们还是应该改变选择。="">
阅读(2616)| 评论(0)
范文三:贝叶斯法则,先验概率,后验概率,最大后验概率
1.贝叶斯法则
机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。
最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
2.先验概率和后验概率
用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。
3.贝叶斯公式
贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)
的方法
p(h|D)=P(D|H)*P(H)/P(D)
P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。
4.极大后验假设
学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:
h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h属于集合H)
最后一步,去掉了P(D),因为它是不依赖于h的常量。
5.极大似然假设
在某些情况下,可假定H中每个假设有相同的先验概率,这样式子
可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。
h_ml = argmax p(D|h) h属于集合H
P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设。
6.举例
考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。
上面的数据可以用以下概率式子表示:
P(cancer)=0.008,P(无cancer)=0.992
P(阳性|cancer)=0.98,P(阴性|cancer)=0.02
P(阳性|无cancer)=0.03,P(阴性|无cancer)=0.97
假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?我们可以来计算极大后验假设:
P(阳性|cancer)p(cancer)=0.98*0.008 = 0.0078
P(阳性|无cancer)*p(无cancer)=0.03*0.992 = 0.0298
因此,应该判断为无癌症。
确切的后验概率可将上面的结果归一化以使它们的和为1: P(canner|+)=0.0078/(0.0078+0.0298)=0.21
P(cancer|-)=0.79
贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。
贝叶斯分类具有如下特点:
(1)贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;
(2)一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;
(3) 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。
贝叶斯定理给出了最小化误差的最优解决方法,可用于分类和预测。理论上,它看起来很完美,但在实际中,它并不能直接利用,它需要知道证据的确切分布概率,而实际上我们并不能确切的给出证据的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。
范文四:贝叶斯后验分布例子
为了更好的理解后验分布我们来看一个例子
例1:为提高某产品的质量,公司经理考虑增加投资来改进生产设备,预计需投资90万元,但从投资效果上看下属两个部门有两种意见: ,:改进生产设备后,高质量产品可占90% 1
,:改进生产设备后,高质量产品可占70% 2
经理当然希望发生,但根据两部门过去意见被采纳的情况,经理认,1
为40%第一个部门是可信度的,60%第二个部门是可信度,即随机变
,,,,,40%,,,,,60%,量投资结果过 的先验分布列为:; 12这是经理的主管意见,经理不想仅用过去的经验来决策此事,想慎重一些,通过小规模实验,观察其结果后再定。为此做了一项实验,实验结果(记为A)如下:
A:试制五个产品,全是高质量产品。
经理很高兴,希望通过这次结果来修正他原来对和的看法。下面,,12
我们分别来求一下和的后验概率。 ,,12
如今已有了和.还需要条件概率和,这可根据,,,,,,,,,,,,PA,PA,1212二项分布算的,
55; ,,,,PA,,0.9,0.590PA,,0.7,0.16812
由全概率公式可算的,,,,,,,,,,PA,PA,,,,PA,,,,0.337 1122
最后由后验分布公式可求得:
,,,,,,,,,,A,PA,,,/PA,0.236/0.337,0.7 111
,,,,,,,,,,A,PA,,,/PA,0.1.01/0.337,0.3 222
这表明,纪理根据实验A的信息调整了自己对投资结果的看法,把
1
对和的信任度由0.4,和0.6分别调整到了0.7和0.3。后者综合了,,12
经理的主观概率和实验结果而获得,要比主观概率更具有吸引力,更贴近当前实际。当然经过实验A后经理对投资改进质量的兴趣更大了,但如果为了进一步保险起见可以把这次得到的后验分布列再一次作为先验分布在做实验验证,结果将更贴近实际。
从上面这个例子中我们初步体验到了后验的求法,同时也能够看到贝叶斯统计的实用性。贝叶斯统计应用最做的是在决策方面,决策就是对一件事做出决定,它与统计推断的区别在于是否涉及到后果。统计推断依统计理论而进行,很少考虑到推断结果被使用时所带来的利润或造成的损失,这在决策中恰恰是不能忽略的。度量利损得失的尺度就是收益函数与损失函数,把收益函数和损失函数加入到贝叶斯推断就形成了贝叶斯决策论。
在这里首先明确几个概念
,状态集,其中表示自然界(或社会)可能出现的一种状,,,,,
态,所有可能的状态的集合组成状态集。
行动集,,,其中每一个元素表示人对自然界可能采取的一个,,a
行动。
损失函数 ,在一个决策问题中假设状态集为,,,,,,行动集为
,,,,,,,,,a,定义在上的二元函数L,,a称为损失函数,假如它能表
,a示在自然界(或社会)处于状态,而人们采取行动对人们引起的(经济的)损失。
决策函数:在给定的贝叶斯决策问题中,从样本空间
2
到行动集上的一个映射称为该决策问题的一个A,,,,,,x,x?x,,Tx1n
决策函数。
状态集,行动集,损失函数是构成一个决策问题必不可少的三个要素。
风险函数:评价T的优劣标准用平均损失,即 ,,R,,T
,,,,,,R,,T,EL,,T
,称为T在处的风险函数 ,,R,,T
后验风险:损失函数对后验分布的期望称为后验风险 ,,L,,a
决策空间:设随机变量X的概率函数或概率密度函数为,,,fx,,
,,,,其中未知。对参数采取的所有“行动”(估计)组成的集合称为决策空间,记为A,在一般问题中,A是实数集且可测。
有了上面的基础,我们就可以讨论贝叶斯估计量了,为了简便起
,见,在这里假设X的分布和的分布均为连续型。贝叶斯估计的基本思想就是选择一个估计值,使得平均损失最小,即使 a
,,,,,,,,E,,L,,a,,L,,a,,d, ,,
最小。
我们知道,后验分布是对先验分布的调整,在获得了一组样本的观测
,,,,,值之后,我们用的后验概率密度函数,,x代替,,,则上式写为:
,,,,,,,,E,,L,,a,,L,,a,,xd, ,,
,,Tx如果对样本的任何一组观测值,令表示使上式最小的估计值,即
,,,,,,,a,TxTxTx,则称为的贝叶斯估计量。满足下式
3
,,,,E,,L,,a,minE,,L,,a/x ,,,
2如果损失函数是平方形式,即,则其贝叶斯估计量为,,,,L,,T,,,T
,,,,,,,,TX,E,X,,,,,Xd, ,,
2证明:在平方损失函数下,任何一个决策函数的后验风,,,,L,,T,,,T
222险为 ,,,,,,E,,t/t,T,2TE,T,E,,,T此后验分先的最小值仅在达到。 ,,,,TX,E,x
下面看看课本上的例题。
3.5节点估计的优良性
4
范文五:贝叶斯最大后验概率准则对iris数据的分类剖析
1、实验目的
1. 了解多元正态分布
2. 对多元正态分布利用矩估计法进行参数估计,了解参数估计的过程
3. 掌握利用贝叶斯最大后验概率准则对三类数据进行两两分类的方法 2、实验原理
Iris数据集共有三组,分别为setosa,versicolou和virginica,每一组都是一个单独的类别,此实验中,默认setosa为第一类,versicolou为第二类,virginica为第三类,每组50个数据,每个数据都是一个四维向量,且服从四维正态分布。
,,即类别空间为:Ω=ω,ω,ω 123,数据向量为:x=(,,,,,,,) 1234
2.1 多元正态分布
随机向量X=(,,…,,)′的分布密度函数有如下形式: 1,
11,?1,,,,,,p,,,,,…,,,=p,,=exp,?,,?,,???,,?,,, (1) 12,41222,,,,2,?
,,其中x=(,,,,…,,)为常量,μ=(,,,,…,,)为随机向量的均值向量,B12,12,
为p*p的协方差矩阵,则称X服从p元正态分布,记X~N(μ,B)为。因此,对于,
多元正态分布而言,只需要确定均值向量和协方差矩阵即可确定概率密度函数。 2.2 参数估计
由于三组数据均服从四维正态分布,首先要确定数据的具体分布,因此在分类之前,利用一部分实验数据进行训练,分别得到三组数据的四维正态分布参数。,,即,,,?,(,,,?),(,,,?),分别为setosa,versicolou和virginica三组数据的参112233
数。
实验中,参数估计采用矩估计法,即利用样本(训练数据)的均值向量和协方差矩阵作为总体的均值向量和协方差矩阵的估计值,进而得到每组数据的分布密度函数。
,第一组数据为例:setosa中的数据x=(,以,,,,,,)服从均值为四维列向1234,量,,=(,,,,,,,),4*4维协方差矩阵B的四元正态分布。均值向量和协方11234
差矩阵的估计式为:
,1,,,,,,,=,,,,,,, (2) 1,,,=1
,,1,,,,,,,,,,,,,,,,,,?=,,,?,,?,,?,,=,,,,,,,,?,,,,,,,,,,?,,, (3) 1,1,1,,=1
从第一类数据中选取部分数据按照上式进行训练,得到第一类数据的正态分布参
数,因而可求得其密度函数。
三类数据都按照上公式,选取部分实验数据得出正态分布的均值向量和协方差矩阵。进而得到自己的概率密度公式
11,?1,,,,,,p,,=exp,?,,?,,???,,?,,, (4) 41222,,,,2,?
2.3 贝叶斯最大后验概率准则
利用贝叶斯准则对数据进行两两分类时,以贝叶斯公式为基础,利用测量到的对象特征配合必要的先验信息,求出两种可能分类情况的后验概率,选取后验概率大的,作为分类的结果。即最大后验概率准则,也称最小错误概率准则。
以第一类和第二类为例,对这两组数据进行分类。两组数据经过参数估计之后,分别得到条件概率密度p(x|,),p(x|,)。根据贝叶斯准则: 12,,,,,px,p,11,,,p,x= (5) 1,,,,
,,,,,p,px,22,,,p,x= (6) 2,,,,
,贝叶斯最大后验概率准则进行分类时,根据输入的列向量x=(,,,,,,,),分1234别计算两类的后验概率,判x为后验概率的大类别,即:
,,,,,,如果 p,x> p,x 则判别x为,类(第一类)即: 121
p(x|,)p(,)p(x|,)p(,)1122,,,,,,p,x=>=p,x (7) 12,(,),(,)
即:
p(x|,)p(,)12;=>=, (9) 1221p(x|,)p(,)21
因此根据最大后验概率准则判断x所属的类别,转变为比较似然比;和阈值,1221的大小。
实验中首先求得两类数据的条件概率密度p(x|,)和p(x|,),关于先验概率12
,,p,和p(,),实验进行时,将待分类的两组数据合并放入一个100*4的矩阵12
中,每次随机选取待分类数据x,因此先验概率
,,,,p,=p, (9) 12
故而,判别式(8)简化为:
,,,,,,px,>px, (10) 12
根据上式即可对输入向量x进行分类。 因此,
如果 p(x|,)>p(x|,) 则判别x为,类(第一类)同理 121
如果 p(x|,)>p(x|,) 则判别x为,类(第二类) 212
3、实验过程
实验中,根据实验原理,首先对两组数据分别进行训练,得到其四维正态分布的密度函数,再根据最大后验概率准则进行分类。
3.1 参数估计
已知三组数据均为X~N(μ,B)的四元正态分布,即 4
11,?1,,,,,,,,p,,,,,,,=p,,=exp,?,,?,,???,,?,,, 123441222,,(2,)?
其中,,,为均值向量,B为协方差矩阵,,,和,,均为四维列向量。根据式(2)和(3)对每组数据的均值向量和协方差矩阵进行估计。
参数估计即选取部分数据进行训练,数据可以采用随机选取的方式,也可以从开始固定的选取若干数据进行训练。同时,参与训练的数据多少也会影响最后的分类结果。实验中尝试了不同的选取方法,结果如下:
(1)从前向后依次选取10个数据进行训练:
(2)从前向后依次选取15个数据进行训练:
(3)从前向后依次选取20个数据进行训练:
(4)从前向后依次选取25个数据进行训练:
(5)随机选取15个数据进行训练:
(6)随机选取20个数据进行训练:
3.2 贝叶斯分类
学习分类时,本实验中,将待分类的两类数据合并为一个矩阵test,然后每次随机的从test矩阵中抽取一维向量进行分类判别。因此先验概率满足
1,,,,p,=p,= 122
所以,实验中只需要根据估计的参数得出两类的概率密度函数
11,?1,,,,,,,px,=exp,?,,?,,???,,?,,, 141111222,,(2,)?1
11,?1,,,,,,,px,=exp,?,,?,,???,,?,,, 241222222,,(2,)?2
对于输入的列向量x带入上面两个公式中进行计算,则x归入概率大的一类。 下面以第一类和第二类分类为例进行说明:
实验中,
m:表示参与训练的数据个数,进行分类学习时
t:表示每次学习的次数,实验置为10000,即每次随机选取10000次x进行分类 test矩阵:将待分类的两组数据合并为一个矩阵test,之后随机的从test矩阵中选择输入向量,保证先验概率相等
W向量:表示随机选择的输入向量的位置,若W(i)<51则说明此时的输入向量来自第一类,w(i)>50则说明此时的输入向量来自第二类
set向量:输入的x判别属于第一类,则将set的相应位置1,否则置0 ver向量:输入的x判别属于第二类,则将ver的相应位置1,否则置0 最后比较W向量和set向量、ver向量,若选择于第一类(W(i)<51)也判别为第一类(set(i)=1),则说明判别正确。第二类同理。>51)也判别为第一类(set(i)=1),则说明判别正确。第二类同理。>
部分框图如下所示:
相应部分代码如下:
最后,统计set向量和ver向量中不为0的元素个数即在10000次学习分类时错误的次数。
进行分类实验时,考虑到两方面的影响:
(1)参数估计时训练样本的选取方式不同,分为固定选取样本和随机选取样本(2)参数估计时选取的样本数目
同时,实验中,每次分类相当于进行10000次判别,由于选择输入矢量时具有随机性,因此针对同一m(m表示参与训练的样本数目),各进行10次实验进行比较。
3.2.1 第一类与第二类(即setosa和versicolou)
(1)当训练样本从前向后固定选取时:
次数 1 2 3 4 5 6 7 8 9 10 m=6 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
m=10 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
m=15 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
当训练样本固定选取时,当参与训练的样本个数分别为为6,10,15,均不会产生错误。
(2)当训练样本随机选取时
次数 1 2 3 4 5 6 7 8 9 10 m=6 错误1824 702 0 213 0 109 2027 495 1904 0
个数
错误18.24% 7.02% 0 2.13% 0 1.09% 20.27% 4.95% 19.04% 0
率
m=10 错误0 0 0 0 0 0 109 0 0 0
个数
错误0 0 0 0 0 0 1.09% 0 0 0
率
m=15 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
当训练样本随机选取时:
m=6 时平均错误率为:7.274%
m=10 时平均错误率为:0.109%
m=15 时平均错误率为:0
3.2.2 第一类与第三类(即setosa和virginica)
(1)当训练样本从前向后固定选取时:
次数 1 2 3 4 5 6 7 8 9 10 m=6 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
m=10 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
m=15 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
当训练样本固定选取时,当参与训练的样本个数分别为为6,10,15,均不会产生错误。
(2)当训练样本随机选取时
次数 1 2 3 4 5 6 7 8 9 10 m=6 错误0 3997 0 1025 0 0 720 950 0 0
个数
错误0 39.97% 0 10.25% 0 0 7.2% 9.5% 0 0
率
m=10 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
m=15 错误0 0 0 0 0 0 0 0 0 0
个数
错误0 0 0 0 0 0 0 0 0 0
率
当训练样本随机选取时:
m=6 时平均错误率为:6.634%
m=10 时平均错误率为:0
m=15 时平均错误率为:0
3.2.3 第二类与第三类(即versicolou和virginica)
(1)当训练样本从前向后固定选取时:
次数 1 2 3 4 5 6 7 8 9 10 m=6 错410 397 413 369 389 409 430 416 387 363
误
个
数
错4.1% 3.97% 4.13% 3.69% 3.89% 4.09% 4.3% 4.16% 3.87% 3.63%
误
率
m=10 错626 622 561 613 677 610 605 614 613 555
误
个
数
错6.26% 6.22% 5.61% 6.13% 6.77% 6.1% 6.05% 6.14% 6.13% 5.55%
误
率
m=15 错399 396 409 399 355 434 431 393 406 416
误
个
数
错3.99% 3.96% 4.09% 3.99% 3.55% 4.34% 4.31% 3.93% 4.06% 4.16%
误
率
m=50 错325 285 323 298 299 302 306 315 288 308
误
个
数
错3.25% 2.85% 3.23% 2.98% 2.99% 3.02% 3.06% 3.15% 2.88% 3.08%
误
率
当训练样本固定选取时:
m=6 时平均错误率为:3.983%
m=10 时平均错误率为:6.096%
m=15 时平均错误率为:4.038%
m=50 时平均错误率为:3.049%
(2)当训练样本随机选取时
次数 1 2 3 4 5 6 7 8 9 10 m=6 错637 3478 2000 504 1510 891 4250 2046 1000 1185
误
个
数
错6.37% 34.78% 20% 5.04% 15.1% 8.91% 42.5% 20.46% 10% 11.85%
误
率
m=10 错901 984 889 1260 382 1136 1130 959 780 920
误
个
数
错9.01% 9.84% 8.89% 12.6% 3.82% 11.36% 11.3% 9.59% 7.8% 9.2%
误
率
m=15 错478 328 726 531 100 657 395 286 740 692
误
个
数
错4.78% 3.28% 7.26% 5.31% 1% 6.57% 3.95% 2.86% 7.4% 6.92%
误
率
m=50 错408 221 319 374 88 403 444 310 213 202
误
个
数
错4.08% 2.21% 3.19% 3.74% 0.88% 4.03% 4.44% 3.1% 2.13% 2.02%
误
率
当训练样本随机选取时:
m=6 时平均错误率为: 17.471%
m=10 时平均错误率为: 9.341%
m=15 时平均错误率为: 4.933%
m=50 时平均错误率为: 2.982%
4、实验分析
实验中,第一部分为参数估计,从实验中可得,以训练样本固定选取,样本个数m=20为例:
从中可以看出,第一类和第二类,第一类和第三类相比较而言,均值向量和协方差矩阵均相差较大,即正态分布的形式差距较大,因此第一类较容易和其余两类分类。相比较而言,第二类和第三类的均值向量和协方差矩阵相近,因此其对应的正态分布相似,所以第二组数据和第三组会比较难区分,这一点在后面的实验中也有反映。
实验第二部分,在进行分类学习时,得到在样本选取方式不同和样本数目不同的情况下的分类错误率,汇总如下:
(1)
表一 第一类与第二类分类结果
第一类与第二类 m=6 m=10 m=15 固定样本参数估计 0 0 0 随机样本参数估计 7.274% 0.109% 0
从中可以看出,当参数估计的样本按照顺序固定选取时,在很小的样本数目下即可得到很好的分类结果。当样本随机选取时,在样本数目较少时会有一定的错误率,但是随着样本数目的增加,错误率降低。
(2)
表二 第一类与第三类分类结果
第一类与第三类 m=6 m=10 m=15 固定样本参数估计 0 0 0 随机样本参数估计 6.634% 0 0
从中可以得到与上面相似的结论,同时,比较表一和表二可以发现,在随机样本参数估计的情况下,表二所展示的错误率更低,说明相较第二类数据而言,第一类与第三类数据的差别更大,更易分类。
3) (
表三 第二类与第三类分类结果
第二类与第三类 m=6 m=10 m=15 m=50 固定样本参数估计 3.983% 6.096% 4.038% 3.049% 随机样本参数估计 17.471% 9.341% 4.933% 2.982%
从中可以看出,第二类数据与第三类数据不论在什么情况下,分类错误率都较大。甚至当用所有的数据进行参数估计时(m=50),分类结果仍然会有错误。由此可见,这两组数据较为相似,难以分类。这一点也从上面计算其正态分布的的参数可以想见。
5、实验结果
实验得出,第一组数据与第二组数据较易分类,当训练样本数目在10左右时就能得到较高的正确率,进而当训练样本数目为15时几乎不出错。第一组数据与第二组数据更容易分类,当训练样本数目为10时几乎就不出错。但同时,第二组数据由于与第三组数据过于相似,所以很难分类。
古今名言
敏而好学,不耻下问——孔子
业精于勤,荒于嬉;行成于思,毁于随——韩愈 兴于《诗》,立于礼,成于乐——孔子 己所不欲,勿施于人——孔子
读书破万卷,下笔如有神——杜甫
读书有三到,谓心到,眼到,口到——朱熹 立身以立学为先,立学以读书为本——欧阳修 读万卷书,行万里路——刘彝
黑发不知勤学早,白首方悔读书迟——颜真卿 书卷多情似故人,晨昏忧乐每相亲——于谦 书犹药也,善读之可以医愚——刘向 莫等闲,白了少年头,空悲切——岳飞 发奋识遍天下字,立志读尽人间书——苏轼 鸟欲高飞先振翅,人求上进先读书——李苦禅 立志宜思真品格,读书须尽苦功夫——阮元 非淡泊无以明志,非宁静无以致远——诸葛亮 熟读唐诗三百首,不会作诗也会吟——孙洙《唐诗三百首序》
书到用时方恨少,事非经过不知难——陆游 问渠那得清如许,为有源头活水来——朱熹 旧书不厌百回读,熟读精思子自知——苏轼 书痴者文必工,艺痴者技必良——蒲松龄
声明
访问者可将本资料提供的内容用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本文档及相关权利人的合法权利。谢谢合作~
51则说明此时的输入向量来自第一类,w(i)>