济宁一中 贾广素(邮编:272000)
电话:13053744397
几何概型是高中阶段一个重要的概率模型,其求解方法是多种多样的.但我们只要掌握了几种常见的几何概型,就可以做到“举一反三”,做到真正的了解和掌握这一类题目的求法.下面我们就介绍几种常见的几何概型.
一、长度型的几何概率模型
例1、 如图1所示,平面上画了一些彼此相距的平行线,把一枚半径的硬币任2ar,a意掷在这个平面上,求硬币不与任一条平行相碰的概率。
M 分析:硬币不与直线相碰,可以看作硬币的中心 O
到直线的距离|OM|,r,这样就可以把问题转化为
|OM|中心到较近的一条直线的距离满足 Oa 2r O r,|OM|,a的概率问题。因为硬币是任意掷在平面
|OM|上的,所以硬币中心到较近一条直线的距离在 O
(图1)
a到之间是等可能的任意一个值,所以这符合几何概型的条件。 0
解:设事件A={硬币不与任一条平行相碰},为了确定硬币的位置,由硬币的中心向O
,,0,a靠得最近的平行线引垂线,垂足为M,如图1所示,这样线段OM的长度的取值范围是,
a,rP(A),r,|OM|,a只有当时硬币不与平行线相碰。由几何概率公式求得:。即a
a,r硬币不与任一条平行相碰的概率为。 a
注:解决本题的关键是把硬币与直线的关系转化为中心到直线的距离,从而转化为长度型的几何概率问题。
二、角度型的几何概率模型
0,A,30例2、如图2所示,在直角三角形ABC中,,过直角顶点C作射线CM交线段AB于点M,求使|AM|>|AC|的概率。
C 分析:因为过一点作射线是均匀的,因而应把在 ,ACB
内任射线CM看作是等可能的。基本事件为射线CM落在 ,ACB
,ACC内任一处。使|AM|>|AC|的概率只与的大小有关系,所 1
以这是符合几何概型的。 A B C1 解:记事件A={作射线CM,使|AM|>|AC|},在AB上
C|AC|,|AC|,ACC任取一点使得,所以是等腰三角形,所以111
00151180,300P(A),,,由几何概率公式求得:。即使|AM|>|AC|,ACC,,7519062
1的概率为。 6
AC注:此类题目容易与长度型的几何概率问题混淆,如果把问题看成在上取点M使1
AC|AM|<>
等可能的,解决本题的关键是找准基本事件抢救无效可能的看待问题的角度 。
三、面积型的几何概率模型
例3、甲、乙两人约定在6时到7时之间在某处会面,并约定先到者应等候另一个人15分钟,过时即可离去。求两人能会面的概率。
分析:这是历史上有名的会面问题。由甲乙两人中每人到达会面地点的时刻都6到7
x时之间的任一时刻,如果在平面直角坐标系内用轴表示甲到达约会地点的时间,轴表示y乙到达约会地点的时间,用0分到60分表示6时到7时的时间段,则横轴0到60与纵轴0
,,x,y到60的正方形中任一点的坐标就表示甲、乙两人分别在6时到7时时间段内到达的时间。而会面的时间由所对应的图中阴影部分表示。由于每人到达会面地点的x,y,15
时刻都是随机的,所正方形内每个点都是等可能被取到的(即基本事件等可能发生)。所在两人能会面只与阴影部分的面积有关,这就转化为面积型的几何概率问题。
x解:以和轴分别表示甲、乙两人到约会地点的时间,则两人能够会面的条件是y
y 。在平面上建立直角坐标系如图所示: x,y,1560
,,x,y由的所有可能结果是边长为60的正方形,
而可能会面的时间由图中阴影部分所表示。这是
15 一个几何概型的问题。由等可能性知所求概率为:
22O S60-457阴影,,,。 P2S166015 60 x 正方形
,,x,y注:本题的难点是把两个时间分别用两坐标轴表示,构成平面的点,从而把x,y
时间这个一维长度问题转化为平面图形的二维面积问题,这样就把会面问题转化为成面积型的几何概率问题。
四、体积型的几何概率模型
例4、在1L高产小麦种子中混入了一粒带麦绣病的种子,现从中随机抽出10mL,含带麦绣病的种子的概率有多大,
分析:由于带麦绣病的种子在什么位置是随机的,而取麦样也具有随机性,所取哪一部分麦样的可能性相等,所以取到带麦绣病种子的概率只与所取麦样的体积有关。这符合几何概型的条件。
解:设事件A={取10mL麦种含带麦绣病的种子},
10P(A),,0.01。 由几何概率公式求得:1000
从而,含带麦绣病的种子的概率为0.01。
参考足彩投资的概率模型
第 22卷 增刊 中南民族大学学报 (自然科学版 ) V o l . 22Sup.
参考足彩投资的概率模型
汪 兵 易 雯
(华中师范大学数学与统计学学院 )
摘 要 取两个本轮足彩对象 , 利用他们以前若干场比赛的结果 , 根据极大似然估计思想 , 求得两队客观存在的胜 负概率 , 记其胜负概率比为水平比 , 以水平比为参数参考投资 .
关键词 极大似然估计 ; 概率 ; 水平比
中图分类号 O 211. 9 文献标识码 A 文章编号 167224321(2003) S 120041202
足彩已走进人们的生活 , 很多报纸纷纷刊登本 轮竞猜球队在近两赛季对除情况 , 如何定量地分析 这些结果来给投资者最大的参考呢 ? 本文就是用概 率的方法确定两队水平比赛参考投资的 .
1 模型假设及变量说明
(1) 2, 平 计 1分 , , , 没有平局 (这仅仅是分析问题时 的处理方式 , 并不是实际比赛的上下半场 ) . 规定在 半场中胜记 1分 , 负记 0分 , 两个半场胜即为全场 胜 , 一胜一负为平 , 两负为负 , 这样全场的胜 、 平 、 负 的得分即为 2分 、 1分 、 0分与 2分制积分相同 .
(2) 记所选研究对象为 T 1、 T 2, 客观存在着的 T 1胜 T 2的概率为 p 12(p 21具有类似含义 ) . 记 T 1在半场 中战胜 T 2的实际概率为 q , 那么 T 2在半场中胜 T 1的 实际概率为 1-q . 显然有 :p 12=q 2, p 21=(1-q ) 2. (3) 以 b 12表示 T 1与 T 2的水平比 , 我们以 p 12 p 21=b 12来作为水平比 (合理性显然 ) .
(4) 假设我们已知结果为 :T 1, T 2之间已经赛 了 n 场 , 积了 m 分 (以 2分制计算 ) .
进球总数分别为 c 1, c 2(不妨设 c 1>c 2) , 净胜球 数为 Ξ=c 1-c 2.
2 一般模型
2. 1 p 12及 p 21的确定
p ij (i , j =1, 2) 表示 T i 胜 T j 的客观存在的概 率 , . , 只能 T i 与 T j . 这是合理的 , 从 ,
p j i ,
根据假设 , 我们又知道 p 12=q 2, p 21=(1-q ) 2均 为 q 的函数 . 另一方面 q 为半场比赛中的一个独立参 数 , 与 “进行 n 场得 m 分” 这一事件有密切关系 , 即我 们可以建立两者的函数关系 , 确定 q 从而确定 p ij . 2. 2 q 的计算
“进行 n 场比赛得 k 分” 这一事件发生的概率记 为 P k n , 根据假设知 , 要这一事件发生 , 仅需满足在 2n 个半场比赛中赢得 k 个半场 , 而且每个半场胜的概 率为 q , 显然有 p k n =c k 2n q k (1-q ) 2n -k . 因此 , p k 仅 与 k 与 q 有关 , 对于不同的 k , p k n 就仅与 q 有关 .
根据假设 , 我们已知两队进行了 n 场比赛积得
m 分 , 其概率为 p m n =c m 2n q m (1-q ) 2n -m . 根据极大似然 估计的思想 (即发生事件的概率总比未发生的事件 概率大 ) , 有 “进行 n 场比赛积 m 分” 的概率比 “进行 n 场比赛得 k 分 (k ≠ m ) ” 的概率大的结论 , 即 : c m 2n q m (1-q ) 2n -m >c k 2n q k (1-q ) 2n -k ,
对所有的 0≤ k ≤ 2n , k ≠ m 成立 .
给定 m 值 , 取遍 k , 即可得到 2n -1个不等式组 成的不等式组 , 这些不等式中 , 仅只有一个参数 q , 解之可得 q 的范围 . 表 1给出 3场以内比赛对应的 m 、 q 值 .
收稿日期 2003206220
作者简介 汪 兵 (19812) , 男 , 本科生 , 华中师范大学数学与统计学学院 , 研究方向 :数学模型 , 概率论 , 武汉 430079
表 1 比赛积分与概率
一场比赛 二场比赛 三场比赛 积分 q 积分 q 积分 q
2 1 0
0. 67~1
0. 33~0. 67
0~0. 33
4
3
2
1
0. 8~1
0. 6~0. 8
0. 4~0. 6
0. 2~0. 4
0~0. 2
6
5
4
3
2
1
0. 86~1 0. 71~0. 86 0. 57~0. 71 0. 43~0. 57 0. 29~0. 43 0. 14~0. 29 0~0. 14
2. 3 q 的界定
上面仅仅给出了 q 的变化范围 , 如何给定一个 具体位置 , 以得到较为准确水平比 ? 这应该留给足彩 投资者来确定 . 足彩投资者可根据这两友球队近况 与赛过比赛时的状况相对比 (如比较伤病对主力队 员的影响 , 红黄牌对阵容的影响等 ) , 来确定 q 的位 置 . 下面给出一种界定方法 , 以净胜球数来做为界定 参数 , 将 q 设计成 Ξ的增函数 , 随着 Ξ的增大 , 而趋 近 q 的上界 .
令 q =q m in +
c 1+c 2
(q m ax -q m in ) , m ax , 均 表示 q .
q 锁定 , q 进行微调 , .
2. 4
根据分析 , 易知 , b 12=p 12 p 21=q 2 (1-q ) 2, 代 入 q 值立得 b 12. 如何运用水平比来参考投资呢 ? 水 平比是由两队胜负概率之比 , 因此 , 它直接反映了下 场比赛 , 谁胜出的可能性的大小 , 故可以直接依此进 行投资 ; 另一方面 , 可以将其做为相的参数代入到相 关投资模型中去解 , 还可以根据投资者需要进行有 比例投资的比例 [1].
3 模型的分析及推广
(1) 两支球队的水平比是通过极大似然估计思 想确定出来的 , 统计的场次越多 , q 值越精确 , 但场 次越多 , 各队实力受人为影响较大 , 故最好取两队状 况比较稳定时的比赛结果 .
(2) 水平比仅是两支球队的实力比较 , 并不能 对结果有比较准确的预测 ,
考 .
(3) q q 值的确定才充 .
.
4) 可用类似方法通过确定水平比 , 来对若干 球队进行排名 , 这种排名法更能贴近实际 .
参 考 文 献
[1] 徐利治 . 大学数学解题法诠释 [M ]. 合肥 :安徽教育出 版社 , 1999
Reference to the Probab il ity M odel about the I nvest m en t of Footba ll L ottery W ang B ing Y i W en
Abstract T ake the tw o sides in the cu rren t foo tball lo ttery fo r exam p le . A cco rding to the though t of m ax i 2 m um p robab le esti m ati on , w e get the w in 2lo se p robab ility the ob jectively ex ists betw een them , by the ou t 2 com e of the m atches befo re betw een them . W e u se the level com p arison defined by the w in 2lo se p robab ility com p arison as a reference to invest .
Keywords m ax i m um p robab le esti m ati on ; p robab ility ; level com parison
W ang B i ng U ndergraduate , Schoo l of M athem atics and Statistics , Central Ch ina N o r m al U niversity , W uhan 430079, Ch ina 24 中南民族大学学报 (自然科学版 ) 第 22卷
极值风速的最优概率模型
第35卷第5期 2002年10月
土 木 工 程 学 报C HINA CIVIL ENGINEERING JOURNAL
Vol 135 No 15Oct 1 2002
极值风速的最优概率模型
段忠东 欧进萍 周道成
(哈尔滨工业大学)
摘 要 风速过程作为平稳高斯随机过程, 风速母体服从指数型分布。基于时段最大取样和跨阈取样法, 研究了极值风速理论分布的特征; 研究了威布尔分布、极值?型分布和广义Pareto 分布(GPD) 等概型的尾部特性及对极值风速的估计精度, 得出威布尔分布为年最大风速普遍最优概率模型, 极值?型分布次之, GPD 估计的结果偏差最大且极值风速估计的变异性最大。采用Monte Carlo 抽样试验和小长山站实测风资料统计分析验证了这一结论。关键词 极值理论 极值风速 概率分布中图分类号:TU 31113 文献标识码:A 文章编号:1000O 131X (2002) 05O 0011O 06
n y ]时, F (x ) 趋于某渐近分布F M (x ) 。
n
1 引 言
极值风速推算的误差主要来自三个方面, 即:样本选取、模型选取和参数估计。年最大风速最初被认
[2]
为服从极值ò型, 后来更多的研究表明极值风速取极值?型更合适
[3、4]
根据经典极值理论, F M (x ) 的一般形式为F M (x ) =-[1+B (x -C ) P G ]G >0, 1+B (x -C ) P G >0
式中C 、G 和B 分别为位置参数、尺度参数和形状参
数。B >0、B =0(极限意义上) 和B <0分别对应于极值ò型(frechet) 、极值?型(gumbel)="" 和极值ó型(reverse="" weibull)="" 分布。这三类分布分别对应于母体分布为指数型(exponent)="" 、柯西型(cauchy)="" 和有界型的极值分布。三类渐近极值分布的右尾部长度(uppertail="" length)="" 依极值ò型、极值?型和极值ó型次序递减,="" 其中前二者具有无限尾部长度,="">0分别对应于极值ò型(frechet)>
经典极值理论建立在时段最大值的取样方法之上, 极值理论的发展已使我们可以处理超越某一阈值的极值概率分布问题, 这就是基于跨阈法(POT) 取样的广义Pareto 模型(GPD)
[8, 9]
-1(1)
, 近几年的研究则发现, 采用跨
阈法(Peak Over Threshold, POT) 选取样本的广义跨阈分布GPD (Generalized Pareto Distribution) 模型能给
[5]
出满意的风速估计。
风速随机过程作为平稳过程, 年极值风速存在理论上的精确分布。实际的风速时程不是严格平稳的, 极值风速分析也存在抽样误差。某地点若干年风速记录就是对该地点风速母体的一次抽样, 怎样选取极值子样, 怎样选择相应的正确或最优的概率模型是得到反映风速母体极值特性的关键问题。本文将风速过程作为平稳高斯过程导出风速母体服从指数型分布, 并详细分析基于不同时段取样和跨阈法取样的极值风速概率模型, 在此基础上提出年最大风速的最优概率模型, 最后通过Monte Carlo 抽样模拟和实测风速资料统计, 比较了理论分析结果与实际统计结果的差异性。
。
n
当母体分布F (x ) 落入某一渐近极值分布的吸引域时, 即当n y ]时, F (x ) 趋于某一类极值分布F M (x ) , 则该母体分布的右尾部渐近于GPD, 且GPD 和F M (x ) 具有相同的形状系数。GPD 函数表达为
G (x ) =1-[1+c (x -u ) P b ]
-12 极值理论
设{X 1, X 2, , , X n }为相互独立且具有相同分布F (x ) 的随机变量序列, 其最大值随机变量X M =max {X 1, X 2, , , X n }的概率分布为F (x ) 。当
收稿日期:2001O 01O 05, 收到修改稿日期:2001O 08O 21
国家自然科学基金资助重大项目(59895410) ; 中国海洋石油渤海公司; n
,
(2)
b >0, 1+c (x -u ) P b >0
式中u 为阈值; b 和c 为尺度参数和形状参数。
设{X 1, X 2, , , X n }为取自母体概率分布为F (x ) 的子样, 设定足够大的阀值u , 使超越u 的次数服从泊松分布, 则{X i |X i >u }的渐近分布为i
#12#土 木 工 程 学 报2002年
E [Y |X i >u ]=
b +cu 1-c
c
(3)
母体分布F V 1(v ) 和F V 2(v ) , 理论上应有
F M (v ) =[F V 1(v ) ]
n
1
给定重现期T 年, 则T 年一遇最大值为
x T =u -b [1-(K T ) ]P c
式中K 为平均每年超越阀值u 的次数。
(4)
=[F V 2(v ) ]
n
2
(9)
即年最大风速分布是唯一的, 但时段数及相应母体分布却不是唯一的。合理的时段数n 的确定需遵循以下二条原则:
a 1时段长度足够长, 使各时段风速(最大值或平均值) 满足独立性要求;
b 1不同时段长度适当, 使各时段风速满足同分布要求。
如果风速随机过程是严格的平稳过程, 则满足各时段风速独立性要求的等时段均是合理的。然而实际上风速随机过程是拟平稳随机过程(分时段平稳) 或非平稳的, 采用不等时段确定时段数和相应母体分布
[6]
F V (v ) 是更合理的方法。Cook 根据独立的风暴过
3 极值风速的最优概率分布
311 风速母体的概率分布
假定水平风速V (t ) 的两个正交分量V x (t ) 和V y (t ) 为相互独立的平稳正态过程, 即V x (t ) 与V y (t ) 有联合概率密度函数f V x V y (v x , v y ) =
-2PR 2x R y v y -L y
y
2
v x -L x
x
2
+
(5)
其中L x 和L y 、R x 和R y 分别为V x (t ) 和V y (t ) 的均值和均方差。V x (t ) 和V y (t ) 的合成V (t ) 则为瑞利(Rayleigh) 分布, 其分布函数为F V (v ) =1-exp -2R
式中R 为分布参数。
欧进萍等布。
由于实际风速并不严格地满足平稳正态过程假设, 瑞利分布往往不是普遍最优的母体分布概率模型, 因此有理由相信以瑞利分布为其特殊情形的威布尔分布将是描述实际风速母体的较优概率模型。三参数威布尔分布为F V (v ) =1-exp -v -[10]
2
[1]
程估计n 约在100~1000之间。
由311节可知, 风速母体理论上服从瑞利分布, 其n 次幂还是指数型分布, 即年最大风速理论分布为指数型分布; 当n y ]时, F m (v ) 渐近于极值?型, 即年极值风速以极值?型分布为渐近分布。当风速母体服从威布尔分布时, 上述结论也成立, 只是当威布尔分布形状系数B >2时, 收敛于极值?型的速度小于母体为瑞利分布的收敛速度, 而B <2时则相反。总之,>2时则相反。总之,>
从另一方面来看, 大气运动是一个具有有限能量的动力系统, 但又不可能给出风速的上界, 因此风速应是一个有限但无界的物理量。
(2) 采用POT 取样的GPD 模型
对于取自风速母体的子样{V 1, V 2, , , V n }, 选取足够高的阈值u , 使{V i , i =1, 2, , , m [n |V i >u }满足独立性要求, 并使风速超越阈值成为泊松事件, 则当n y ]时, 跨阈风速渐近于GPD 。
由于POT 法取用跨越某一阈值的子样个体, 因此, 有可能保留一年中较多的次最大风速样本, 同时也降低了年最大风速样本的权重。POT 法使在较短风速序列基础上估计极值风速成为可能。
POT 法关键在于确定适当的阈值。确定阈值的原则就是在满足跨越阈值次数服从泊松分布的前提下保留尽可能多的独立子样个体。由式(3) 知, 如果GPD 是合适的模型, 则超越量的均值与阈值有线性关系, 据此可以确定阈值并估计分布参数
[7]
(6)
对环渤海十三个台站二十多年的定
时风资料的统计, 验证了母体风速较好地服从瑞利分
v >C , B >0, G >0
(7)
式中C , G 和B 分别称为位置参数、尺度参数和形状
参数。
312 年最大风速的理论分布与渐近分布
(1) 采用时段最大取样的极值风速概率分布年最大风速为一年中各时刻风速的最大值。一年可以分为n 个时段, 每个时段风速(最大值或平均值) 假设为独立且具有相同分布F V (v ) 的随机变量, 则年最大风速的理论分布为
F M (v ) =F V (v )
n
(8)
。
准确地估计年最大风速概率分布决定于准确的风速母体分布F V (v ) 和相应的时段数n 。对满足变量n 12GPD 是母体风速分布尾部的渐近表示, 它具有与渐近极值风速分布相同的形状系数, 因此, 理论上极
第35卷 第5期段忠东等#极值风速的最优概率模型#13#
313 年最大风速的最优概率分布
从上面的分析可以推知, 年最大风速分布应具有以下特征:
(1) 为指数型分布;
(2) 具有无限长尾部, 其尾部长度介于极值?型尾部长度和有限尾部长度之间;
(3) 风速无上界。
因此从已知的概率模型来看, 极值?型分布、威布尔分布、极值ó型分布和GPD 为年最大风速最优分布备选概型。下面逐一分析每个概型的特性。a 1极值?型分布:极值?型是指数型母体分布的渐近分布, 因此在母体风速服从威布尔分布(当B =2时为瑞利分布) 且不考虑取样误差及参数估计误差的情况下, 年极值风速取极值?型分布总给出保守的极值风速估计。在相同的时段数n 的情况下, 母体风速依次分别为威布尔分布(B >2) 、瑞利分布、威布尔分布(1<2) 、指数分布时,="">2)>
b 1威布尔分布:威布尔分布也具有无限长尾部。当威布尔分布形状系数B =1时, 威布尔分布成为指数分布, 即
F e (x ) =1-e
式中y =(x -C ) P G 。由于
lim y y ]
1-F ?(y )
=1
F e (y )
(11)
-y
值风速的渐近分布为极值?型, 即存在母体风速F V (v ) 速。
综合上述分析, 威布尔分布将是年极值风速的最优概率模型; 极值?型给出偏大的极值风速估计, 其误差取决于风速母体的分布特性; 极值ó型分布将不大可能给出准确的极值估计, 而GPD 将给出较极值?型偏小的估计。
尾部渐近
GPD
极值渐近
极值?型, 因此由
GPD 推算的极值风速将小于极值?型推算的极值风
4 Monte Carlo 模拟及实测风速统计验证
上一节从理论上分析了年最大风速的最优分布, 但由于实际风速的非平稳性、抽样误差及参数估计误差, 实际得到的最优分布与理论最优分布有一定的差异, 为此设计以下Monte Carlo 试验和实测风速资料统计来验证两者的差异程度。411 Monte Carlo 模拟验证
基本母体风速分别取用瑞利分布(见式(6) ) 和威布尔分布(见式(7) ) , 其参数分别取R =2116, C =1125, G =4184, B =1136。取50年风速为一个子样, 一共抽取了100个子样。每天为3次观测值, 则每个子样容量为N =50@360@3=54000。采用等时段抽取样本, 分别采用一年取最大、10次观测取最大、3次观测取最大构成三组子样, 容量分别为50、5400、18000。分别对威布尔分布、极值?型、瑞利分布、极值ó型和GPD 进行参数估计, 并定义累积误差,
x i :N -x ^i :N (12) 累积误差=
N i 6=1
来衡量不同概率分布的拟合优度。式中x i :N 为排序后的第i 个观察值, x ^i :N 为由估计参数推算的相应于第i 点经验概率的风速值。不同概率模型对不同子样的拟合优度列于表1和表2中, 不同子样和不同概型推算的极值风速列于表3和表4中。GPD 形状系数c (见式(2) ) 的变异性列于表5和表6。
N
(10)
式中F ?(y ) 为极值?型概率分布函数。因此, 极值?型分布与指数分布具有相同的尾部长度, 由此可推出威布尔分布(B >1) 尾部长度小于极值?型分布, 而且其尾部形状可由形状系数B 调节。
c 1极值ó型分布:极值ó型分布具有有限尾部长度, 而且是有界的, 这与风速有限无界这一特性是相冲突的。不考虑其它误差, 年最大风速分布采用极值ó型分布将给出偏小的极值风速估计。
d 1采用POT 的GPD:虽然采用POT 的GPD 不是以年为基准期的最大风速分布, 但可以由式(4) 推算不同重现期的风速。由于以GPD 为母体分布的极
表1 不同概型对不同子样的拟合优度(母体为瑞利分布)
子样容量N =18000N =5400N =50
威布尔分布累积误差010620107201153
最优次数10010073
极值?型分布累积误差012530119001181
最优次数
0027
极值ó型分布累积误差1114529130221943
最优次数
000
瑞利分布
累积误差113252161251669
最优次数
000
#14#土 木 工 程 学 报
表2 不同概型对不同子样的拟合优度(母体为威布尔分布)
威布尔分布
极值?型分布累积误差011010112201318
最优次数
264226
极值ó型分布累积误差19100015195251478
最优次数
000
2002年
瑞利分布
累积误差018262119861555
最优次数
000
子样容量
累积误差
N =18000N =5400N =50
010880111501273
最优次数
745874
表3 不同子样和不同概型推算的极值风速(m P s) (母体为瑞利分布)
重现期(年)
子样容量
概型
5均值变异系数
N =54000
理论分布GPD 威布尔GPD 威布尔GPD 威布尔
N =50
极值?型
1911417138181241715918138171691912319113
00157
10均值变异系数1919719102
00109
30均值变异系数2111619146
00109
50均值变异系数2116919160
00108
100均值变异系数2213719177
00108
200均值变异系数2310319192
00108
500均值变异系数2318820111
001080100801060101201050105901037
N =18000
010061819001560156
1912319131
010071918401070106
1916919177
010072012401070106
1918519194
010072017701060105
2010420114
010082112801060105
2012220133
010082119201060105
2014420158
N =5400
010081910101015201050101520102
010091918901019211150101921136
010102012701028211610102521197
010102017701032221190102722179
010112112401038221740103023161
010112118401043231420103324170
表4 不同子样和不同概型推算的极值风速(m P s) (母体为威布尔分布)
重现期(年)
子样容量
概型
5均值变异系数
N =54000
理论分布GPD 威布尔
N =18000
极值?型GPD 威布尔
N =5400
极值?型GPD 威布尔
N =50
极值?型
24156211122218526152231062310925186231242417424159
10均值变异系数26106
00113
30均值变异系数2812724171
00113
50均值变异系数2912524197
00112
100均值变异系数3015625129
00112
200均值变异系数3118525158
00112
500均值变异系数3315125196
0011201011010060109010160100901080107001050
0108323196010082319801005281510112
24116
010092516101005311500111
24195
010092613301006321870111
25124
010102712701006341710110
25160
010102811801006361550110
25195
010102913501006381980110
26141
010112411701007271750111
24133
01021261220102126116
010122516901008301600110
25113
01027281250102728153
010132613601008311910109
25143
01039291100103529161
010132712201008331670109
25182
01045301190103831107
010142810601008351420108
26120
01053311220104232152
010152911101009371730108
26170
01060321510104634144
表5 GPD 形状系数c (母体为瑞利分布)
子样容量N =54000N =18000N =5400
均 值-016615-016374-016016
变异系数-1169-1176-1187
小于零次数
908580
Monte Carlo 模拟结果表明:
(1)不论风速母体是瑞利分布或是威布尔分布(B X 2) , 对不同时段最大风速概率分布的拟合, 威布尔分布和极值?型都较极值ó型和瑞利分布为优, 而且威布尔分布全面优于极值?型。对年最大风速分布, 采用威布尔分布和极值?型分布的风险分别约为30%和70%。
(2) 对取样时段小于1年的子样, 威布尔分布给出偏小的不同重现期极值风速, 极值?型给出偏大的极值风速, 偏差程度随取样时段长度增大而减小。GPD 总给出偏小的极值风速。
?
表6 GPD 形状系数c (母体为威布尔分布)
子样容量N =54000N =18000均 值-016041-014959变异系数-1185-1179小于零次数
9082
第35卷 第5期段忠东等#极值风速的最优概率模型#15#
图1 跨阈量均值与阈值关系
型分布给出几乎一致的最准确的极值风速估计, 但极值?型给出的极值风速变异性稍小于威布尔分布。
(4)采用POT 的GPD 的形状系数c 随不同取样的变异性很大, 估计的极值风速具有最大的变异性, 但对不同容量的子样, GPD 给出一致性最好的极值风速。
412 实测风速统计验证
实测风速资料取自渤海海域的小长山海洋站, 序列长度为1966年至1986年(缺1983年) 的20年。1966年至1979年为每日3次定时记录, 1980至1986年为每日4次定时记录。风速值均为整数, 1966年至1968年风速仪离地高度为1015m, 1969年至1973年为919m, 1974年至1978年为10m, 1979至1986年为1017m, 非标准高度风速按对数律转换成标准高度风速。
风速子样容量N =22757, 对风速母体子样的统计结果表明, 威布尔分布优于瑞利分布。分别采取3次观测值取最大、10次观测值取最大和取年最大风速得到容量分别为7585、2275和20的子样。不同概型对不同子样的拟合优度列于表7。
表7 不同概型对不同子样的拟合优度(累积误差)
子样容量威布尔分布极值?型分布N =7585N =2275N =20
012370124401582
012680129901705
极值ó型分布
16191114116821470
瑞利分布014661116251157
N =22757
表8 估计的GPD 参数
子样容量阀值u (m P s) 形状参数c N =7585N =2275N =20
191819181918
012701250125
尺度参数b
016801750171
跨阈样本点数
534543
不同子样与不同概型推算的极值风速列于表9。
表9 不同子样和不同概型推算的极值风速(m P s)
重现期(年)
子样容量
概 型
5
GPD 威布尔GPD 威布尔
10
30
50
100
200
500
理论分布24171261212814229141301723210133168
22134231392515026172281663110134187231992513827142281322915030166321152212723130251322614728128301433318923157241832616227139281402913830162
N =7585极值?型26151281583117133114351063619838151
N =2275极值?型26185291073214233195361013810740178
GPD 22110231072510026109271812918633116N =20
威布尔
24148261202814229132301443114732172
极值?型24114261162912030159321473413436180
对小长山站的实测风速资料的统计结果表明, 按时段最大取得的子样, 威布尔分布表现出较极值?型分布更好的拟合优度, 并给出最好的极值风速估计, 极值?型分布推算的极值风速稍差, 而GPD 的结果偏小。
5 结 论
采用POT 法选取子样对GPD 参数进行估计, 对不同容量子样根据式(3) 分别画出超越量均值与阈
值关系曲线, 如图1所示。由于实测风速均为整数, 所以图中线形呈锯齿形, 如果忽略锯齿形, 仍可以近似得出纵横坐标值之间的近似线性关系。从该图可以确定阀值u , 进而估计出参数c 和b , 结果列于表8在风速过程为平稳高斯过程的假设下, 风速母体服从指数型分布。在此基础上分析了不同取样方法及相应的极值分布的尾部特性及对极值风速估计的偏差, 得到了威布尔分布为极值风速普遍最优概率模型的结论。Monte Carlo 试验和实测风资料统计结果表
#16#土 木 工 程 学 报2002年
计, 极值?型分布次之, GPD 估计的结果偏差最大且极值风速估计的变异性最大。
参 考 文 献
[6]
[1] J. D. Riera, M. M. Rocha. Load definition for wind desi gn
and reliability assessments:Extreme wind climate [A]1Wind Effects on Buildings and Structures, Ed. by J. D. Riera &A. G. Davenport, Proceedi ngs of the Jubileum Conference on Wind Effects on Buildings and Structures [C]11998, 15~38
[2] H. C. S. Thom. Di stributions of extreme winds in the United
States [J]1Journal of the Structural Division, Proceedings of the ASCE, 1960, 86(S T4) :11~24
[3] E. Si miu, M. J. Changery, J. J. Filliben. Extreme Wind
Speeds at 129Airp ort Stations [J]1Journal of the Structural Division, 1980, 106(S T4) :809~817
[4] E. Simiu, J. J. Filliben. Probability distributions of extreme
wind speeds [J]1Journal of the Structural Division, 1976,
[5]
[7]
[8][9]
[10]
102(ST9) :1861~1877
E. Si miu, N. A. Heckert. Extreme wind distribution tails:A /Peaks over Threshold 0approach [J]1Journal of Structur -al Engineering, 1995, 122(5) :539~547
N. J. Cook. Towards better estimation of extreme winds [J]1Journal of Wind Eng i neering and Indus trial Aerodynamics, 1982, 9:295~323
J. P. Palutiko, B. B. Brabson, D. H. Lister. A review of methods to calculate extreme wind speeds [J]1Meteorol. Appl. , 1999, 6:119~132
J. Pickands. Statistical inference using extreme order s tatistics [J]1The Annals of Statistics, 1975, 3(1) :119~131
A. C. Davison, R. L. Smith. Models for exceedances over high thresholds [J]1Journal of Royal Stati stical Society, Se -ries B, 1990, 52(3) :393~442
欧进萍, 段忠东, 陆钦年1渤海海域的风特性统计分析[J]1海洋通报, 1997, 16(1) :20~28
THE OPTIMAL PROBABILISTIC D ISTRIBUTION FOR EXTREME WIND SPEED
Duan Zhongdong Ou Jinping Zhou Daocheng
(HarbinInstitute of Technology)
Abstract
The wind parent is conformed to the exponential distribution; it is based on that the wind process is assumed as a station -ary Gaussian process. The distribution of the extreme wind speed is studied by using different sampling methods. It is focused to study different distributions about both the tail characteristics and the capabilities to estimates of the e xtreme wind speed. The Weibull distribution is evaluated as the optimal one. It is verified by the analysis of the Monte Carlo sa mples and the wind speed observations at the Xiaochangshan station.
Key words :E xtreme value theory, E xtreme wind speed, Probabilistic distribution
段忠东 研究生, 博士。哈尔滨工业大学土木工程学院, 教授。主要从事结构可靠度、海洋结构工程研究。通讯地址:
150090 哈尔滨市南岗区海河路202号哈尔滨工业大学二校区2546信箱
欧进萍 博士, 研究员, 副校长。主要从事结构安全评定、结构智能控制与性态设计、结构健康监测等研究, 获部级科技
进步一等奖两项。
周道成 硕士研究生, 主要从事海洋环境荷载统计建模研究。
第九届全国土力学及岩土工程学术会议征文通知
四年一度的中国土木工程学会土力学及岩土工程学术会议是我国岩土工程界同行集聚一堂、交流切磋的盛会。由清华大学承办的第九届全国会议是新世纪第一次全国土力学及岩土工程学术会议, 将于2003年10月25日至28日在北京召开。
会议专题包括:11土的基本特性和测试技术; 21基础工程; 31地基处理; 41地下工程及深基坑; 51土工建筑物与边坡; 61土动力学及地震工程; 71环境岩土工程; 81岩土工程中的新技术与新材料; 91岩土工程中计算机应用; 101新世纪岩土工程与可持续发展
征文:应征论文必须是没有发表过的有关岩土工程的理论、计算、重大工程实录及岩土工程中其他有意义的内容。2003年3月31日前提交论文全文, 2003年5月31日前返回是否录用或修改意见, 2003年6月31日前提交修改后论文。
展览:热忱欢迎从事岩土工程领域的新材料、新技术、新设备的开发、生产和运用的相关公司及单位踊跃报名参加技术展览。会议期间还将举办(1) 土力学及岩土工程分会大事记展览, (2) 黄文熙讲座撰稿人业绩展览, (3) 茅以升土力学及基础工程大奖获得者业绩展览。
论文请寄:北京市100084海淀区清华园清华大学水利水电工程系第九届全国土力学及岩土工程分会秘书处。联系人:张建红 胡黎明, 电话:010) 62785593, 传真:010) 62785593, E O Mail:cismge@tsinghua 1edu 1cn
会议组委会中国土木工程学会
经济决策的概率模型
作者简介
罗杰B.迈尔森是西北大学凯洛格(Kellogg)研究生管理学院的决策科学哈罗德L.斯图亚特(Harold L.Stuart)讲座教授。他自1976年在哈佛大学获得应用数学博士学位以来,就一直在西北大学工作。他还是美国艺术与科学院院士和计量经济学协会资深会员。
编辑推荐
美国西北大学MBA学生对概率分析的理解如此困难,以致作为任课教授的罗杰B.迈尔森曾一度失去信心。但他最终耗费近20年写下该书,真正实现深人浅出,并致力于让全世界的MBA都能够将概率分析,应用于真正有趣的经济问题和案例之中。
本书特色:
自始至终讲解如何在复杂的现实情形中运用概率论。
在金融、投资、竞标、激励机制、存货决策、排队模型等多方面应用。
一切分析工作都基于我们熟悉的Execel电子表格。
没学过概率论也没关系,本书已经介绍了概率论的基本思想。
“对于那些学习内容将超出本书之外的学生,我希望大家可以发现:无论对于商业和个人生活中的实践应用,还是对于统计和经济分析中的理论模型,电子表格模拟模型都是一种极为有用的手段,可帮助我们对不确定条件下的决策获得有益洞见。”
——罗杰 B.迈尔森对本书中文版寄语
本书简介
本书是一本将概率模型用于分析风险和经济决策的入门教材。全书自始至终倾力向读者阐明,如何在复杂的现实情形中运用概率论,并将概率论晦涩的数学运算融入到生动有趣的现实经济生活中。全书的分析性工作都是在Microsoft Excel电子表格中进行的,这种方法有助于读者处理更为复杂的问题。强调电子表格建模的结果是,阅读完本书的读者可从中学到精妙的电子表格技巧,轻松获得概率分析的应用能力。
本书适用于经济管理类专业高年级本科生和MBA学员,也可作为从事概率论、经济决策或数量建模等课程研究的人员参考读物。
目录
译者序
教学建议
前言
作者简介
第1章 模拟与条件概率
1.1 从Excel中的Simstools开始
1.2 如何在电子表格中掷硬币
1.3 20个销售电话的模拟模型
1.4 用Excel的“数据一模拟运算表”命令进行分析
1.5 条件独立
1.6 来自三角分布的一个连续随机技能变量
1.7 概率树和贝叶斯法则
1.8 电子表格高级技巧:创建一个多重输入表格
1.9 模型运用
小结
练习题
第2章 离散随机变量
2.1 不确定性决策中的未知量
2.2 绘制一个概率分布
2.3 模拟离散随机变量
2.4 期望值和标准差
2.5 从样本中进行估计
2.6 样本估计的精度
2.7 决策标准
2.8 多元随机变量
小结
练习题
第3章 常风险容限的效用理论
3.1 考虑风险规避:概率下的效用分析
3.2 模拟数据的效用分析
3.3 线性风险容限更一般的假设
3.4 关于效用理论的高技术性注解
3.5 关于常风险容限的高技术性注解 小结
练习题
第4章 连续随机变量
4.1 正态分布
4.2 指数函数和自然对数函数
4.3 对数正态分布
4.4 广义对数正态分布
4.5 主观概率估计
4.6 含有离散和连续未知量的决策问题
4.7 正态彩票的确定性等价
4.8 其他概率分布
小结
练习题
第5章 多元正态随机变量相关性
第6章 条件期望
第7章 决策变量的最优化
第8章 风险分担与金融
第9章 增长和到达的动态模型
附录 与本书一起使用的Excel插件
参考文献
下载后 点击此处查看更多内容
信息检索的概率模型
RSJ-PM Tutorial: A Tutorial on the Robertson-Sparck Jones Probabilistic Model for Information Retrieval
Dr. E. Garcia
Abstract ? This is a tutorial on the original Robertson-Sparck Jones Probabilistic Model. The model is based on Independence Assumptions and Ordering Principles for probable relevance and does not incorporate term frequency.
Keywords: probabilistic model, independence assumptions, ordering principles, idf, inverse document frequency
All Rights Reserved ? 2009 E. Garcia; First Published: March 30, 2009; Last Modified: April 4, 2009.
Introduction
In 1976, Stephen Robertson and Karen Sparck Jones proposed a probabilistic model for information retrieval based on two assumptions and principles:
1. Independence Assumptions:
xI1 ? The distribution of terms in relevant documents is independent and their distribution in all documents is independent.
xI2 ? The distribution of terms in relevant documents is independent and their distribution in non-relevant documents is independent.
2. Ordering Principles:
xO1 ? Probable relevance is based only on the presence of query terms in the documents.
xO2 ? Probable relevance is based on both the presence and absence of query terms in the documents. Table 1 summarizes these.
Independence Assumptions
I1 I2
Ordering Principles O1 F1 F2
O2 F3 F4
Table 1. Assumptions-Principles Contingency Table.
In Table 1, F1 through F4 are weighting functions. According to Robertson and Sparck Jones (1976), I2 is more realistic than I1 while O2 is correct and O1 is incorrect. The model predicts that F4 is most likely to yield the best results and is therefore the best of these functions. The purpose of this tutorial is to show you how these functions can be used to rank documents in the presence and absence of relevance information.
Discussion
I1 states that the presence of a term in a relevant document does not impact the presence of other terms in the same document or its presence in other relevant documents. I1 says nothing about the distribution of terms in non-relevant documents.
I2 extends I1 to non-relevant documents by stating that the presence of a term in a non-relevant document does not impact the presence of other terms in the same document or its presence in other non-relevant documents. Since documents are either relevant or non-relevant to a query, this is why I2 is more realistic than I1.
O1 indicates that documents should be ranked only if they contain all of the terms specified in a query. It is an AND approach. O1 says nothing about the absence of query terms in the documents and is therefore incorrect. O2 takes O1 a little further and says that we should consider both the presence and absence of query terms. It is an OR approach. Accordingly, for a query consisting of two terms t1 and t2, documents mentioning both terms should rank higher than those mentioning one or none of these terms.
To implement O2, a system using an inverted index would have to identify all terms present and not present in a document. To avoid exhaustively tracking the inverted index, we can assign zero probability of relevance to documents lacking of all the query terms. Adopting this strategy implies that we have some evidence of non-relevance. It also has the effect of artificially converting O2-based weights to presence-only O1 weights. This makes O2 more practical than O1.
Based on Table 1, Robertson and Sparck Jones introduced explicit expressions for F1, F2, F3, and F4. Derivation
Given a query consisting of a term and a collection of documents, the Robertson-Sparck Jones Probabilistic Model (RSJ-PM) addresses two cardinal questions:
Is the term present in the documents?Answer: 1 = Yes (Present), 0 = No (Absent).
Are the documents relevant to the term?Answer: 1 = Yes (Relevant), 0 = No (Non-Relevant).
This binary treatment can be extended to queries consisting of several terms. To simplify, in this tutorial we limit the discussion to one-term queries. We begin by stating the following definitions:
r = number of relevant documents that contain the term.
n – r = number of non-relevant documents that contain the term.
n = number of documents that contain the term.
R – r = number of relevant documents that do not contain the term.
N – n – R + r = number of non-relevant documents that do not contain the term.
N - n = number of documents that do not contain the term.
R = number of relevant documents.
N – R = number of non-relevant documents.
N = number of documents in the collection.
Next, a contingency table is constructed.
Are the documents relevant to the term?
1 = Yes (Relevant)
0 = No
(Non-Relevant)
Collection-wide Incidence
Is the term present in the documents? 1 = Yes (Present) r n - r n 0 = No (Absent) R - r N – n – R + r N - n
Total number of documents R N - R N
Table 2. Contingency Table.
Normalizing Table 2 elements over the number of documents per columns, a table of probabilities is obtained. Probabilities
1 = Yes (Relevant)
0 = No
(Non-Relevant)
Collection-wide Incidence
Probabilities 1 = Yes (Present) r/R (n – r)/(N-R) n/N 0 = No (Absent) (R – r)/R (N – n – R + r)/(N – R) (N – n)/N Table 3. Table of Probabilities.
Taking probability ratios, a Table of Odds is computed.
Odds
1 = Yes (Relevant)
0 = No
(Non-Relevant)
Collection-wide Incidence
Odds r/(R – r) (n – r)/(N – n – R + r) n/(N – n) Table 4. Table of Odds.
Reading from left to right, the ratios in Tables 3 and 4 are defined as follows:
r/R = probability that a relevant document contains the term.
(n – r)/(N-R) = probability that a non-relevant document contains the term.
n/N = probability that a document contains the term.
(R – r)/R = probability that a relevant document does not contain the term. (N – n – R + r)/(N – R) = probability that a non-relevant document does not contain the term. (N – n)/N = probability that a document does not contain the term.
r/(R – r) = odds that a relevant document contains the term.
(n – r)/(N – n – R + r) = odds that a non-relevant document contains the term.
n/(N – n) = odds that a document contains the term.
We now do some collection-wide and distribution-specific comparisons. The fraction of relevant documents containing the term (r/R) is compared in two different ways:
x Against the fraction of documents in the collection containing the term; i.e., (n/N). x Against the fraction of non-relevant documents containing the term; i.e., (n – r)/(N-R).
Likewise, the odds that relevant documents contain the term (r/(R – r)) is compared in two different ways:
x Against the odds that documents from the collection contain the term; i.e., n/(N – n).
x Against the odds that non-relevant documents contain the term; i.e., (n – r)/(N – n – R + r).
To account for the fact that term weights are additive we take logarithms. This yields explicit expressions for the four weighting functions given in Table 1. These are summarized in Table 5.
Weighting Function Remarks F1 = log ? F1 evaluates the ratio of the proportion of relevant documents in
which the term occurs to the proportion of the entire collection in which it occurs.
F2 = log ? ?
F2 evaluates the ratio of the proportion of relevant documents to that
of non-relevant documents.
F3 = log ? F3 evaluates the ratio between the “relevance odds” for the term (i.e., the ratio between the number of relevant documents in which it does occur and the number in which it does not occur) and the “collection odds” for the term.
F4 = log ? F4 evaluates the ratio between the term relevance odds and its “non -relevance odds”.
Table 5. Table of Scoring Functions.
In Table 5, F1 through F4 are scoring functions that evaluate the weight of term i, w(ti ), as log transformations. These comparisons and transformations are not arbitrary. Let see why.
In the absence of relevance information the only information available is collection-wide incidence: the n/N and n/(N – n) ratios. It seems intuitively correct to propose scoring functions that use the n/N and n/(N – n) ratios as reference points. By doing so, we are effectively comparing against collection-wide proportions.
If we recall, log(N/n) is the so-called Inverse Document Frequency (IDF) and log ((N – n)/n)) is its “odd s version ” also known as IDF Probabilistic (IDFP). Considering these as weighting functions we can write
F0 = log ?? N
?? = IDF (Eq. 1)
F00 = log ?? N ? n
?? = IDFP (Eq. 2)
As weighting functions, F0 and F00 evaluate the weight of term i , w(ti ), but with one caveat: without incorporating relevance information. These are just collection-wide estimators of the discriminatory power of a term (term specificity). Indeed according to Robertson (2004), an IDF value is an RSJ weight in the absence of relevance information. This is also true for IDFP. From F1 and F3, it is evident that
F1 = log??
r + IDF = log?? r ?? + F0 (Eq. 3)
F3 = log?
r
(R – r)?
+ IDFP = log? r (R – r)? + F00 (Eq. 4)
That is, F1 and F3 compensate for the lack of relevance information in IDF and IDFP weights by adding to these a relevance component.
Note that F1 and F3 are related by comparing the relevant document distribution of a term to its entire collection distribution. In the case of F2 and F4, these functions are related by comparing relevant and non-relevant distributions. It is possible to derive IDF and IDFP from F2 and F4 by making specific assumptions about the degree of relevance information available. For instance, IDFP can be obtained by setting R = r = 0 in F4 (Robertson, 2004).
Regarding the use of logarithms, we must remember that these are additive: the log of a product is a sum of logs. This additive property is frequently assumed in IR with term matching coefficients (Robertson, 2004, Robertson & Sparck Jones, 1976).
Using the Model Predictively
The RSJ model can be used in two different ways: retrospectively and predictively. According to Robertson and Sparck Jones, if the model is used retrospectively, the use of proportions as estimates is recommended. However if the model is used predictively, it will breakdown when n, r, N, R, n - r, N – n, or N – R = 0. This can be avoided by adding a correction factor k to the entries of Table 2. See Table 6.
Are the documents relevant to the term?
1 = Yes (Relevant)
0 = No
(Non-Relevant)
Collection-wide Incidence
Is the term present in the documents? 1 = Yes (Present) r + k n – r + k n + 2k 0 = No (Absent) R – r + k N – n – R + r + k N – n + 2k
Total number of documents R + 2k N – R + 2k N + 4k Table 6. Contingency Table with Correction Factor k.
Using the model predictively means making inferences about the probabilities on the basis of sample information available. This is problematic for small samples. In their original paper, the authors used k = 0.5 (the so-called point-5 correction), obtaining the scoring functions depicted in Table 7.
RSJ Predictive Functions k = 0.5
F1 = log? F1 = log
F2 = log? F2 = log? ? F3 = log? ? F3 = log? ? F4 = log? F4 = log
Table 7. RSJ Model with correction factor k.
A Working Example
Robertson and Sparck Jones (1976) applied their model to a collection of 200 documents of which 5 were relevant to terms a , b, c , d , and e . In Table 8 we have reproduced their results. For comparison purposes we computed results for F0 and F00. Results were computed using both versions of the model.
Retrospective Mode (k = 0) Predictive Mode (k = 0.5)
a N R n r a N R n r
200 5 5 1 200 5 5 1
F0 F00 F1 F2 F3 F4 F0 F00 F1 F2 F3 F4
1.60 1.59 0.90 0.99 0.99 1.08 1.53 1.51 0.93 1.04 1.04 1.15
b N R n r b N R n r
200 5 5 4 200 5 5 4
F0 F00 F1 F2 F3 F4 F0 F00 F1 F2 F3 F4
1.60 1.59 1.51 2.19 2.19 2.89 1.53 1.51 1.40 1.99 1.99 2.59
c N R n r c N R n r
200 5 100 1 200 5 100 1
F0 F00 F1 F2 F3 F4 F0 F00 F1 F2 F3 F4
0.30 0.00 -0.40 -0.40 -0.60 -0.62 0.30 0.00 -0.30 -0.31 -0.48 -0.49
d N R n r d N R n r
200 5 100 4 200 5 100 4
F0 F00 F1 F2 F3 F4 F0 F00 F1 F2 F3 F4
0.30 0.00 0.20 0.21 0.60 0.62 0.30 0.00 0.18 0.18 0.48 0.49
e N R n r e N R n r
200 5 20 3 200 5 20 3
F0 F00 F1 F2 F3 F4 F0 F00 F1 F2 F3 F4
1.00 0.95 0.78 0.84 1.13 1.20 0.98 0.94 0.75 0.82 1.08 1.15
Table 8. RSJ weights for five terms (a , b , c , d , and e ) with k = 0 and k = 0.5.
In Table 9 we have reordered these results with respect to the r/n ratio (the probability that documents containing the term are relevant).
R/N (%) = 2.5 Results with k = 0 Results with k = 0.5
r n r/N (%) n/N
(%)
r/n
(%)
F0 F00 F1 F2 F3 F4 F0 F00 F1 F2 F3 F4
c 1 100 0.5 50 1 0.30 0.00 -0.40 -0.40 -0.60 -0.62 0.30 0.00 -0.30 -0.31 -0.48 -0.49
d 4 100 2 50 4 0.30 0.00 0.20 0.21 0.60 0.62 0.30 0.00 0.18 0.18 0.48 0.49
e 3 20 1.5 10 15 1.00 0.95 0.78 0.84 1.13 1.20 0.98 0.94 0.75 0.82 1.08 1.15
a 1 5 0.5 2.5 20 1.60 1.59 0.90 0.99 0.99 1.08 1.53 1.51 0.93 1.04 1.04 1.15
b 4 5 2 2.5 80 1.60 1.59 1.51 2.19 2.19 2.89 1.53 1.51 1.40 1.99 1.99 2.59 Table 9. Reordering of Table 8 results with respect to the r/n ratio.
To understand better these results, we have also computed the R/N and n/N ratios. It is clear that:
xA weight of zero is obtained when R/N = r/n. In addition, the theory predicts that F00 should give a zero IDFP weight when n/N = 0.5 and a negative weight when n/N > 0.5.
xFor r/n < r/n="" all="" four="" functions="" (f1="" through="" f4)="" give="" a="" negative="" weight="" to="" c="" since="" documents="" chosen="" at="" random="" from="" those="" containing="" the="" term="" c="" is="" less="" likely="" to="" be="" relevant="" than="" one="" chosen="" at="" random="" from="" the="" whole="">
xAs r/n increases and n/N decreases, F1 through F4 separate terms as expected: b > a and d > c.
xThe relationship of a and e shows that the four functions do not necessarily rank terms in the same order. xWith k = 0, F2 and F3 assign the same weight to a (0.99) and to b (2.19). This is also observed when k = 0.5.
xF4 assigns higher weights than F1, F2, and F3.
xF0 and F00 assign higher weights than F4 when both r/N and r/n are small (for a , these respectively are 0.5 % and 2.5 %).
Revisiting k
Robertson and Sparck Jones adopted the idea of using the correction factor k from Cox (Robertson & Spark Jones, 1976; Cox, 1970). From the above discussion, it is still unclear the role of k in their information retrieval model. In particular,
xWhat is the effect of varying k for a given weighting function across terms?
xWhat is the effect of varying k for a given term across weighting functions?
To address these questions, in Figure 1 we inspected the effect of varying r/n for each of the scoring functions. These were inspected at k = 0 and k = 0.5.
Figure 1. Profile curves of term weights (w) vs. r/n ratios at k = 0 and k = 0.5 for a , b , c , d , and e terms. Note that varying k from 0 to 0.5 essentially dampens down the curves. These results confirm the generalized perception that k is a smoothing correction.
In Figure 2 we examined the effect of varying k for each of the scoring functions. In the figure, w(a) stands for the weight assigned to a , w(b) stand for the weight assigned to b , and so forth.
Again, k acts as a smoothing correction. However, it should be underscored that setting k does impact the scoring functions in a non-trivial way. Figure 2 shows that curve slopes differ across terms and scoring functions. This is a reflection of the several combinations of relevance/non-relevance documents used.
Figure 2. Profile curves for a , b , c , d , and e terms showing term weights (w) for several values of k. The absolute values of the slopes are indicative of how sensitive the scoring functions are to k. Note that some curves overlap and are not visible while others are well discernible. When they do overlap, selecting one scoring function over the other for a particular k does not matter that much.
Last but not least when function curves are orthogonal to the y axis, using these predictively or retrospectively should return identical results. This is the case of F0 and F00 with terms c and d . Can you guess why? (Hint: See Table 9.)
Note that F4 gives higher weights to b , d , and e ; i.e. to terms with a high relevant document incidence, r. We can extend on this subject and argue that varying k does provide some insight as to when and why some functions assign lower or higher weights. Such a discussion is a great homework and complementary research work for this tutorial.
Exercises
1. The following example is taken from Information Retrieval:Algorithms and Heuristics (Grossman & Frieder, 2004). Let Q be a query and d1, d2, and d3 be documents of a collection. Thus, N = 3.
Q: gold silver truck
d 1: Shipment of gold damaged in a fire.
d 2: Delivery of silver arrived in a silver truck.
d 3: Shipment of gold arrived in a truck.
Assuming term independence, rank documents in decreasing order of weights using F0 through F4 with (a) k = 0 and (b) k = 0.5. Compare weighting function results for each k and between k values.
2. Show that RSJ weights scored with function F4 can be expressed as follows
w(ti ) = log ??
p
i
? 1 – q) i ?? ; where
p i = P(document contains ti |document is relevant)
q i = P(document contains ti |document is not relevant)
That is, pi is the probability that the document contains ti provided that it is relevant and qi is the
probability that the document contains ti provided that it is not relevant.
3. Figure 1 suggests the dampening power of k is almost insignificant at lower values of r/n . Why?
4. Why the slopes of some of the curves shown in Figure 2 are either positive or negative? You need to evaluate the weighting function derivatives respect to k (i.e., dF/dk) using the data given in Table 9. References
Cox, D. R.; Analysis of Binary Data. Methuen, 1970, London.
Grossman, D. A. & Frieder, O. Information Retrieval: Algorithms and Heuristics. Springer, 2004, Netherlands. Robertson, S. E., & Sparck Jones, K.; Relevance weighting of search terms, Journal of the American Society for Information Science, Volume 27, 1976 pp. 129– 146.
Robertson, S. E. (2004). Understanding Inverse Document Frequency: On theoretical arguments for IDF. Journal of Documentation, 60, 5, 503-520.
Sparck Jones, K. (1972). A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, 28, 1, 11-21.
转载请注明出处范文大全网 » 几种常见的几何概率模型