撰稿人:路璐
15120034324
1 数据标准化的概念
数据的标准化是将数据按比例缩放,使之落入到一个小的特定区间,将其转化为纯数值,便于不同单位或量级的指标能够进行比较和加权。
2 数据标准化的意义
在建设城市信用体系的多指标评级体系中,由于各评级指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,在使用大数据进入评级算法前,为了保证结果的可靠性,首先会对原始指标数据进行标准化处理,数据标准化的方法是建设城市信用体系评级的重要技术之一。
3 数据标准化的范围
由于数据采集涉及到多个来源不同标准的原始数据,数据标准化主要解决不同性质的数据对测评方案的作用力同趋化和数据可比性的问题,即各指标值都处于同一个数量级别上,可以进行综合测评分析,为进入下一步的评级算法打好基础。
1
4 数据标准化原理
针对城市信用体系的建设,设计了以下技术方案:
由于原始数据在不同水平、区域内的变化对综合分析结果的影响是不一样的,设定a为重影响最底数值,b为重影响最高数值,即在多指标综合评价时,若xi小于a,xi变化对综合水平影响较大,平价值也有较大的变化;而当xi大于b时,xi的变化对被评价对象综合水平的影响较小,则平价值的变化也较小。
当原始数据xi小于重影响最低数值a时,标准值为0; 当原始数据xi大于重影响最高数值b时,标准值为1; 当原始数据xi大于等于重影响最低数值a而小于重影响最高数值b时,标准值为
5 数据标准化函数
由数据标准化原理得出数学表达式,即:
0 xi
1 xi≥b
将处理后的标准值扩大10倍,与定性指标统一取值区间。
6 数据标准化函数的值域
标准值通常有一个允许值的集合,这个集合被称为值域。
2
x?ab?a 。
标准化函数的值域是 0,10 。
7 小结
在处理城市信用体系建设的数据标准化时,要保证算法一致性、原始数据整体性,这样得出的标准值才有可比性,才可以将其输入到权重和评级计算中。
3
数据标准化方法
数据标准化方法
问题1:将一个人的体重和身高相加在一起有无什么意义, 答:量纲(就是单位)不同的量相加是没有意义的。不加处理就将两个不同量纲的量相加这
是数学建模的大忌~
问题2:如何将一个人的体重G和身高H这两个指标综合为一个指标用以评价一个人身材,
答:通常考虑加法模型和乘法模型。乘法模型在这里不太适合,故考虑加法模型,一般采用
PwGwH,,,这里ww,,1,但是这样就犯了一个严重的错误。 加权组合的方式,即1212
因此需要先对进行预处理?无量纲化,也就是数据标准化方法。 GH,
数据标准化方法主要有以下三种:
(1)规范化方法
对序列xxx,,...,进行变换: 12n
xx,min{}ij1,,jn y,imax{}min{}xx,jj1,,jn1,,jn
yyy,,...,[0,1], 则新序列且无量纲。一般的数据需要时都可以考虑先进行规范化处12n
理。
(2)正规化方法
xxx,,..., 对序列进行变换: 12n
nnxx,112ixx,,这里, y,sxx,,(),,iiinsn,1,1i,1i
yyy,,..., 则新序列的均值为0,而方差为1,且无量纲。 12n
(3)归一化方法
xxx,,..., 对正项序列进行变换: 12n
xi ,yin
x,ii,1
n
y,1yyy,,...,[0,1], 则新序列且无量纲,并且显然有。 ,12ni,1i
归一化方法在确定权重时经常用到。
针对实际情况,也可能有其他一些量化方法,或者要综合使用多种方法,总之最后的结
果都是无量纲化。
例1:DVD分发问题中满意度的量化
现有20种DVD要分发给100个会员,规定如果要向某人发放DVD,则一次发给3张,问如何对这些DVD进行分配,才能使会员获得最大的满意度,
DVD编号 D001 D002 D003 D004 D005 D006 ……
DVD现有数量 8 1 22 10 8 40 ……
C0001 0 0 2 0 0 0 ……
C0002 1 0 9 0 0 7 …… 会员偏C0003 0 6 0 0 0 7 ……
好 C0004 0 0 0 0 4 0 ……
C0005 5 0 0 0 0 4 ……
………
注:表中的数字越小表示会员的偏爱程度越高,数字0表示对应的DVD当前不在会员的订单中。
解:我们考虑三种方法进行变换,然后对它们进行比较。
(1) 利用公式 f(x),(11,x)/101
(2) 利用公式 f(x),1/x2
(3) 利用模糊数学中的隶属函数的概念,选取合适的函数,对满意度进行量化
f(x),aln(11,x),b,1,x,10,这里为待定常数 a,b3
f(1),1,f(10),0.05令代入可得。 a,b33
f(x),0.41258ln(11,x),0.05,1,x,10 3
三种量化方法的比较:
结论:方法1可行;方法2不太可取;方法3可行。
注意:无论采用哪一种方法,对每一个会员的满度度均需要作归一化处理,使得每一个会员对选中的DVD的满意度之和等于1,(算出的每人的满意度或综合满意度都应该介于0-1之间)。
例2:长江水质的定量综合评价(2005年赛题)
下表是《地表水环境质量标准》,给出了水质类别的分类标准。
分 类
序 标准值 ?类 ?类 ?类 ?类 ?类 劣?类 号 项 目
7.5 1 溶解氧(DO) ? 6 5 3 2 0 (或饱和率90%)
2 高锰酸盐指数(CODMn) ? 2 4 6 10 15 ? 3 氨氮(NH3-N ? 0.15 0.5 1.0 1.5 2.0 ? 4 PH值(无量纲) 6---9
下表给出了17个观测点的水质情况。
水质主要监测项目(单位:mg/L) 序类别 点位名称 断面情况 号 pH* DO CODMn NH3-N 本月 1 四川攀枝花 干流 7.6 6.8 0.2 0.1 II 2 重庆朱沱 干流(川-渝省界) 7.63 8.41 2.8 0.34 II 3 湖北宜昌南津关 干流(三峡水库出口) 7.07 7.81 5.8 0.55 III 4 湖南岳阳城陵矶 干流 7.58 6.47 2.9 0.34 II 5 江西九江河西水干流(鄂-赣省界) 7.34 6.19 1.7 0.13 II
厂 6 安徽安庆皖河口 干流 7.52 6.54 3.2 0.22 II 7 江苏南京林山 干流(皖-苏省界) 7.78 6.9 3.1 0.11 II 8 四川乐山岷江大岷江(与大渡河汇合7.66 4.2 5.8 0.53 IV
桥 前) 9 四川宜宾凉姜沟 岷江(入长江前) 8.01 7.63 2.4 0.25 II 10 四川泸州沱江二沱江(入长江前) 7.63 4.02 3.6 1.06 IV
桥 11 湖北丹江口胡家丹江口水库(库体) 8.63 10.2 1.8 0.1 I
岭 12 湖南长沙新港 湘江(洞庭湖入口) 7.42 6.45 4.3 0.99 III 13 湖南岳阳岳阳楼 洞庭湖出口 7.73 6.26 1.4 0.21 II 14 湖北武汉宗关 汉江(入长江前) 8 6.43 2.4 0.17 II 15 江西南昌滁槎 赣江(鄱阳湖入口) 6.64 5.18 1.1 0.92 III 16 江西九江蛤蟆石 鄱阳湖出口 7.28 6.87 2.7 0.15 II
夹江(南水北调取水17 江苏扬州三江营 7.29 6.9 1.6 0.15 II
口) 分析水质的类别的确定可知:它是由首要污染物决定的。
请根据以上数据对长江当前的水质情况做出定量的综合评价。
解:
1、数据的标准化处理
溶解氧是极大型指标(指标越大,水质越好),PH值是居中型指标,其余两种是极小型
指标,统一进行极小型处理。
1*(1)溶解氧:(共有17个观测点) Pi,,,1,2,...,17i1Pi1
*(2)PH值: PPi,,,7,1,2,...,17ii44
****PPPP,,,然后对进行规范化处理,即: iiii1234
*P,miniji xij,,,,1,2,...,17,1,2,3,4ijmaxmin,ii
Xx,()x,[0,1]得到规范化矩阵,这里且无量纲。 ij174,ij2、确定四种指标的权重(变权函数的确定)
原则是能有效的区分六类水。
Ww,()权重矩阵 ij174,3、综合评价指标
4
Mwxi,,,1,2,...,17 ,iijij,j1
4、评价结果对比与排序
5、本问评分情况
标准化公式4分;变权函数的确定4分;评价综合指标4分;评价结果与排序8分;共
20分。
数据标准化处理方法
数据标准化处理方法
2011-11-04 10:36:44 来源: 作者: 【大中小】 浏览:2749次
统计上综合经济实力测评经常用到数据的标准化处理。那么什么是数据标准化处理? 数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性,在此我们采用指数化处理方法。指数化处理以指标的最大值和最小值的差距进行数学计算,其结果介于0-1之间。具体计算公式如下: zi=xi-xmin/xmax-xmin 其中:zi 为指标的标准分数 xi 为某镇某指标的指标值 xmax 为全部镇中某指标的最大值 xmin 为全部镇中某指标的最小值 经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。
数据标准化处理方法
数据标准化处理方法
在数据分析之前,我们通常需要先将数据标准化(normalization ),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score 标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。
一、Min-max 标准化
min-max标准化方法是对原始数据进行线性变换。设minA 和maxA 分别为属性A 的最小值和最大值,将A 的一个原始值x 通过min-max 标准化映射成在区间[0,1]中的值x' ,其公式为:
新数据=(原数据-极小值)/(极大值-极小值)
二、z-score 标准化
这种方法基于原始数据的均值(mean )和标准差(standard
deviation )进行数据的标准化。将A 的原始值x 使用z-score 标准化到x' 。
z-score标准化方法适用于属性A 的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
新数据=(原数据-均值)/标准差
spss默认的标准化方法就是z-score 标准化。
用Excel 进行z-score 标准化的方法:在Excel 中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。
步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi 和标准差si ;
2.进行标准化处理:
zij=(xij -xi )/si
其中:zij 为标准化后的变量值;xij 为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
三、Decimal scaling小数定标标准化
这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A 的取值中的最大绝对值。将属性A 的原始值x 使用decimal scaling标准化到x' 的计算方法是:
x'=x/(10*j)
其中,j 是满足条件的最小整数。
例如 假定A 的值由-986到917,A 的最大绝对值为986,为使用小数定标标准化,我们用1000(即,j=3)除以每个值,这样,-986被规范化为-0.986。
注意,标准化会对原始数据做出改变,因此需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化。
除了上面提到的数据标准化外还有对数Logistic 模式、模糊量化模式等等:
对数Logistic 模式:新数据=1/(1+e^(-原数据) )
模糊量化模式:新数据=1/2+1/2sin[派3.1415/(极大值-极小值)*(X-(极大值-极小值)/2) ] X为原数据
如何用spss对数据进行标准化处理《最新》
如何用SPSS对据对行对准化对理,数
数据小兵 对表于 2013-07-03 10:06 源,来数据小兵 对对, 859次
对行多元对对分析对~我对往往要收集不同量对的据~比如对对对;万元,~利对率;百分,。对表对对对量在量对和对量对位上的差对~而使数售数数从得各对量之对不具有对合性~而多元分析方法大多对对量要特殊的要求~比如符合正对分布或者对量之对具有可比性。对对就必对采用某对方法对各个
对量对对行对准化对理~或者叫无量对化对理~解各对不具对合性的对对。数决数
SPSS 提供了方便的据对准化方法~对里只介对很数Z对准化方法。每一对量对其平均对之差除以对对量的对准差。无量对化后各对量的平均对对即与0~对准差对1~而消除量对和量对的影。对方法是目前多对量对合分析中使用最多的一对方法。在原始据呈正对分布的情下~利用对方从数响数况
法对行据无量对对理是对合理的。数
SPSS的对对步对,对例
【1】分析描述对对描述————
【2】对出“描述对对”对对~首先准对对准化的对量移入对量对中~此对~最重要的一步就是勾对“对准化得分存对对量”~最后点对定。框将将另确
【3】返回SPSS的“据对对”~此对就可以看到新增了对准化后据的字段。基于此字段可以做其他分析。数数