范文一:数据挖掘论文(聚类分析及其应用)
聚类
内容摘要: 姓名:周建刚 学号:2009018397 班级:信息091
本文主要阐述了聚类方法及在金融投资、股市、证券投资等方面的一些应用。运用聚类分析模型帮助投资者正确的理解和把握金融投资、股票、证券投资的总体特征,确定投资范围,并通过类的总体价格水来预测金融投资、股票价格、证券投资的变动趋势,选择有利的投资时机。
关键字:
聚类分析 金融投资 聚类方法 股市投资 证券投资 应用
正文:
聚类分析将物理或抽象对象的集合分成为由类似的对象组成的多个类的过程称为聚类。聚类分析WEB个性化应用的一种重要技术手段。作为一种无示例学习,它不需要预先定义类的特点或属性,而是从用户的访问行为中发现潜在性的知识(类或群),从而能更好的体现智能性。【3】聚类分析是对数据对象进行分类,把一组数据对象分到不同簇中。簇是一组数据对象的集合,簇内各对象间具有较高的相似度,而不同组的对象差别较大。它具有这样的性质:在同一个簇中的数据对象彼此相似;不同簇的数据对象差别很大。
聚类分析在金融投资类方面有很大的研究价值。聚类分析和方差分析相结合进行投资分析,对股票的收益性,成长性等方面进行分析,建立较为合理的指标体系,衡量样本股票的“相似程度”,再通过聚类分析为投资者确定投资范围和投资价值。结果表明该方法能帮助投资者准确了解和把握股票的总体特性,预测股票的成长能力,使投资者做出最佳的投资决策。实验研究表明此方法在金融投资分析中具有有效性和实用性。
不仅是在金融投资,在股市等方面也具有很在的研究价值。股票涨价的无常,股市的变幻莫测,投资者要想在股市投资中赢取丰厚的回报,成为一个成功的投资者,就得认真研究上市公司的历史业绩和发展前景,详细分析上市公司的财务情况,对上市公司的股票价值进行合理运算。聚类分析是一种行之有效的指导证券投资的方法。运用聚类分析模型能帮助投资者正确的理解和把握股票的总体特征,确定投资范围,并通过类的总体价格水来预测股票价格的变动趋势,选择有利的投资时机。
下面我用一个实例应用来具体观察聚类分析在前面所说的这些方面的应用。我们先假设用户A{a1,a2,??,am}向用户B{b1,b2,??,bn}推荐资源。按次序取得用户B的
最后一个关键词类bn(即用户目前感兴趣的资源类),在权威用户的资源类中找到和bn资源类中最相似的资源类ai。我们用余弦相似度计算bn和ai最相似的
类
k
sim( bn , ai) =bn ? aj
||bn|| ||aj || ?b=ni找到maxsim(bn,ai)
权威用户中越是相似类的近邻后继知识推荐的可能性越大, 因此推荐列表中增加一个后继知识度分量。若资源j 属于关键词集合k,
wt?|k?i|m?i;pa,j?wt*pa,j
推荐值排名在前N 位的, 成为用户的最终推荐列表,推荐给用户。
聚类方法目前各类文献中提出了众多聚类算法可供选择,主要的有划分方法、层次方法、基于密度的方法、基于网格的方法及基于模型的方法等。划分方法是给定要构建的划分的数目K,首先创建一个初始划分,然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。一个好的划分的准则是:在同一类中的对象之间尽可能接近或相关,而不同类中的对象之间尽可能远离或不同。为了达到全局最优,基于划分的聚类穷举了所有可能的划分;层次方法层次的方法是对给定的数据对象集合进行层次的分解。层次方法有两种分解形式:凝聚和分裂。凝聚方法也称为自底向上的方法,初始将每个对象作为单独的一个组,然后相继地合并相近对象或组,直到所有的组合并为一个层次的最顶层),或者达到一个中止条件。分裂方法也称为自顶向下法,初始将所有的对象置于一个组中,在迭代的过程中,一个组被分裂为更小的组,直到最终每个对象在单独的一个组中,或者达到一个中止条件。
我们再举个例子。设有n 个样品,p 个指标,每个样品都有这p 个指标的观察值,设第 I 个样品的第j个指标的观察值为xij,把n个样品看成P维空间中的n个点,则两个样品间亲疏程度可用P维空间中两点的距离来度量。令dij表示样品xi与xj的距离。定义距离公式,本文采用明氏距离。
p
明氏(Minkowski)距离:dij(q)=
当q=1时,明氏距离变为绝对距离: [?|xik?xjk|]k?1q1/q
dij(1)=?|x
k?1pik?xjk|
当q=2时,明氏距离变为欧式距离:
n
dij(2)=[?|xik?xjk|]
k?121/2
| 当q=?,明氏距离变为切比雪夫距离: dij(?)=max|xik?xjk
系统聚类除了要定义事物之间的亲疏程度指标,还要定义类与类之间亲疏程度指标并且要导出求取类间亲疏指标值的递推公式。系统聚类初始,先把所有待分类事物各自看成独立的一类,求出两两之间的亲疏指标值,把关系最为亲密的两类合并成一个新类,然后计算新类与原有各类之间的亲疏指标值,再把其中关系最为密切的两类合并??如此反复进行,直到最终所有待分类事物合并成一个大类为止。最终绘成一幅系统聚类的谱系图,再根据一定的原则确定最终分类结果。
当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析能够帮助我们发现特征迥异的不同用户群,和对用户分群起关键作用的指标变量,并辅助信息服务机构对各用户群的特征进行深刻洞察。
参考文献:
[1]陈共,周升业,吴晓求.证券投资分析[M].北京:中国人民大学出版社,1997.
[2]杨震,邓贵仕,李朝辉,等.信息服务个性化过程中的模式识别[J].东南大学学报,2002,4(10):67-70.
[3]郭家义.数字图书馆个性化定制服务相关问题研究[J].图书情报工作,2003,(4):9-11.
[4]李雪梅.基于语义的个性化web搜索[J].情报杂志,2003,(3).
[5]申瑞民,舒蓓,张同珍.个性化数字服务模型[J].微电子学与计算机,2001,(1):14-18.
[6]高凤荣.个性化推荐系统关键技术研究[D].人民大学博士论文,2003.11.
[7]李勇.基于WEB挖掘的个性化研究[D].南京大学博士论文,2004.
[8]邓秀勤.聚类分析在股票市场板块分析中的应用[J].数理统计与管理,1999,18(5):1-4.
范文二:聚类分析及MATLAB应用
聚类分析 人类认识世界往往首先将被认识的对象进行分类,聚类分析是研
究分类问题的多元数据分析方法,是数值分类学中的一支。 多元数据形成数据矩阵,见下表1。在数据矩阵中,共有n个样
品 (列向),p个指标(行向)。聚类分析有两种类
型:按样品聚类或按变量(指标)聚类。
表1 数据矩阵
样品
指标
xxxx,,...,,...,12jn
xxxx......x112111jn1
xxxxx......2122222jn
xp12ppjpnpxxxx......
聚类分析的基本思想是在样品之间定义距离,在变量之间定义相
似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程
度的大小,将样品(或变量)逐一归类,关系密切的类聚到一个小的
分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,
直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱
系图,依次按照某些要求对样品(或变量)进行分类。
用样品点之间的距离来衡量各样品之间的相似性程度(或靠近程
dxx(,)xx,是样品 之间的距离,一般要求它满足下列条件: ijij
度)。设1)(,)0,(,)0;dxxdxxxxijijij
2)(,)(,);dxxdxxijji
3)(,)(,)(,).dxxdxxdxxijikkj
在聚类分析中,有些距离不满足3),我们在广义的角度上仍称
它为距离。
1.1 欧氏距离
1p22 dxxxx(,)()ijikjkk11.2 绝对距离
p
dxxxx(,)|| ijikjkk11.3 Minkowski 距离
1pmm dxxxx(,)()ijikjkk11.4 Chebyshev距离
dxxxx(,)max|| ijikjk1kp1.5 方差加权距离
12p2()xxikjkdxx(,) ij2sk1k
nn1122其中 xxsxx,(). ikkikkii11nn11.6 马氏距离
1T12dxxxxSxx(,)()() ijijij
其中 S 是由样品xxxx,,...,,...,算得的协方差矩阵: 12jn
nn11TxxSxxxx,()() iiiiinn111
样品聚类通常称为Q型聚类,其出发点是距离矩阵。
当对p个指标变量进行聚类时,用相似系数来衡量变量之间的相
似程度(或关联程度)。一般地,若 cxx,表示变量之间的相似系
数,应满足:
1)||11;cc
2)1(0);cxcxc
3).cc
cxx,的绝对值越接近于1,说明变量 的关联越大。
相似系数中最常用的是相关系数与夹角余弦。 2.1 相关系数
变量xx,之间的相关系数定义为:
n
()()xxxxiisi1r, nnss22ii()()xxxxii11
事实上,rxx,是变量的观测值
TT (,,...,)(,,...,)xxxxxxnn1212
之间的相关系数。
2.2 夹角余弦
变量TTxx,的观测值 ,其夹角余(,,...,)(,,...,)xxxxxxnn1212
弦定义为:
nxxiii1c nn22xxiiii11
变量聚类通常称为 R 型聚类。在 R 型聚类中,相似系数矩阵 C 是出发点,相似系数矩阵可以是相关矩阵,也可以是夹角余弦矩阵。
这里所介绍的是样品的谱系聚类法。
为简单起见,以i,j分别表示样品
xx,,以d简记i,j之间的ijij距离dxx(,)。G,G分别表示两个类,设它们分别含有n,n个ijpqpq样品。若类G中有样品,则其均值 xxx,,...,p12np
np1xx pin1ip
称为类 G 的重心。类G与G之间的距离记为 D,有多种多样ppqpq定义方式。
1.1 最短距离
Ddmin pqijiGjG,pq
1.2 最长距离
Ddmax pqij,iGjGpq
1.3 类平均距离
1 DdpqijnniGjGpqpq
1.4 重心距离
Ddxx(,) pqpq
1.5 离差平方和距离
nnpq2T Dxxxx()()pqpqpqnnpq
按照谱系聚类法的思想,先将样品聚合成小类,在逐步扩大为大
类。设类 G由类G、G合并所得,则G包含n=n+n个样品。 rpqrrpq
问题:由G,G与其它类G(k?p,q)的距离计算G与G(kpqkrk
?p,q)的距离,即建立类间距离的递推公式。
2.1 最短距离
DDDmin{,} rkpkqk
2.2 最长距离
DDDmax{,} rkpkqk
2.3 类平均距离
nnpq DDDrkpkqknnrr
2.4 重心距离
nnnnpqpq2222 DDDDrkpkqkpqnnnnrrrr
2.5 离差平方和距离
nnnnnpkqk2222k DDDDrkpkqkpqnnnnnnrkrkrk
谱系聚类法的步骤如下:
n 个样品开始时作为 n 个类,计算两两之间的距离,构成
0...dd121n一个对称距离矩阵: dd0...212n D(0)
dd...0nn12
此时,D=d; pqpq
选择 D中的非对角线上的最小元素,设这个最小元素是 (0)
D。此时,G={},G={}。将G,G合并成一个新类 pqpqpqG={G,G}。在 D中消去G和G所对应的行与列,并加入有新rpq(0)pq类G与剩下的其它未聚合的类间的距离所组成的一行和一列,得到r
一个新的距离矩阵D,它是n-1阶方阵; (1)
从 D出发重复 Step2 的作法得 D,再由D出发重复(1)(2)(2)
上述步骤,直到n个样品聚为1个大类为止;
: 在合并过程中要记下合并样品的编号及两类合并时的水平(即
距离)并绘制聚类谱系图。
用谱系聚类法聚类时,聚多少类合适,这是一个实际的问题。一
个较好的聚类应该在类内阁样品尽可能相似的前提下,使得类的个数
尽可能少。这里需要考虑谱系距离用到的统计量,利用它们,可以在
一定程度上判别聚多少类为合适。
设谱系得第 G 层共有G个类,定义
nGTTxxxxPS()(), iiGkik11
n1T其中 为G的重心,S越()(),,SxxxxxxxkkkikikikniGi1k
小,说明G中各样品越相似。 k
2定义 R 统计量如下:
2RPT1/ G
22R总是随着分类数目的减少而减小,可以从R值的变化看n个样品
2分成几类最合适。比如,分为5类以前各类的R减小较缓慢;假定
22分为5类时,R=0.85,而下一次合并,即分为4类时R减小较快,2如R=0.35,则认为分为5类较合适。
这一统计量与离差平方和距离有关。设类 G,G的离差平方和pq分别是
TT SxxxxSxxxx()(),()(),pipipqiqiqiGiGpq
将 G,G合并成G后的离差平方和为 pqr
T Sxxxx()(),riririGr
合并后的离差平方和增量为
nnnn2pqpqT WSSSxxxxxx()()pqrpqpqpqpqnnrr
定义半偏相关统计量为:
SPRSQWT/ pq
22SPRSQ是上一步R值与该步R值的差值,当SPRSQ值越大时,说明上一次合并效果越好。
()/(1)TPGGPSF 伪F统计量 PSF是 PnG/()G
PSF值越大表示这些观测可显著地分为 G 个类。
设S2,S,W的含义如前所述,定义伪 t 统计量为 pqpq
Wpq PST2()/(2)SSnnpqpq
PST2大,说明合并G,G为G后,使得离差平方和的增量pqr
W相对于原G,G的类内离差平方和大。这表明合并的两个类G,pqpqp
G是很分开的,也就是上一次聚类效果较好。 q
参见:范金城,梅长林. 数据分析(P228-241).北京:科学出版社。
为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见下表1。使用该原始数
据对国别进行聚类分析。
表1 抽样数据表
国别 森林面积(万公顷) 森林覆盖林木蓄积量(亿立方米) 草原面积
率(%) (万公顷)
中国 11978 12.5 93.5 31908 美国 28446 30.4 202.0 23754 日本 2501 67.2 24.8 58 德国 1028 28.4 14.0 599 英国 210 8.6 1.5 1147 法国 1458 26.7 16.0 1288 意大利 635 21.1 3.6 514 加拿大 32613 32.7 192.8 2385 澳大利10700 13.9 10.5 45190 亚
前苏联 92000 41.1 841.5 37370 捷克 458 35.8 8.9 168 波兰 868 27.8 11.4 405 匈牙利 161 17.4 2.5 129 南斯拉929 36.3 11.4 640 夫
罗马尼634 26.7 11.3 447 亚
保加利385 34.7 2.5 200 亚
印度 6748 20.5 29.0 1200 印尼 2180 84.0 33.7 1200 尼日利1490 16.1 0.8 2090 亚
墨西哥 4850 24.6 32.6 7450 巴西 57500 67.6 238.0 15900
Matlab提供了两种方法进行聚类分析。
一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为
可供用户选择的面较窄,不能更改距离的计算方法; 另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非
相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。
1.1 pdist函数
调用格式:Y=pdist(X,’metric’)
说明:用 ‘metric’指定的方法计算 X 数据矩阵中对象之间
的距离。’
X:一个m×n的矩阵,它是由m个对象组成的数据集,
每个对象的大小为n。
metric’取值如下:
‘euclidean’:欧氏距离(默认);‘seuclidean’:标准化
欧氏距离;
‘mahalanobis’:马氏距离;‘cityblock’:布洛克距离;
‘minkowski’:明可夫斯基距离;‘cosine’:
‘correlation’: ‘hamming’:
‘jaccard’: ‘chebychev’:
Chebychev距离。
1.2 squareform函数
调用格式:Z=squareform(Y,..)
说明: 强制将距离矩阵从上三角形式转化为方阵形式,或从
方阵形式转化为上三角形式。
1.3 linkage函数
调用格式:Z=linkage(Y,’method’)
说 明:用‘method’参数指定的算法计算系统聚类树。
Y:pdist函数返回的距离向量;
method:可取值如下:
‘single’:最短距离法(默认); ‘complete’:最长距离法;
‘average’:未加权平均距离法; ‘weighted’: 加权平均法;
‘centroid’: 质心距离法; ‘median’:加权质心距离法;
‘ward’:内平方距离法(最小方差算法)
返回:Z为一个包含聚类树信息的(m-1)×3的矩阵。 1.4 dendrogram函数
调用格式:[H,T,…]=dendrogram(Z,p,…)
说明:生成只有顶部p个节点的冰柱图(谱系图)。 1.5 cophenet函数
调用格式:c=cophenetic(Z,Y)
说明:利用pdist函数生成的Y和linkage函数生成的Z计算
cophenet相关系数。
1.6 cluster 函数
调用格式:T=cluster(Z,…)
说明:根据linkage函数的输出Z 创建分类。
1.7 clusterdata函数
调用格式:T=clusterdata(X,…)
说明:根据数据创建分类。
T=clusterdata(X,cutoff)与下面的一组命令等价:
Y=pdist(X,’euclid’);
Z=linkage(Y,’single’);
T=cluster(Z,cutoff);
X=[11978 12.5 93.5 31908;…;57500 67.6 238.0 15900];
T=clusterdata(X,0.9)
4x 10
4
3.5
3
2.5
2
1.5
1
0.5
0 71512 414111613 5 61819 31720 1 9 2 82110
谱系图
分类结果:
Step1 寻找变量之间的相似性
用pdist函数计算相似矩阵,有多种方法可以计算距离,进
行计算之前最好先将数据用zscore函数进行标准化。
X2=zscore(X); %标准化数据
Y2=pdist(X2); %计算距离 Step2 定义变量之间的连接
Z2=linkage(Y2);
Step3 评价聚类信息
C2=cophenet(Z2,Y2); //0.94698
Step4 创建聚类,并作出谱系图
T=cluster(Z2,6);
H=dendrogram(Z2);
4
3.5
3
2.5
2
1.5
1
0.5
0 41215 6 7131917111416 520 1 9 2 8 3182110
谱系图 分类结果:{加拿大},{中国,美国,澳大利亚},{日本,印尼},{巴
西},{前苏联}
剩余的为一类。,
2 2 4 3 3 3 3 1 2 6 3 3 3 3 3 3 3 4 3 3 5
范文三:模糊聚类分析应用
本科生毕业论文(设计)
( 2011 届)
论文(设计)题目 模糊聚类分析应用
作 者 舒海波
系、 专业 理学分院数学与应用数学
班 级 应数072 指导教师(职称) 何颖俞(讲师)
字 数 9403 字 成果完成时间 2011年4月10日
杭州师范大学钱江学院教学部制
模糊聚类分析应用
数学与应用数学专业0702班 指导教师何颖俞
摘要:模糊聚类简单而言就是把数据中的指标分类。本文利用的是最大树法对等价矩阵进行聚类,然后利用fcm法对相似矩阵的求法进行比较。 关键字:模糊聚类,等价矩阵,最大树,相似矩阵
The application of fuzzy clustering
Shuhaibo Instructor: HeYingYu
Abstract: Fuzzy clustering is a method to classify the given data based on some indexes. In this paper I use the method of the maximal tree to classify the equivalent matrix, and then use clustering analysis method of FCM to comparison the solutions of the similar matrices.
Key word: fuzzy clustering, equivalence matrix, the maximal tree, similar matrix
目录
1 绪论 ................................................................... 1 2模糊聚类分析方法 ........................................................ 1
2.1距离和相似系数 .................................................... 1 2.2 F相似关系 ....................................................... 2
2.2.1定义 ......................................................... 2 2.2.2 定理 ........................................................ 2 2.3 聚类分析 .......................................................... 3
2.3.1最大树法 ..................................................... 4
3算法分类 ................................................................ 4
3.1聚类方法的分类 .................................................... 5
3.1.1划分方法(partitioning method) .............................. 5 3.1.2层次方法(hierarchical method) ................................ 5 3.1.3基于密度的方法(density-based method) ......................... 5 3.1.4基于网格的方法(grid-based method) ............................ 5 3.1.5基于模型的方法(model-based method) ........................... 5 3.2.数据挖掘领域中常用的聚类算法 ..................................... 5
3.2.1 CLARANS算法(随机搜索聚类算法) ............................. 5 3.2.2 CURE算法(利用代表点聚类) .................................. 6 3.2.3 BIRCH算法(利用层次方法的平衡迭代归约和聚类) ............... 6 3.2.4 DBSCAN算法(基于高密度连接区域的密度聚类方法) .............. 6 3.2.5 STING算法(统计信息风格) ................................... 7 3.2.6 COBWEB算法(流行的简单增量概念聚类算法) .................... 7 3.2.6 模糊聚类算法FCM ............................................. 8 3.3 聚类算法的性能比较 ............................................... 8 4实际应用 ................................................................ 9 5总结 ................................................................... 13 参考文献: .............................................................. 13
致谢 .................................................................... 15 附录 .................................................................... 16
模糊聚类分析应用
数学与应用数学专业072班舒海波 指导教师何颖俞
1 绪论
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。 聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。
在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。
值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。本文主要介绍模糊聚类法。
2模糊聚类分析方法
2.1距离和相似系数
为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。
由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:
间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在间隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间隔尺度。
有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。
名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,
又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。
不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。
设有n个样品,每个样品测得p项指标(变量),原始资料阵为
x1 x2 ? xp
X1?x11
?X2x21
?X?
????Xn??xn1
x12x22?xn2
??
?
x1p?
?x2p
? ???xnp??
其中xij(i?1,?,n;j?1,?,p)为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品XK与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量xK与xL之间的相似性,可以通过第K列与第L列的相似程度来刻划。
2.2 F相似关系 2.2.1定义
设R?F(U?U),如果具有自反和对称关系,则称R为U上的一个F相似关系(F表示模糊) 当论域U为有限时,F相似关系可以用F矩阵表示。具有F相似关系的矩阵,称为F相似矩阵。在实际应用时,通常只能得到自反矩阵和对称举证,即相似矩阵。现在的问题是对具有相似关系的元素怎样进行分类,也就是如何将相似矩阵改造为等价矩阵。
2.2.2 定理
若RT?R,则称R为对称矩阵。(1)
若R?I(I是单位矩阵),则称R为自反矩阵。(2) 若R?R,则称R为传递的F关系。(3) 若满足上面三点则称为等价矩阵。
定理1:相似矩阵R?un?n的传递闭包是等价矩阵,且R?Rn。
?
?
2
证 只需要证明R是自反的、对称的。
因R是自反的,故R?I,R?R。不难得到R不减,因此R?反的。
因为R?R,(R)?(R)?R,故R是对称的。
有定理1可见,要想将相似矩阵改变为等价矩阵,只需求相似矩阵的传递闭包。 定理2:设R?un?n是自反矩阵,则任意自然数m?n,都有
T
n
T
T
n
n
2n
?
n
?R
k?1
k
?R?I,即R是自
n
?
?
m
R?R
?
证 由R自反性推得
R?R?...?R?...
2
n
当m?n时,有
?
?
n
m
kk?1
?
R?R?R??R?R
2.3 聚类分析
所谓聚类分析,就是用数学的方法对事物进行分类,它有广泛的实际应用。在模糊数学产生之
前,聚类分析已是数理统计多元分析的一个分支,然而现实的分类问题往往伴有模糊性。例如,环境污染分类、春天连阴雨预报、临床症状资料分类、岩石分类,等等。对这些伴有模糊性的聚类问题,用模糊数学语言来表达更为自然。 模糊聚类分析的步骤: 第一步 建立模糊相似关系。
设U?{u1,u2,?,un}为待分类的全体。其中每一待分类对象由一组数据表征如下:
ui?(xi1,xi2,...,xim)
现在的问题是如何建立ui和uj之间的相似关系。这有许多方法(这里选一些,列在下面),我们可以按照实际情况,选其中一种来求ui与uj的相似关系R(ui,uj)?rij。
数量积法
?1
?rij??1
?M?
当i?j
m
?x
k?1
ik
.xjk
当i?j
其中M为一适当选择之正数,满足
m
M?max(?xik.xjk)
i,j
k?1
相似系数法
m
?|x
rij?
ik
?i||xjk?j|
m
ik
1
其中 i?最大最小法
x?m
k?1
1
,j?
x?m
k?1
1
jk
m
?min(x
rij?
k?1mk?1
ik
,xjk)
ik
?max(x
算术平均最小法
m
,xjk)
?min(x
rij?
k?1
ik
,xjk)
1
m
ik
?xjk)
(x?2
k?1
几何平均最小法
m
?min(x
rij?
k?1
m
ik
,xjk)
?
k?1
绝对值指数法
m
?
rij?e
?|xik?xjk|
k?1
绝对值减数法
?1
?m
rij??
?1?c?|xik?xjk|
k?1?
当i?j当i?j
其中,c适当选取,使0?rij?1。
选择上述哪一个方法好,要按实际情况而定。在实际应用时,最好采用多种方法,选取分类最
符合实际的结果。
第二步 改造相似关系为等价关系。
由第一步得到的矩阵R一般只满足自反性和对称性,即R是相似矩阵,需将它改造成模糊等价
?,R?便是所求的模糊等价矩阵。通过R?便可对U进矩阵。为此,采用平方法求出R的传递闭包R
行分类。
2.3.1最大树法
在F相似矩阵R中,按rij的大小顺序依次用直线将元素连接起来,并标上权重。若在某一步出
现回路,便不画这一步,直到所有元素连通为止。这样,就得到一颗所谓的最大树(可以不唯一)。取定?,去掉权重低于?的连线,即可将元素分类,互相连通的元素归为一类。
3算法分类
聚类算法大体可以划分为以下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。
3.1聚类方法的分类
3.1.1划分方法(partitioning method)
给定一个包含n个数据对象或元组的数据库,一个划分方法构建数据的c个划分,每个划分表示一个簇,且c?n。通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,在不同簇中的对象是“相异的”。这些聚类方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。
3.1.2层次方法(hierarchical method)
层次方法对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向下形成,层次聚类的方法可以进一步分为凝聚的和分裂的。层次聚类方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成,形成多阶段聚类。
3.1.3基于密度的方法(density-based method)
提出了基于密度的聚类方法是为了发现任意形状的聚类结果。其主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。
3.1.4基于网格的方法(grid-based method)
基于网格的聚类方法采用一个多分辨率的网格数据结构。把对象空间量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。
3.1.5基于模型的方法(model-based method)
基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。基于模型的算法可能性通过构建反映数据点空间分布的密度函数来定位聚类。这种聚类方法试图优化给定的数据和某些数学模型之间的适应性。
3.2.数据挖掘领域中常用的聚类算法
3.2.1 CLARANS算法(随机搜索聚类算法)
划分方法中最早提出的一些算法大多对小数据集合非常有效,但对大的数据集合没有良好的可伸缩性,如PAM。CLARA是基于C-中心点类型的算法,能处理更大的数据集合。CLARA算法不考虑整个数据集合,而是随机的选择实际数据的一小部分作为样本,然后用PAM方法从样本中选择中心点。这样从中选出的中心点很可能和整个数据集合中选出的非常近似。重复此方法,最后返回最好的聚类结果作为输出。
CLARANS是CLARA算法的一个改进算法。不像CLARA那样每个阶段选取一个固定样本,它在搜索的每一步都带一定随机性的选取一个样本,在替换了一个中心点后得到的聚类结果被称为当前聚类结果的邻居,搜索的邻居点数目被用户定义的一个参数加以限制。如果找到一个比它更好的邻居,
则把中心点移到该邻居节点上,否则把该点作为局部最小量。然后,再随机选择一个点来寻找另一个局部最小量。该算法的计算复杂度大约是o(n),n是对象的数目。
3.2.2 CURE算法(利用代表点聚类)
CURE算法选择基于质心和基于代表对象方法之间的中间策略。该算法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向中心“收缩”它们,即合并两个距离最近的代表点的簇。它回避了用所有点或单个质心来表示一个簇的传统方法,将一个簇用多个代表点来表示,使CURE可以适应非球形的几何形状。另外,收缩因子降底了噪音对聚类的影响,从而使CURE对孤立点的处理更加健壮,而且能识别非球形和大小变化比较大的簇。CURE的复杂度是o(n),n是对象的数目。
3.2.3 BIRCH算法(利用层次方法的平衡迭代归约和聚类)
BIRCH是一个综合的层次聚类方法。它用聚类特征和聚类特征树(CF)来概括聚类描述。描述如下:
对于一具有N个d维数据点的簇{xi }(i=1,2,3,…,N),它的聚类特征向量定义为: ?
CF = (N, LS, SS)
?
其中N为簇中点的个数;LS表示N个点的线性和(?
N?2
点的平方和(?i?1oi),反映了类直径的大小。
?
Ni?1
?
oi),反映了簇的重心,SS是数据
此外,对于聚类特征有如下定理:
??
定理1 假设CF1?(N1,LS1,SS1)与CF2?(N2,LS2,SS2)分别为两个类的聚类特征,合并后
的新类特征为
CF1?CF2?(N1?N2,LS1?LS2,SS1?SS2)
该算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。
CF树是一个具有两个参数分支因子B和阈值T的高度平衡树,它存储了层次聚类的聚类特征。 分支因子定义了每个非叶节点孩子的最大数目,而阈值给出了存储在树的叶子节点中的子聚类的最大直径。CF树可以动态的构造,因此不要求所有的数据读入内存,而可在外存上逐个读入数据项。一个数据项总是被插入到最近的叶子条目(子聚类)。如果插入后使得该叶子节点中的子聚类的直径大于阈值,则该叶子节点及可能有其他节点被分裂。新数据插入后,关于该数据的信息向树根传递。可以通过改变阈值来修改CF树的大小来控制其占内存容量。BIRCH算法通过一次扫描就可以进行较好的聚类,故该算法的计算复杂度是o(n),n是对象的数目。
3.2.4 DBSCAN算法(基于高密度连接区域的密度聚类方法)
DBSCAN算法可以将足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。该算法定义簇为密度相连的点的最大集合。 基于密度的聚类的基本思想有以下一些定义: · 给定对象半径?内的区域为该对象的?-邻域
· 如果一个对象的?-邻域至少包含最小数目MinPts个对象,则称该对象为核心对象。
??
· 给定一个对象集合D,如果p是在q的?-邻域内,而q是一个核心对象,则称对象p从对象q
出发是直接密度可达的。
· 如果存在一个对象链p1,p2,?,pn,p1?q,pn?p, 对pi?D,(1?i?n),pi?1是从pi关于?和MinPts直接密度可达的,则对象p是从对象q关于?和MinPts密度可达的。
· 如果对象集合D中存在一个对象o,使得对象p和q是从o关于?和MinPts密度可达的,那么
对象p和q是关于?和MinPts密度相连的。
DBSCAN通过检查数据库中每个点的?-邻域来寻找聚类。如果一个点p的?-邻域包含多于MinPts个点,则创建一个以p作为核心对象的新簇。然后反复地寻找从这些核心对象直接密度可达的对象,当没有新的点可以被添加到任何簇时,该过程结束。不包含在任何簇中的对象被认为是“噪声”。如果采用空间索引,DBSCAN的计算复杂度是O(nlogn),这里n是数据库中对象数目。否则,计算复杂度是O(n2)。
3.2.5 STING算法(统计信息风格) STING(Statistaical Information Grid_based method)是一种基于风格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。高层单元的统计参数可以很容易地从低层单元的计算得到。这些参数包括:属性无关的参数count;属性相关的参数m(平均值),s(标准偏差),min(最小值),max(最大值),以及该单元中属性值遵循的分布(distribution)类型。
STING算法中由于存储在每个单元中的统计信息提供了单元中的数据不依赖于查询的汇总信息,因而计算是独立于查询的。该算法主要优点是效率高,且利于并行处理和增量更新。STING扫描数据库一次来计算单元的统计信息,因此产生聚类的时间复杂度是O(n),基中n是对象的数目。在层次结构建立后,查询处理时间是O(g),g是最低层风格单元的数目,通常远远小于n。
3.2.6 COBWEB算法(流行的简单增量概念聚类算法)
概念聚类是机器学习中的一种聚类方法,大多数概念聚类方法采用了统计学的途径,在决定概念或聚类时使用概率度量。COBWEB以一个分类树的形式创建层次聚类,它的输入对象用分类属性-值对来描述。
分类树和判定树不同。分类树中的每个节点对应一个概念,包含该概念的一个概率描述,概述被分在该节点下的对象。概率描述包括概念的概率和形如P(Ai?Vij|Ck)的条件概率,这里Ai?Vij是属性-值对,Ck是概念类。在分类树某层次上的兄弟节点形成了一个划分。COBWEB采用了一个启发式估算度量——分类效用来指导树的构建。分类效用定义如下:
?
nk?1
P(Ck)[?
i
?
j
P(Ai?Vij|Ck)?
n
2
??
i
j
P(Ai?Vij)]
2
n是在树的某个层次上形成一个划分{C1,C2,?,Cn}的节点、概念或“种类”的数目。分类效
用回报类内相似性和类间相异性:
? 概率P(Ai?Vij|Ck)表示类内相似性。该值越大,共享该属性-值对的类成员比例就越大,更能
预见该属性-值对是类成员
? 概率P(Ck|Ai?Vij)表示类间相异性。该值越大,在对照类中的对象的共享该属性-值对就 少,更能预见该属性-值对是类成员
给定一个新的对象,COBWEB沿一条适当的路径向下,修改计数,寻找可以分类该对象的最好节点。该判定基于将对象临时置于每个节点,并计算结果划分的分类效用。产生最高分类效用的位置应当是对象节点的一个好的选择。
3.2.6 模糊聚类算法FCM
以上介绍的几种聚类算法可以导出确定的聚类,也就是说,一个数据点或者属于一个类,或者不属于一个类,而不存在重叠的情况。我们可以称这些聚类方法为“确定性分类”。在一些没有确定支持的情况中,聚类可以引入模糊逻辑概念。对于模糊集来说,一个数据点都是以一定程度属于某个类,也可以同时以不同的程度属于几个类。常用的模糊聚类算法是模糊C平均值FCM(Fuzzy C-Means)算法。该算法是在传统C均值算法中应用了模糊技术。
FCM算法中,用隶属度函数定义的聚类损失函数可以写为:
c
n
j
J
f
?
??[?
j?1i?1
(xi)]||xi?mj||, (3-1)
b2
其中, b?1是一个可以控制聚类结果的模糊程度的常数。要求一个样本对于各个聚类的隶属度之和为1,即
c
??j(xi)?1, i?1,2,?,n (3-2)
j?1
在条件式(3-2)下求式(3-1)的极小值,令Jf对mi和?j(xi)的偏导数为0,可得必要条件:
n
?[?
mj?
i?1n
j
(xi)]xi
b
, j?1,2,?,c, (3-3)
j
?[?
i?1
(xi)]
b
?j(xi)?
(1/||xi?mj||)
c
21/(b?1)
, i?1,2,?,n j?1,2,?,c。 (3-4)
1/(b?1)
?(1/||x
k?1
i
?mk||)
2
用迭代法求解式(3-3)和式(3-4),就是FCM算法。
当算法收敛时,就得到了各类的聚类中心和各个样本对于各类的隶属度值勤,从而完成了模糊聚类划分。
3.3 聚类算法的性能比较
基于上述的分析,下面对常用聚类算法的性能从可伸缩性、发现聚类的形状、对“噪声”的敏感性、对数据输入顺序的敏感性、高维性和算法效率六个方面进行比较,如表1所示。
表1 聚类算法比较
可伸缩发现聚类的性 形状 好 较差 较差 好 较好 较好
凸形或球形 任意形状 凸开或球形 任意形状 任意形状 任意形状
对“噪声”对数据输入的敏感性 顺序的敏感
性
CLARANS CURE
BIRCH STING DBSCAN COBWEB
不敏感 不敏感 一般 不敏感 不敏感 一般
非常敏感 敏感
不太敏感 不敏感 敏感 敏感
一般 好 好 好 一般 好
较低 较高 高 高 一般 较低
高维性
算法 效率
好 任意形状 敏感 不敏感 好 较高 FCM
由于数据挖掘在不同领域的应用对聚类算法提出了各自特殊的要求,表1则可以给聚类算法的研究和应用的选择提供参考。
4实际应用
具体问题如下:城市居民消费水平通常用x1:人均粮食支出(元/人),x2:人均副食支出(元/人),x3:人均烟、酒、饮料支出(元/人),x4:人均其他副食支出(元/人),x5:人均衣着支出(元/人),x6:人均日用杂品支出(元/人),x7:人均水电燃料支出(元/人),x8:人均其他非商品支出(元/人)。八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是指标聚类。原始数据列于表2
总相似矩阵的求法,相同的题目选取不同求相似矩阵的方法会有不同的聚类结果,因此方法的选取非常重要,要找出其中最好的一种,则要算出所有的相似矩阵然后聚类得到聚类结果,再对结果进行比较,找出最好的聚类结果。由于其中的步骤都是一样的,这边只选取两种相似关系的求法进行比较。选取的两种相似算法分别是相似系数法,绝对值减数法。
用相似系数法得到的相似矩阵如下(表3)
表3
用绝对值减数法得到相似矩阵如下(表4):
其次对所求的相似矩阵进行改造使其成为等价矩阵
表4
把相似系数法得到的相似矩阵改造成等价矩阵(表5)
表5
把绝对值减数法得到的相似矩阵改造成等价矩阵(表6)
用最大树法对表5中的等价矩阵进行聚类,得到下图:
图1 图2
图3 图4
对表6中的等价矩阵用最大数法进行聚类得到下图:
图5 图6
图7 图8
用fcm法对上面的两个相似关系进行比较,利用matlab求解得到了表2的fcm聚类图
图9
可以看出它与绝对值减数法得到相似矩阵然后得到的聚类是一样的,所以在这一例题中用绝对值减数法是较好的。
现在来考虑一下实际的问题,x8是人均其他商品,因为这是一个不确定的可有可无的,所以它被归为一类,显然是合理的,x5衣着与其他的一些食品也存在着较大的区别,所以归为一类也较为合理,而x2与其他的相关性已经不叫强了,可能是出于数据问题,所以也被归为了一类。
5总结
模糊聚类相似矩阵的求法不同会出现决然不同的结果,所以在选取相似矩阵的算法时要慎重,其中绝对值减数法是一个比较好的相似矩阵算法,但是要注意的是它不是万能算法,同样的最好用别的方法来对其进行对照,我这里应用的是fcm法,主要是fcm比较稳定适用范围大,当然也可以用别的方法,比如我上面提到过的CLARANS算法,也是一个比较好的算法。到底采用上面方法还是要看具体的问题,进行恰当的分析。
参考文献:
[1] Chan K P , Cheung Y S. Clustering of clusters[J] . Pattern Recognition ,1992 ,25(2) :211 - 217 [2] Nikhil R. Pal, Kuhu Pal, James M. Keller, and James C. Bezdek. A Possibilistic Fuzzy c-Means
Clustering Algorithm IEEE TRANSACTIONS ON FUZZY SYSTEMS, VOL. 13, NO. 4, AUGUST 2005 1 - 14
[3] 张斌,刘增良,余达太,黄洪 基于粗糙集和模糊聚类的政务本体学习模型 计算机工程与应
用 2010,46(25)1-4
[4] 赵建文 基于模糊聚类的车内空气质量评价 浙江海洋学院学报(自然科学版) 第29 卷第4 期
2010 年7 月 1-4
[5] 张秀梅,王涛 模糊聚类分析方法在学生成绩评价中的应用[J]渤海大学学报:自然科学版,
2007,28(2) 169-172.
[6] 叶海军.模糊聚类分析技术及其应用研究[D].合肥工业大学,2006.
[7]汤效琴,戴汝源 数据挖掘中聚类分析的技术方法 宁夏大学学报 2006.7 [8]吴柏林 模糊统计导论方法与应用 五南图书出版公司 2005
[9]高新波 模糊聚类分析及其应用 西安电子科技大学也出版社 2004
[10]杨纶标,高英仪 模糊数学原理及应用 华南理工大学出版社 2005.6 52-77
致谢
此片论文得以完成,首先要感谢张小华老师的细心指导。何老师开阔的视野,为我提供了极大的发挥空间,在这段时间里让我明白了做任何事情要严谨细致、一丝不苟,对人要宽容、宽厚,何老师宽厚待人的学者风范更是令我无比感动。
感谢各位老师在这几年一直在生活中、组织上给予我的教导和无私的帮助,让我在河北化工医药职业技术学院这个大舞台上有锻炼的能力、自我完善的平台。
在此文即将完成之际,我衷心的感谢在此过程中帮助过我的每个人,在这里请接收我最诚挚的谢意!由于时间仓促、自身等原因,文章错误疏漏之处在所难免,恳请各位老师斧正。
附录
Matlab:
相似系数法求相似矩阵:
xp=x/31; for i=1:8 for j=1:8 s2(i,j)=0; s=0; s1=0; for k=1:31
s2(i,j)=s2(i,j)+abs(A(k,i)-xp(i))*abs(A(k,j)-xp(j)); s=s+(A(k,i)-xp(i))^2; s1=s1+(A(k,j)-xp(j))^2; end
b2(i,j)=s2(i,j)/(s^(1/2)*s1^(1/2)); end end
绝对值减数法求相似矩阵:
A=data; i=1:8;
x(i)=sum(A(:,i)); for i=1:8 for j=1:8 s(i,j)=0; for k=1:31
s(i,j)=s(i,j)+abs(A(k,i)-A(k,j)); end
d(i,j)=s(i,j)^(1/2); b7(i,j)=1-(d(i,j))/100; end end
对相似矩阵就等价矩阵:
for i=1:8 for j=1:8 for k=1:8
g(k)=min(b(i,k),b(k,j)); end
T(i,j)=max(g); end end while T~=b
for i=1:8
for j=1:8
for k=1:8
g(k)=min(T(i,k),T(k,j));
end
T(i,j)=max(g);
end
end
end
fcm程序:
1.
function f = addr(a,strsort)
if nargin==1
strsort='ascend';
end
sa=sort(a); ca=a;
la=length(a);f(la)=0;
for i=1:la
f(i)=find(ca==sa(i),1);
ca(f(i))=NaN;
end
if strcmp(strsort,'descend')
f=fliplr(f);
end
2.
function ellipse(a,b,center,style,c_3d)
if nargin
style='b';
end
if nargin
center=[0,0];
end
t=1:360;
x=a/2*cosd(t)+center(1);
y=b/2*sind(t)+center(2);
if nargin>4
plot3(x,y,ones(1,360)*c_3d,style)
else
plot(x,y,style)
end
3.
function fcmplot(Data,U,P,Obj_Fcn)
[C,S] = size(P); res = maxrowf(U);
str = 'po*x+d^v>
figure(1),plot(Obj_Fcn)
title('??±êoˉêy?μ±??ˉ?ú??','fontsize',8)
if S==2
figure(2),plot(P(:,1),P(:,2),'rs'),hold on
for i=1:C
v=Data(find(res==i),:);
plot(v(:,1),v(:,2),str(rem(i,12)+1))
v
ellipse(max(v(:,1))-min(v(:,1)), ...
max(v(:,2))-min(v(:,2)), ...
[max(v(:,1))+min(v(:,1)), ...
max(v(:,2))+min(v(:,2))]/2,'r:')
end
grid on,title('2D ??àà?á1?í?','fontsize',8),hold off
end
if S>2
figure(2),plot3(P(:,1),P(:,2),P(:,3),'rs'),hold on
for i=1:C
v=Data(find(res==i),:);
plot3(v(:,1),v(:,2),v(:,3),str(rem(i,12)+1))
ellipse(max(v(:,1))-min(v(:,1)), ...
max(v(:,2))-min(v(:,2)), ...
[max(v(:,1))+min(v(:,1)), ...
max(v(:,2))+min(v(:,2))]/2, ...
'r:',(max(v(:,3))+min(v(:,3)))/2)
end
grid on,title('3D ??àà?á1?í?','fontsize',8),hold off
end
4.
function
[U,P,Dist,Cluster_Res,Obj_Fcn,iter]=fuzzycm2(Data,P0,plotflag,M,epsm) if nargin
epsm=1.0e-6;
end
if nargin
M=2;
end
if nargin
plotflag=0;
end
[N,S] = size(Data); m = 2/(M-1); iter = 0;
C=size(P0,1);Dist(C,N)=0;U(C,N)=0;P(C,S)=0;
iter=iter+1;
for i=1:C
for j=1:N
Dist(i,j)=fuzzydist(P0(i,:),Data(j,:));
end
end
U=1./(Dist.^m.*(ones(C,1)*sum(Dist.^(-m))));
Um=U.^M;
P=Um*Data./(ones(S,1)*sum(Um'))';
if nargout>4 | plotflag
Obj_Fcn(iter)=sum(sum(Um.*Dist.^2));
end
if norm(P-P0,Inf)
break
end
P0=P;
end
if nargout > 3
res = maxrowf(U);
for c = 1:C
v = find(res==c)
Cluster_Res(c,1:length(v))=v;
end
end
% ??í?
if plotflag
fcmplot(Data,U,P,Obj_Fcn);
end
5.
function [U,P,Dist,Cluster_Res,Obj_Fcn,iter]=fuzzycm(Data,C,plotflag,M,epsm) if nargin
epsm=1.0e-6;
end
if nargin
M=2;
end
if nargin
plotflag=0;
end
[N,S]=size(Data);m=2/(M-1);iter=0;
Dist(C,N)=0; U(C,N)=0; P(C,S)=0;
U0 = rand(C,N);
U0=U0./(ones(C,1)*sum(U0));
iter=iter+1;
Um=U0.^M;
P=Um*Data./(ones(S,1)*sum(Um'))';
for i=1:C
for j=1:N
Dist(i,j)=fuzzydist(P(i,:),Data(j,:));
end
end
U=1./(Dist.^m.*(ones(C,1)*sum(Dist.^(-m))));
if nargout>4 | plotflag
Obj_Fcn(iter)=sum(sum(Um.*Dist.^2));
end
if norm(U-U0,Inf)
break
end
U0=U;
end
if nargout > 3
res = maxrowf(U);
for c = 1:C
v = find(res==c);
Cluster_Res(c,1:length(v))=v;
end
end
if plotflag
fcmplot(Data,U,P,Obj_Fcn);
end
6.
function D=fuzzydist(A,B)
D=norm(A-B);
7. function mr=maxrowf(U,c)
if nargin
c=1;
end
N=size(U,2);mr(1,N)=0;
for j=1:N
aj=addr(U(:,j),'descend');
mr(j)=aj(c);
end
8.
Data=data';
C=4;
plotflag=1;
M=1.5;
epsm=0.01;
[U,P,Dist,Cluster_Res,Obj_Fcn,iter]=fuzzycm(Data,C,plotflag,M,epsm);
范文四:聚类分析应用范例
安徽工程大学本科
课程设计(论文)
专 业: 题 目: 基于聚类分析方法的农村消费状况探索 作 者 姓 名: *** 指 导 老 师: 成 绩:
年 月 日
摘 要
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析被广泛应用于自然学科和社会科学的各个学科,已经成为人们解决实际问题不可或缺的重要工具。我国是一个农业大国,农民约占全国总人口的70%以上,是最大的消费群体,进行研究时要处理大量的复杂信息,因此运用统计方法探索农村消费状况有着重要的实际意义。
本文首先从我国农村消费现状入手,采用聚类分析方法对我国各地区农村消费支出结构水平进行分类比较研究,以得出各因素对农村消费状况影响程度,进而得出了相应的结论并提出增加我国农村居民消费的对策:一是增加农村居民收入;二是提高消费者素质;三是改善农村居民的消费环境;四是完善农村社会保障;五是统筹协调发展。
本文所研究的农村消费状况就受多种因素支配,各种因素之间也常存在着一定的内在联系和相互制约。需要分析哪些是主要的,本质的,哪些是次要的,片面的,他们之间是什么样的关系等问题,多元统计分析正是解决这些问题的有力工具。因而利用统计方法中的聚类分析有着重要的应用价值。 关键词:农村;消费;聚类分析
引 言
经过改革开放三十年的风雨历程,在投资、消费和出口三驾马车的拉动下,我国经济飞速发展,人民生活水平日益提高,居民收入不断增长, 全面建设小康社会取得重大进展,实现了人民生活由温饱不足向总体小康的历史性跨越。
十七届三中全会提出“到2020年,农村改革发展基本目标任务是:农村经济体制更加健全,城乡经济社会发展一体化体制机制基本建立;现代农业建设取得显著进展,农业综合生产能力明显提高,国家粮食安全和主要农产品供给得到有效保障;农民人均纯收入比2008年翻一番,消费水平大幅提升,绝对贫困现象基本消除[1]。”党中央正式把提升农村居民消费水平作为未来我国经济发展的目标,不仅体现了改革开放给农村居民生活所带来的显著变化,更体现了整个中国居民的整体消费水平的增长,借此稳定中国的经济基础,实现国民经济的可持续发展的长远规划。
随着党中央对农村消费的重视,社会各界对农村居民消费的关注程度不断增加,出现了大量对农村居民消费的研究成果。朱信凯、雷海章和王宏伟,采用了相对收入理论研究我国农村居民消费行为。刘建国和李锐、项海荣在弗里德曼的持久收入假说消费理论框架下,对我国农村居民消费倾向进行研究。汪宏驹、张慧莲从流动性约束角度剖析了我国农村居民消费行为。西方经济学的消费理论一般突出收入是影响消费的主要因素。凯恩斯的绝对收入假说认为,消费是由收入唯一决定的,消费和收入之间存在稳定的函数关系。杜森贝利的相对收入假说认为,消费者的消费支出水平不仅受当前收入水平的影响。也受自己历史上曾经实现的消费水平的影响,这种现象被称为消费的“不可逆性”。毫无疑问,国内有关此类问题的研究还处于理论阶段,与国外相比仍有很大差距,有待进一步扩展和深入。
评价指标的选取:探索农村消费状况, 必须建立适当的指标体系。但由于消费指标的复杂性和多样性, 各指标的选取要遵循以下原则: (1) 选取的指标能客观地反映农村消费状况主要方面;(2) 指标之间基本上相互独立; (3) 尽量选取相对指标。本文选取了食品(X 1)、衣着(X 2)、居住(X 3)、家庭设备及服务(X 4)、交通和通讯(X 5)、文教娱乐用品及服务(X 6)、医疗保健(X 7)、其他商品及服务(X 8)[2]。
第1章 绪 论
1.1 选题背景
改革开放30多年来,我国经济一直保持高速增长。伴随着经济的高增长,我国居民的总体收入水平也相应大幅提高,人民生活质量已基本达到小康水平,同时收入分配的格局发生了重大变化,个人收入来源日趋多样化。但是随着个人收入取得的市场化程度提高,出现了个人收入分配差距过大的情况,而且这种趋势越来越显著。在经过2008年重大自然灾害后,我国又面临着国际金融危机的蔓延和巨大冲击。近十年来,我国的经济规模不断扩大。2008年GDP 总量已超过30万亿元,居世界第三位。然而,虽然经济蛋糕做大了,但国内居民享用的份额却在不断下降,其突出的特征是投资率和消费率的变化。我国近十年平均投资率在20%以上,比世界平均投资率(20% 左右) 高出近20 个百分点;近十年平均最终消费率为36.6%,比世界平均消费率(78%左右) 低20多个百分点。我国的消费率不仅大大低于世界平均水平,并长期呈下降趋势。目前我国最终消费率过低,在很大程度上是由于居民消费持续走低造成的。我国居民消费率从1998 年的76% 下降到2007年的72.7%,达到历史最低水平;与此同时,城乡居民消费差距持续扩大。在居民消费支出构成中, 城镇居民和农村居民的消费比重比十年前年分别提高和下降11.3个百分点。由于最终消费率长期偏低, 国内居民消费需求增长缓慢, 经济增长过份依赖投资和出口。三大需求对GDP 增长的贡献率, 近十年投资的贡献率由1998 年的26.2% 上升到2007 年的20.9%,而消费的贡献率则由37.1% 下降到39.2%,投资对GDP 增长的拉动作用明显增强,而消费的拉动作用明显减弱,导致了我国现阶段经济增长动力不足,国内经济形势严峻。 1.2 研究意义
作为一个发展中国家,拉动经济增长的最主要力量仍然是国内需求,而扩大国内需求的一个重要举措是刺激国内消费,而农民作为中国广大的消费群体,其消费水平和消费需求的变化直接关系到内需的政策的效果。目前,农民生活水平虽然有显著提高,但是农民消费仍然不足。长期以来农村消费市场启而不动、发展缓慢,这已经影响到整个国民经济的健康发展。同时,我国投资与消费的长期失衡孕育着经济运行的巨大风险消费率偏低,投资率过高,往往造成产能过剩,产品供过于求矛盾突出,导致企业效益下降,失业率增加;还造成内需不足后国内企业为求出路只能寻求海外市场,从而导致出口压力增大,人民币升值压力加大,外部风险加大;更为严重的是,居民消费率持续过低,不但使投资行为有可能偏离目标,即投资为了创造财富,最终为了消费而且终将使投资行为缺乏最终消费的强力支持而难以为继,进而造成经济的大起大落[3]。因此研究中国农村居民消费状况,对于我国制定完善经济政策,改善农村居民消费结构,促进消费水平,进一步提高农民消费质量有重要的意义。
第2章 聚类分析
2.1 基本思想
聚类分析的基本思想是认为研究的样本或变量之间存在着程度不同的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或变量) 聚合为一类,把另外一些彼此之间相似程度较大的样本(变量) 也聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或变量) 都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后再把整个分类系统画成一张图,将亲疏关系表示出来[2]。 2.2 系统聚类法
就聚类分析的内容而言,可分为系统聚类法、有序样品聚类法、动态聚类法和模糊聚类法。这里主要介绍系统聚类法。
系统聚类法的聚类过程如下:首先将所研究的每个事物对象自己看作一个类,计算相互之间的接近程度后,将最相近的先合并为一类。然后,进一步计算类与类之间的距离,再合并相近的类,直至将所有对象合并为一个大类。也就是说,系统聚类的过程实际上给出了从最细的分类(每个对象自己为一类)到最粗的分类(所有的对象归为一类)之间的所有分类结果。最后,根据问题需要,可以将对象分为若干类,即选择聚类过程中的一个分类结果。
设有n 个样品,每个样品测得p 项指标(变量),原始资料阵为
X 1 X 2 X p
x 1?x 11x 12
?
x 2?x 21x 22
X =
? ?x n ??x n 1x n 2
其中x ij (i =1, , n ; j =1, , p ) 为第i 个样品的第 x 1p ? x 2p ?? (2-1)
??
x np ??
j 个指标的观测数据。第i 个样品x i 为矩
阵x 的第i 行所描述,所以任何两个样品x k 与x L 之间的相似性,可以通过矩阵x 中的第K 行与第L 行的相似程度来刻划;任何两个变量X k 与X L 之间的相似性,可以通过第K 列与第L 列的相似程度来刻画。 23 点与点之间距离的度量方法
点与点之间的距离包括欧式距离(Euclideam distance )、欧式距离的平方(Squared Euclidean distance )、切比雪夫(Chebychev )距离、绝对值距离(Block )、明氏距离(Minkowski ),同时SPSS 还给出了一个自定义(Customized )的距离,它是一个绝对幂的度量,即变量之差绝对值的q 次幂之和的r 次根,q 与r 由用户指定。另外还有相似系数Cosine (变量矢量的余弦)和Pearson correlation (皮尔森相关系数)。距离和相似系数计算公式如下:
欧式距离:
d (x K , x L ) =
(2-2)
2
欧式距离的平方: d (x K , x L ) =∑(x Kj -x Lj ) (2-3)
j =1
p
∑x
变量矢量的余弦:
COSINE (x K , x L ) =
p
Kj
x Lj
(2-2)
∑(x
皮尔森相关系数:
r KJ =
p
Kj
-x K )(x Lj -x L )
(2-3)
切比雪夫距离: d (x K , x L ) =max x Kj -x Lj (2-6)
1≤j ≤p
p
=∑绝对值距离: d (x K , x L )
j =1
x K -j L j (2-7)
=明氏距离:
d (x K , x L )
j =1p
p
(2-8)
=自定义距离:
d (x K , x L )
j =1
(2-9)
2.2 类之间距离的度量方法
类与类之间的距离定义不同,就产生了8种不同的系统聚类方法:最短距离法(Nearest neighbor)、最长距离法(Furthest neighbor)、重心法(Centroid clustering)、中间距离法(Median clustering )、类平均法(Within-groups linkage )、可变类平均法(Between-groups )、离差平方和法(Ward )和可变法。SPSS 给出了前7种,系统默认为可变类平均法。这样由于所选择的聚类方法不同,往往聚类的结果会有些差异。因此在应用中可以多选择几种方法聚类,找出共性的结果对一些有争议的可以使用判别分析解决。下面列出了SPSS 的上述7种系统聚类方法及其类与类之间距离的定义。其中d ij
表示类G p 的任意样品X i 与类G q 的任意样品X j 之间的距离;D pq 表示类G p 与G q 之间的距离;类
G r 是由类G p 与G q 合并而成的新类,任意其他类G k 到类G r 的距离自然就记为D kr 。
类平均法: D 2pq =1
n n
p q
2
∑∑d ,D kr =
2ij
i
j
n p n r
D +
2ij
2kp
n q n r
D kq (2-10)
2
可变类平均法: D 2pq =
D =
2
kr
1n p n q
∑∑d
i
j
,
n p n r
(1-β) D 2kp +
n q n r
2
(1-β) D 2 β<1) (2-11)="" kq="" +βd="" pq="">1)>
最短距离法: D pq =min d ij , X i ∈G p , X j ∈G q (2-12)
最长距离法: D p q
{}
=m a x {d }
i j
, X ∈, X ∈j G q (2-13) i G p
重心法: D pq =d (X p , X q ) ,
X p 为类G p 样品的均值(重心),X q 为类G q 样品的均值 (2-12)
121212中间距离法: D 2D kp +D kq +βD pq , -≤β≤0 (2-13)kr =
2
2
4
离差平方和法: D 2k r =
n k +n n r +n r
p
D +2
k p
n k +n
n k 2- (2-16) D k D pq
n r +n k n r +n k
q
2
第3章 聚类分析计算与分析
下面以一个具体的例子来实现实证分析。2008年我国其中31个省、市和自治区的农村居民家庭平均每人全年消费性支出食品(X 1)、衣着(X 2)、居住(X 3)、家庭设备及服务(X 4)、交通和通讯(X 5)、文教娱乐用品及服务(X 6)、医疗保健(X 7)、其他商品及服务(X 8)。
3.1 聚类分析的计算
使用系统聚类法对各地区农村居民家庭平均每人生活消费支出进行聚类,即从综合角度来看哪些地区的消费水平类似;再对不同的消费项目进行聚类,即对变量进行聚类,来看哪些变量属于一类。其数据如表3-1所示。
3.2 计算结果与分析
利用SPSS 软件进行计算,结果如下:
结果。共31个有效数据(Valid )参加了分析,无缺失值记录(Missing ),总记录数为31个(Total )。
象的名称,第一列对应的格中给出这次聚在一起的两个群间的距离。可看出:第一步河北和河南聚在一起,他们的相关系数为0.198;第二步广西和云南聚在一起,他们的相关系数为0.232,…,如此类推。
使用Sort Cases命令,对数据窗口中Ward 法生成的分类变量CLU3_1进行排序,如表3-3所示。
表3-3 Ward法聚类结果整理表
从表中分类我们可以清楚的看出:
第一类是北京、上海、浙江这几个经济发展水平很高的地区,这些地区的农村居民的衣着、交通和通讯、文教娱乐用品及服务、医疗保健等这几个项目的支出比例是这3类中最高的,这些消费项目是已经超越于日常生活必需品消费,因此这一类的农村居民生活水平是最高的。
第二类中的这些地区的农村居民的衣着、交通和通讯、文教娱乐用品及服务、医疗保健等这几个项目的支出比例在所有的消费中占的比例也非常高,仅次于第一类中的几个地区,农村居民的生活水平大部分已经达到了小康水平。
第三类中的地区的农村居民的生存性消费还是占主导地位,即食品、居住占主导,而精神消费、娱乐文化等消费欠缺,这一类中的农村居民生活水平已经解决了温饱,正在向小康迈进。从分类中可以看出,生活水平较高的农村居民都是东部沿海经济较发达的省市,而西南部欠发达省市的农村居民生活水平相对较低,这很大原因是各地区经济发展不平衡,造成居民收入差异较大,使得贫困地区的居民可用于消费的资金不多,不敢消费。
如下图所示,树状聚类图的横轴为距离,纵轴为各个案例(即初始小类),从图中看出:河北和河南两群之间的距离最短,他们首先聚在一起;在剩余的30类中(河北和河南第一步已聚在一起,算作一类),广西和云南间距离最短,他们聚在一起,聚了两步,减少了2类,…,直到最后,由31个案例聚在一起聚成一个大群,直至此系统聚类过程完成。所以说正是由于树状聚类图能直观明了的展示聚类的过程,所以实际中应用广泛。
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 3 10 13 20 23 Label Num +---------+---------+---------+---------+---------+
河北 3
河南 16
安徽 12
陕西 27
山西 2
青海 29
宁夏 30
新疆 31
广西 20
云南 23
江西 12
四川 23
重庆 22
海南 21
贵州 22
甘肃 28
西藏 26
福建 13
广东 19
江苏 10
湖北 17
湖南 18
天津 2
辽宁 6
内蒙古 3
吉林 7
黑龙江 8
山东 13
北京 1
浙江 11
上海 9
─┐ ─┤ ─┼─┐ ─┤ │ ─┘ ├───┐ ─┐ │ │ ─┼─┘ │ ─┘ │ ─┐ ├─────────────┐ ─┼─┐ │ │ ─┤ │ │ │ ─┤ │ │ │ ─┘ │ │ │ ───┼───┘ │ ─┬─┤ ├───────────────────────────┐ ─┘ │ │ │ ───┘ │ │ ─┬─┐ │ │ ─┘ ├───┐ │ │ ───┘ │ │ │ ─┬───┐ ├─────────────┘ │ ─┘ │ │ │ ─┐ ├─┘ │ ─┤ │ │ ─┼─┐ │ │ ─┤ ├─┘ │ ─┘ │ │ ───┘ │ ───┬─┐ │ ───┘ ├───────────────────────────────────────────┘
图3-1 树状聚类图
结论与建议
由以上分析可见,近些年来, 我国农村居民消费水平和生活质量有了显著提高, 消费结构也相应发生了深刻的变化, 部分地区农村居民的生活水平已经实现了从传统的“温饱型”到“小康型”的全面升级。但是我们从中也能发现我国农村居民消费存在着不少问题,主要表现在以下方面:
(一)农村居民的消费结构
所谓消费结构,是指“农村居民对各种消费资料和劳务消费的比例关系,它是农民消费状况和消费特点的重要指标,也能反映出农民的消费水平[6]。”主要包括食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐、居住、及其他商品和服务等8个结构支出。
第一,中国农村居民的总体消费水平偏低,消费结构有生存型消费的特征。“食物支出在总消费支出中所占的比重是一个十分重要的指标,它是反映生活水平与消费质量的高低的一个十分敏感的指标[7]。”而我国农村居民吃、穿、住等基本生活资料的需求仍然是消费支出的大项,这些消费占全年消费的一半,有的地区甚至更高。虽然进入21世纪以来生存型消费比重有所降低,但幅度不大。
第二,交通、通讯、娱乐、教育消费大幅增加。随着农村收入水平提高,农村电话、电视普及率的提高,带动了农村居民的通讯与娱乐消费的大幅度提升,农村居民对教育的重视程度大大提高。然而,由于农村地处偏远,文化设施匮乏,农村居民享受娱乐文化消费的阻碍较大,因此对精神消费的需求虽然存在,但实施起来有一定客观上的困难,阻碍了农村精神消费的增加。同时近年来教育费用呈现出上升趋势,物价上涨,这些消费对农村居民来说是种沉重的负担。
(二)农村居民的消费心理
所谓消费心理,是指消费者进行消费活动时所表现出的心理特征与心理活动的过程,消费者心理与行为是一种极其复杂的社会心理学现象,它不仅受消费者自身的需要、动机等心理因素的影响,而且受消费活动的外界影响。对于农村消费者来说,他们的消费行为更是受到传统观念﹑现实环境﹑经济趋势等的制约。
第一,勤俭持家的传统心理,消费谨慎。农村居民对于生活消费品,抱着多用一天算一天的想法,购买消费品追求价格低廉,实用,不需要的生活品,有购买能力也不会购买,此种心理直接导致农村居民消费率过低,资金流动不畅,并严重影响我国总体消费水平的提高,严重的影响了农村合理有效消费的升级。
第二,缺乏对消费的科学性合理性的认识,偏重于远期消费。由于信息流通的不畅与受教育的程度偏低,许多农村家庭的消费意识相对滞后,农村居民对一些消费品给生活所带来的便利﹑以及连带而产生的经济效益认识不足,限制了他们对于消费品的购买。农村居民由于对预期收入信心不足,所以要为自身的养老﹑治病﹑农业规划做好长期的准备,还要为子女的上学﹑结婚﹑盖房等大量存钱,这就使农民不得不牺牲一些眼前的消费而顾及长远,此种心理大幅度地减低了农村即时消费的总量,预防性储蓄数额较大,即时消费减少。
(三)各地区消费水平差距较大
由于各地区经济发展水平等方面存在差异,使得不同地区的农村居民收入水平不
同,可有用于消费的资金多少不同。我们从分析结果中可以看到,那些农村居民生活水平达到小康的地区,都是东部沿海经济较发达的省市,他们不再是为了解决温饱,而是往精神文化消费方面发展。而中西部省市的农村居民的生活水平仅仅停留在解决基本生活问题,精神文化消费匮乏。
针对以上问题,应从以下几个方面入手:
(一)提高农村居民收入,启动消费
提高农村居民收入,是扩大内需,启动消费最直接、最有效的办法之一。只有当农村居民有可靠的收入保障他们才能放心的去消费。而提升农民素质 ,是增加农民收入的关键。作为农民自己要充分发挥主观能动性 ,主动学习知识和技能 ,不断提高自身素质 ,提高农民增收致富的本领。政府有关部门要认真贯彻落实国家的各项扶农政策,大力调整农业结构,引导农村剩余劳动力转移,为农村居民就业增收提供途径。
(二)提高消费者素质
消费者素质是特指人们为消费主体在消费行为上所具备的修养和能力。这种能力主要包括审美鉴赏能力、识别挑选能力、质量监督能力和适度消费能力。提高消费者素质,是优化消费结构的关键。提高消费者素质,建立科学、健康的消费观念是一个长期的任务。当前,要积极运用舆论工具,宣传消费知识,树立正确的消费观念和消费意识,把消费结构引向物质文化和精神文明相结合的方向,从而优化消费结构,拓宽消费领域。
(三)优化消费环境
随着人民生活水平的提高和消费观念的转变,农村居民服务需求、信息产品消费需求以及精神文化等需求明显增加,市场发展潜力巨大。为了使农村居民消费没有后顾之忧,政府应加大支持农村基层工商所工作的力度,加强其在农村市场的执法力度;严厉打击出售伪劣商品的违法、违规行为,杜绝害农、坑农事件的发生,维护农村消费者的合法消费权益,让农村居民能够放心的大胆消费,促进农村消费的增长。同时着重发展与人民生活密切相关的交通、邮电、教育、医疗、金融、保险、房地产、商业、家庭服务、咨询等服务行业及计算机网络、软件等高科技信息产品产业的发展。满足城乡居民物质生活需要,为城乡居民消费结构向更高层次发展提供条件。
(四)完善农村社会保障体系
农村社会保障体系既是影响农村居民预期消费的重要因素,也是制约扩大农村即期消费的基本因素。统筹城乡的和谐发展,加快完善农村居民的社会保障体系,有效地稳定农民支出预期,不仅可以增强国家对农村消费的调节功能,同时也有助于释放农民长期受到压抑的消费热情。增加农村最低生活保障补贴;全面彻底普及九年义务教育,只有充分消除农民生活中的后顾之忧,提高农民整体保障水平,才能激发广大农民的消费欲望,促进农村消费市场的大力发展。
(五)统筹协调发展
从以上分析可以看出,中、东、西部地区的农村居民消费水平存在着较大的差距,这主要是收地区经济水平发展的影响,而政府实施的“西部大开发战略”、“中部崛起战略”以及“东北老工业基地振兴战略”的战略的实施,是地区消费差距得到改善。于此同时,应针对不同地区的差异性,制定相应的刺激消费政策。比如,西部应该采取增加转移支付的政策,使得人们在满足基本生活消费的同时,能够有能力消费其他产品。东部生活水平较高地区可以调整税收政策,促进他们对奢侈品的消费。
参考文献
[1] 张东生. 中国居民收入分配年度报告[M]. 经济科学出版社,2009.12.
[2] 高祥宝, 董寒青. 数据分析与SPSS 应用[M]. 北京:清华大学出版社,2007.6.
[3] 王智. 对我国居民消费现状与消费潜力的分析[J]. 经贸参考,2010,(2):12-16.
[2] 朱建平. 应用多元统计分析[M]. 北京:科学出版社,2006.
[3] 朱建平, 殷瑞飞.SPSS 在统计分析中的应用[M]. 北京:清华大学出版社,2007.1.
[6] 郭立仕. 关于农村消费的现状及政策建议[J]. 财贸经济,2007,(2):68-73.
[7] 李静萍, 谢邦昌. 多元统计分析方法与应用[M]. 北京:中国人民大学出版社,2008.
[8] 李文遐. 当前农村消费需求不足的原因及政策建议[J]. 经济论坛,2007.(7):32-38.
[9] 寇明婷. 中国农村居民消费支出分布及消费水平分析[J]. 农村经济,2008,(3):72-78
[10] 潘培, 杨顺顺, 栾胜基. 我国农村居民消费结构变化及其环境影响分析[J]. 安徽农业科学,2009,37(26):12732-12733,12772.
[11] 张兵, 郭思志. 我国内陆省市农村居民消费状况研究[J].现代商贸工业,2010,(1):89-90.
范文五:聚类分析的SPSS应用
聚类分析的 SPSS 应用 摘要:本文本主要结合实例讲述 SPSS 这个软件在聚类分析中的应用。 包括 SPSS 的一些基本 操作,在聚类分析中的相关参数设置,数据的录入,操作步骤等。本文重点是 SPSS 在聚类 分析中的应用方法, 不对聚类分析相关知识做过多阐述, 相关知识点参见本组对聚类分析的 详细讲解。文中结合 2006年全国各省 6项经济指标数据对各省进行简单分类这个实例,讲 述两种最常用聚类分析方法,即系统聚类分析(Hierarchical Cluster)和 K-均值聚类分析。本 文用到的软件是 SPSS19汉化版,各个版本操作基本一样,文中相关选项均有英文注释,方 便非汉化版同学识读操作 。
一. SPSS 数据的录入
打开 SPSS 软件是下面图 1的界面:
图 1
上图 1所示是数据视图(见上图左下角黄色框框) ,点击数据视图右边蓝色框框进入变量视 图,如下图 2:
图 2
在变量视图中设置我们需要的变量名,并填写约束条件,填写完成后如下图 3:
图 3
其中,我们需要 7个变量,见名称一栏,变量中地区是字符型变量,所以度量标准是名义。 其他设置默认即可。 其他变量是数值型, 度量标准是度量,其他设置同为默认。设置好后回 到数据视图,如下图 4:
图 4
可见,变量视图中设置的变量均列入数据视图中頂栏。 (注:图 4已经录入数据)
以上是 SPSS 录入数据的基本操作,数据录入完成后开始两种聚类分析设置和得出结果。 二.系统聚类分析和 K 均值聚类分析
1. 系统聚类分析
(1) 在数据视图点击分析 (Analyze ) ---分类 (Classify ) ---系统聚类 (Hirarchical Cluster) , 如下图 5:
图 5 进入如下图 6界面:
图 6
回到我们的出发点, 我们希望通过六项指标对全国各省进行分类, 那么分析的变量是这六项 指标,分类标准是不同省份,即地区。于是这两大类变量要进行不同归类,进行如下图 7设置即可, 把用于聚类的变量选入变量框 (variables ) , 把区分样本的标签变量 (本例即为 “地 区” )选入标注个案(label case by) :
图 7
(2)接下来在分群(cluster )栏中选择聚类类型:要进行 R
型聚类(变量聚类)分析,应
指定“变量(variables ) ” ; 要进行 Q 型聚类(样品聚类) ,则指定“个案(case ) ” 。系统默认 Q 型聚类。
我们要将全国不同省份进行分类, 很明显不同省份是不同的样品, 对这些样品进行分类即样 品聚类,所以进行 Q 型聚类,默认即可。输出栏输出我们需要的项目,这里统计量和图都 选择。设置好后如下图 8:
图 8
(3)单击“方法(method ) ”按钮,展开系统聚类分析的方法选择对话框,即“ hierarchical cluster analysis:method” 。
度量标准 (Cluster method0下拉框中给出了可以选择的计算类间距离的方法, 系统默认是组 间均链锁法(between-groups linkage ) , 本例选择 ward ’ s method; 度量标准(measure )框中 给 出 的 是 计 算 样 品 间 距 的 方 法 , 本 例 使 用 平 方 euclidean 距 离 (squared euclidean distance ) ,SPSS 默认计算欧氏距离平方。 在转换值 (transform values) 的标准化 (standardize ) 框中选择是否对原始数据进行标准化处理,本例选择 z scores。点击继续(continue )回到主 对话框。 (注:类间距离和样品间距的选择在这里没有赘述,详见我们组讲课内容)设置好 后如下图 9:
图 9
(4) SPSS 系统聚类分析默认输出的分析结果有凝聚状态表(agglomeration schedule )和冰 柱图 (icicle)。
点击统计量(statistics )选中合并进程表(agglomeration schedule ) 。选择方案范围, 最大聚类数设为 4,最小聚类数设为 2,点击继续(continue )回到主对话框,此时分析结 果中就包含了凝聚状态表,如下图 10:
图 10
点击绘制树状图, 冰柱图里选择所有聚类和方向垂直。 点击继续回到主对话框。 如下图 11:
图 11
(5)回到主对话框点击确定(OK ) ,得到所有的分类结果。结果以文档的形式导出,包括 冰柱图,树状图,距离表。
2.K 均值聚类分析
依然取上一个例子作为分类样本说明这个方法。
首先,如果原始变量取值差异较大,应先将原始数据进行标准化,以避免变量值差异 较大对分类结果产生影响。从下图 12统计表中我们可以看出各省六项指标数量级有较大差 异,所以有必要进行标准化处理。
图 12
过程如下:选择分析(analyze ) ---描述统计(descriptives statistics) ---描述(descriptives ) 进入主对话框,将需要标准化的变量选入“变量(variables ) ”框,然后勾选“将标准化得 分另存为变量(save standardized values as variables) ” , 最后点击确定(OK )
,标准化后的数
据将出现在原始数据表中。以上步骤见一下图 13:
图 13
然后是 K 均值处理步骤:
(1) 选择分析 (analyze)---分类 ---K 均值聚类(K-means cluster) , 如下图 14,进入主对话框 图 15
图 14
(2) 在主对话框中讲用于聚类的所有标准化后的标量选入 “变量 (variables ) ” , 将区分样 本的标签变量(本例为地区)选入“ label cases by” , 在“ number of clusters”下输入 想要分类的数据,本里选为“ 4” 。
(3) 点击‘ iterate ’并在“ maximum iterations ”中输入最大迭代次数(本例使用隐含的 10次) , 点击 “ continue ” 回到主对话框; 点击 “ save ” 并选择 “ cluster membership” , 点击“ continue ”回到主对话框;点击“ options ”并选择“ initial cluster centers”和 “ ANOVA table” (本想可根据需要选择) 。最后点击 OK ,即可得所有想要结果。 以上步骤见下图:
15
图
由于结果篇幅过大,截图无法截取完整,本文只列写操作步骤,未列写结果,请见 谅!
用 SPSS 进行聚类分析十分简单方便, 以上两种方法是最常见的, 按照文中提示一步 步操作一遍即可掌握,当然处理不同类型数据可能相关设置要更改,这将是大家以 后共同探讨的问题,希望我们可以相互学习,共同进步!
谢谢大家的理解和配合!
转载请注明出处范文大全网 » 数据挖掘论文(聚类分析及其应