范文一:葡萄酒的评价2012A
葡萄酒的评价
摘要
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。评酒员对
葡萄酒进行品尝后对其分类指标打分,通过求和得到的总分,确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。 问题1:由附件1可知两组评酒员对于白葡萄酒和红葡萄酒的评分结果,用spss软件分别对两组评酒员的评价结果进行配对t检验,在95%的置信区间内,对于白葡萄酒和红葡萄酒,认为两组评酒员的评价结果都有显著性差异。通过对两组评价结果的标准差、均值标准误差比较,得出第二组评价结果比较可信。
问题2:利用主成分分析法将众多评价酿酒葡萄的理化指标重新组合成一组新的综合指标。将第二组评酒员的评分作为对葡萄酒质量的评判标准,然后利用spss做聚类分析,将酿酒红白葡萄进行分级,具体结果见下文。
问题3:在问题2的基础上,根据酿酒葡萄和葡萄酒提取出两组主成分数据,利用典型相关性分析法,求出两组主成分之间的相关系数,进而结合每个主成分包含的理化指标因素,分析酿酒葡萄与葡萄酒的理化指标之间的联系。
问题4:提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
关键字:配对t检验 主成分分析 聚类分析 典型相关性分析 逐步回归
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、问题假设
1、假设问题一中评酒师的评价结果误差只与个人有关,与葡萄酒无关,并且评酒师的评价结果相互独立,互不影响。
2、假设酿酒葡萄以及葡萄酒理化指标中的二级指标对酿酒葡萄的分析影响不大。
3、酿酒方式与酿酒过程对葡萄酒的质量无影响。 4、假设主成分分析后的指标可以充分代表原始数据。
四、符号约定
t 统计量
p 显著性值
zF 主成分分析每个酒样的综合得分
FACi_1每个主成分的得分
R2 全模型的复判定系数
减模型的复判定系数 R2j
Qj 减模型的残差平方和
Q 全模型的残差平方和
F进 选入变量时的临界值
F出 删除变量时的临界值
ki(i) 葡萄及葡萄酒理化指标的综合主成分yi(i)在回归方程中的系数 SI1 理化指标对葡萄酒质量影响比重 SI2 芳香物质对葡萄酒质量影响比重
五、模型的建立与求解
问题一
对两组结果差值进行t检验,在置信度为95%的情况下,判断两组结果是否
有明显差异。对两组数据的标准差和均值标准误差比较,可以得出哪组数据比较可信。
配对T检验的原理和方法:对于同一个实验对象,在两个不同时间上分别接受前后两次处理,用其前后两次的观测值进行对照和比较。其基本步骤如下: (1) 提出无效假设H0:ud?0。其中,ud为两配对样本的取值之差的总体平均
数,它等于两样本所属总体的平均数u1和u2之差,即Hd?u1?u2。 (2) 计算t统计量,公式为t?d/sd,自由度为df?n?1。sd为两样本均值
差的标准误差,计算公式为sd?其
中
,
d
为
两
样
sd?
2
(d?d)?
n(n?1)
?
22
d?(d)??/n
n(n?1)
,
本各对数据之差,即
dj?x1j?x2j(j?1,2,?,n);d??dj/n;sd为d的标准差;n为样本的样本量。
(3) 根据df?n?1确定临界t值t0.05(n?1),做出统计推断。
通过对附件1中的数据进行处理,求出红白葡萄酒酒样的综合得分。其具体结果见附录。然后运用spss分别对红葡萄酒和白葡萄酒做配对t检验。 结果表1、表2所示:
表中给出了重要的t统计量和判断显著性p值。结果显示p=0.038<>
结果显示p=0.021<0.05;>0.05;>
对可信度的判定
综合以上两组结果,得出第二组评酒员评价结果较为可信。
问题二
根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。首先运用主成分的思想对酿酒葡萄的理化指标进行数据处理,得出红白葡萄酒理化指标的综合得分。由问题1知第二组评酒员的评价结果比较可信,因此用第二组评酒员对葡萄酒的评分作为对葡萄酒质量评判标准。综合酿酒葡萄的理化指标得分和及葡萄酒质量得分,运用系统聚类分析的方法对酿酒葡萄进行分级。 主成分分析的思想:鉴于众多变量之间有一定的相关性,必然存在着起支配作用的共同因素。通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。
设对某一事物的研究涉及个p指标,分别用x1,x2,?xp表示,这个p 指标构成的p维随机向量为x?(x1,x2?xp)'。设随机向量x的均值为 u,协方差矩阵为?。对x进行线性变换,可以形成新的综合变量,用y表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式
?Y1?u11X1?u12X2?????u1pXp?
?Y2?u21X1?u22X2?????u2pXp?(5.1) ???????
?Yp?up1X1?up2X2?????uppXp?
运用spss软件对白葡萄和红葡萄的理化指标进行主成分分析,其成分得分系数矩阵见附录:
对于红葡萄提取了8个主成分,为了求得每个酒样的综合的得分,我们对8个公因子的得分进行加权求和,权数就取其方差贡献值,于是得到葡萄酒样的综合得分计算公式为:
zF=0.1726 * FAC1_1+0.1490 * FAC2_1+.01047 * FAC3_1+0.090 * FAC4_1+0.084 * FAC5_1+0.083 * FAC6_1+0.080 * FAC7_1+0.064 * FAC8_1。
对于白葡萄提取了10个主成分,同理可得其综合得分的计算公式为:
zF=0.1564 * FAC1_1+0.1098 * FAC2_1+0.1034 * FAC3_1+0.097 * FAC4_1+0.0737 * FAC5_1+0.0679 * FAC6_1+0.06721 * FAC7_1+0.059 * FAC8_1+0.05870* FAC9_1+0.04705* FAC10_1.
运用spss得到的红白葡萄酒酒样的主成分分析得到的每个酒样的综合得分如表 3所示:
先对数据进行标准化处理,然后运用spss对主成分得分和评酒员评分进行系统聚类分析,其结果如下所示:
图1 聚类分析法将白葡萄分类
表4 白葡萄分级结果
图2 聚类分析将红葡萄分类
问题三
要求分析酿酒葡萄与葡萄酒的理化指标间的联系,首先根据模型假设可以舍去二级指标,由问题二可以确定酿酒葡萄与葡萄酒的理化指标的主成分,对此可以建立典型相关分析模型,典型相关分析是研究两组变量之间相关关系的一种多元计方法。它能够揭示出两组变量之间的内在联系,也是一种运用于多元统计中的降维技术。其目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析,利用spss软件求出各指标间的相关系数,进而确定各指标间关联度的大小。
模型的准备:
设要求的两组变量分别为:
T
X??X1,X2?,Xp? T
Y??Y1,Y2,?,Yq?
其中p?q,
??11?X??设p?q维随机向量Z???Y??的协方差阵???
????21
?
?
1222
??, ??
T
其中?11是X的协方差阵,?22是Y的协方差阵,?12??21是X,Y的协方差阵;
典型相关分析用X和Y的线性组合
U?aTX,V?bTY
之间的关系来研究X和Y之间的相关性,其目的就是希望找到向量a和b,使得
??U,V?最大,从而找到替代原始变量的典型变量U和V; 其中典型相关系数的数学定义为:
aT12bCov?U,V???U,V???
UVaT11abT22b
由于随机变量乘以常数不改变其相关系数,为防止不必要的结果重复出现,加上
如下的约束条件:
Var?U??aT?11a?1 Var?V??bT?22b?1
记:
A??11B??22
?1
???
21
11?1
21
11
?1
12
?1
???
12
则存在Aa??2a,Bb??2b;
其中?2既是A又是B的特征根,a和b就是对应于A和B的特征向量。 模型的求解
根据问题2的主成分分析模型可以提取出酿酒葡萄和葡萄酒的主成分因子,以及各个理化指标所属的主成分,结果如下表:
出各变量之间的相关系数如下:
表10 红葡萄与红葡萄酒主成分之间的相关系数
表11
据表10可知RW1与与R2、R7、R8相关系数较大;据表11可知WW1与W1、W3、W4、W7相关系数较大,WW2与W4、W8相关系数较大,WW3与WW6相关系数较大。由此说明葡萄中总酚、酒总黄酮、DPPH、单宁、花色苷、L*、a*、b*、白藜芦醇等一级指标的含量直接决定对应葡萄酒中各指标的含量,葡萄中部分指标对葡萄酒影响较小。 问题4
问题四要求研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响,以及是否能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
逐步回归分析模型的建立
逐步回归法是一种变量筛选方法。逐步回归法采取边进边退的方法,对于模型外部的变量,只要它还可提供显著的解释信息,就可以再次进入模型;而对于已在内部的变量,只要它的偏F检验不能通过,则还可能从模型中被删除。 (1)偏F检验
在决定一个新的变量是否有必要进入模型,或者判断某个变量是否可以从模型中删除时,考虑这个变量能否对y提供显著的附加解释信息?现采用偏F检验。
设有n个自变量x1,x2,?,xn,采用这n个自变量拟合的模型称为全模型,即
y?b0?b1x1?b2x2???bnxn??
从这n个变量中删除自变量xj,这时用n?1个自变量拟合模型称为减模型,即
y?b0?b1x1???bj?1xj?1?bj?1xj?1???bnxn??
全模型的复判定系数为R2,减模型的复判定系数记为R2j。定义
22
?R2j?R?Rj
由于在全模型中多一个自变量xj,所以,若?R2j几乎为零,说明增加xj,对y的解释能力没有显著提高;否则,若?R2j显著不为零,则xj就可以为回归模型提供显著的解释信息。
2
给出统计假设H0:?R2j?0,H1:?Rj?0
统计检验量为
Fj?
Qj?QQn?m?1)
式中,Qj是减模型的残差平方和,Q为全模型的残差平方和。
根据检验水平?查F分布表,得到拒绝域的临界值F? ,则决策准则如下: (i)当Fj?F?时,拒绝H0,说明?R2j显著不为零,这说明在变量已进入模型后,引入x1,?,xj?1,x?,,xxj会显著提高对y的解释能力; ?j1n
(i)当Fj?F?时,接受H0,说明?R2这说明在全模型中删除xj,j显著为零,对y的解释能力无显著的减弱变化。 (2)逐步回归分析
模型的起始首先要求y与每一个xi的一元线性回归方程,选择F值最大的变
量进入模型。然后,对剩下的n?1个模型外的变量进行偏F检验(设定xi1已在模型中),在若干通过偏F检验的变量中,选择Fj值最大者进入模型。再对模型外的n?2个自变量做偏F检验。在通过偏F检验的变量中选择Fj值最大者进入模型。接着对模型中的三个自变量分别进行偏F检验,如果三个自变量都通过
了偏F检验,则接着选择第四个变量。但如果有某一个变量没有通过偏F检验,则将其从模型中删除。重复上述步骤,直到所有模型外的变量都不能通过偏F检验,则算法终止。为了避免变量的进出循环,一般取偏F检验拒绝域的临界值为
F进>F出
式中,F进为选入变量时的临界值;F出为删除变量时的临界值。
(3)理化指标对葡萄酒质量的影响 将酿酒葡萄和葡萄酒的理化指标合并为一个数据表(见附件),将得到的数据进行标准化处理,处理方法如式(5),基于模型三的酿酒葡萄理化指标的主成分分析法对合并的数据进行主成分分析,得到酿酒葡萄和葡萄酒的理化指标的p个主成分,对其两者的理化指标降维,且增强指标的独立性,把各酿酒葡萄与葡萄酒合并的样本的原始三十九个理化指标的标准化数据代入p个主成分的表达式,就可以得到各葡萄样本的p个主成分值。将评酒员的评分作为葡萄酒质量的定量刻画,利用合成样本的主成分对葡萄酒质量进行逐步回归分析,得到酿酒葡萄和葡萄酒理化指标对葡萄质量的综合定量描述y?f(x1,x2,?,xp),改变其中的某一项或几项解释变量xi,可以观察到该项或几项解释变量对葡萄质量的影响
?y?f(x1,x2,?,?xi,?,xp)。
4.4.3逐步回归分析模型的求解
对酿酒葡萄与葡萄酒合并的样本进行主成分分析,以酿酒红葡萄、红葡萄酒为例主成分分析的结果如下:
表15:酿酒红葡萄、红葡萄酒理化指标的主成分分析结果
可以看出,前8个特征根的累计贡献率就达到了80%以上,主成分分析效果很好。下面选取前19个主成分(累计贡献率就达到了98.63%),由此可得19个主成分分别为
?y1?0.1053x1?0.1615x2???0.0097x39?y?0.2391x?0.1840x???0.1225x?21239
?
??
??y19??0.2364x1?0.1969x2???0.1539x39
现将前19个主成分代替原来的理化指标,然后对葡萄酒的质量进行逐步回归。运用MATLAB中的Stepwise Regression窗口(matlab程序见附录)进行交互式逐步回归,如图1。
图1 逐步回归交互式界面
复判定系数为R2?0.8711,检验值F?15.2108,得到最终模型为
?y?0.1423y1?0.1782y2???0.1027y6?0.1936y12?0.3670y13
此回归方程即为酿酒红葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响方程,
yi表示酿酒红葡萄、红葡萄酒理化指标的第i个主成分。
通过逐步回归分析后,影响红葡萄酒质量的红葡萄和红葡萄酒理化指标的主
成分只剩下yi(i?1,2,?,6),y12,y13。结合红葡萄及红葡萄酒理化指标的主成分,糖转化为酒精,酸影响葡萄酒中的PH值,单宁、色素等酚类物质溶解在葡萄酒
中,红葡萄酒的颜色、气味、口感等与酚类、糖类和酸类等物质密切相关,而葡萄酒的质量目前主要依据评酒员的感官评价,葡萄酒的好坏与其外观、香气和口感密切联系,葡萄与葡萄酒的理化指标就在一定程度上影响了葡萄酒的质量,具体定量关系如上式回归方程。
4.4.4 关于葡萄和葡萄酒的理化指标对葡萄酒质量影响的论证
由于评酒员的感官评价中考虑了外观、香气和口感等综合因素,因此葡萄酒的感官质量是由葡萄酒的外观、香气、口感和整体因素等决定的,受评酒员个人的偏好的影响。若反映到葡萄及葡萄酒的化学组成,外观是受葡萄及葡萄酒的色泽等影响的,香气是由葡萄及葡萄酒的芳香物质影响的,而口感是由葡萄及葡萄酒的某些理化指标影响的。因此,理化指标在一定程度上反应了葡萄酒的质量,由于香气对葡萄酒质量的影响,可能芳香物质在一定程度上影响了葡萄酒的质量。
现在我们就采用主成分分析与逐步回归的方法对葡萄及葡萄酒的理化指标与芳香物质进行定量研究,考察理化指标与芳香物质对葡萄酒质量的影响程度。 分析步骤如下:
(1)葡萄和葡萄酒理化指标的综合主成分分析
基于模型四中酿酒葡萄和葡萄酒的理化指标的主成分分析法,得到了葡萄和
(1)(1)
葡萄酒的两种理化指标合并在一起的综合主成分,记为y1(1),y2。 ,?,y11
(2)葡萄和葡萄酒芳香物质的综合主成分分析
同对理化指标的处理方法,先将酿酒葡萄和葡萄酒的芳香物质合并成一个数据矩阵,先对其中的每一个元素进行标准化处理,然后进行主成分分析,得到芳
(2)(2)
香物质的主成分y1(2),y2。 ,?,y13
(3)两种综合主成分的逐步回归
将葡萄和葡萄酒的理化指标及芳香物质的综合主成分看作同等地位的变量对葡萄酒的质量会产生一定的影响,现对其三者之间进行逐步回归分析(用matlab的Stepwise Regression 窗口实现),得到理化指标与芳香物质的回归方程:
(2)(1)(1)
(15) y?0.4504y9?0.1637y1(1)?0.1806y2???0.1194y5
(4)理化指标与芳香物质对葡萄酒质量的影响比重
理化指标对葡萄酒质量影响比重计算为
SI1?
?k
i?1
11
(1)i13
?k
i?1
11
(16)
(1)i
??k(2)j
j?1
芳香物质对葡萄酒质量影响比重计算为
(2)k?j13
SI2?
j?1
?k
i?1
11
(1)i
??k(2)j
j?1
13
(17)
式中ki(1)表示葡萄及葡萄酒理化指标的综合主成分yi(1)在回归方程中的系数,
(2)
k(2)j表示葡萄及葡萄酒芳香物质的综合主成分yj在回归方程中的系数,SI1为理
化指标对葡萄酒质量影响比重,SI2为芳香物质对葡萄酒质量影响比重。
由式(15)的系数及式(15)、式(16),可以计算得理化指标对红葡萄
酒质量影响比重SI1?65.5%,芳香物质对红葡萄酒质量影响比重SI2?35.5%;同样可以计算得理化指标对白葡萄酒质量影响比重SI1?53.1%,芳香物质对白葡萄酒质量影响比重SI2?46.9%,说明红、白葡萄和红、白葡萄酒的芳香物质对葡萄酒的质量有30%以上的影响比重,白葡萄的芳香物质对白葡萄酒的质量影响相对更大。根据实际情况,红葡萄酒的颜色、气味、口感等与酚类等理化指标密切相关,而白葡萄酒的质量,主要由源于葡萄品种的一类香气和源于酒精发酵的二类香气以及酚类物质的含量所决定。故而它们的理化指标对葡萄酒的质量有较
大程度的影响,但并不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
六、 模型改进及推广
模型的改进
对于本文采用的主成分分析法,若要使主成分的累计贡献率更高,就会使主成分个数过多,达不到复杂问题简化的目的。因此,可以将主成分分析与聚类分析这两种统计方法结合起来,建立主成分聚类分析模型,首先对样品做主成分分析,再若干主成分对样品进行聚类分析,由此得到一种新的综合评价方法,具体做法如下:
设按照累计贡献率选定前r个主成分,并计算主成分得分:
Fk?a1kx1?a2kx2???apkxp,
k?1,2,?,r
对所选定的新数据阵?F1,F2,?,Fr?进行系统聚类分析;
然后计算各类中样品第一主成分得分的平均值确定类间的排序;
最后根据类中样品第一主成分得分,确定每类中样品的排序,得到综合评价。 模型的推广
本文的分析都是建立在所得数据的基础上的,预测结果有理有据。主成分分析法降高维为低维数据,使复杂问题得以简化,克服单一的理化指标不能真实反映酿酒葡萄的全面特征的缺点。本文建立的模型具有较强的实用性和科学性,可以将其推广到其他饮料和食品上。
参考文献:
[1]姜启源 谢金星 叶俊 数学模型 高等教育出版社 2011年
[2]严喜祖 宋中民 毕春 《数学建模及其实验》 科学出版社 2009年 [3]何晓群 多元统计分析 中国人民大学出版社 2011年
[4]高祥宝 董寒青 数据分析与SPSS应用 清华大学出版社 2007年
[5]杜强 贾丽艳 编《spss统计分析从入门到精通》 人民邮电出版社出版发行
附录:
第一问两组评酒员对红白葡萄酒的综合评分如下:
第二问主成分分析成份得分系数矩阵
酿酒白葡萄
%下面利用相关系数矩阵进行主成分分析,x的列为r的特征向量,即主成分的系数 clc,clear
gj=xlsread('…\葡萄酒评价\葡萄酒和葡萄.xlsx'); gj=zscore(gj); %数据标准化
r=corrcoef(gj); %计算相关系数矩阵
%下面利用相关系数矩阵进行主成分分析,x的列为r的特征向量,即主成分的系数
[x,y,z]=pcacov(r) %y为r的特征值,z为各个主成分的贡献率 contr=cumsum(z)/sum(z) t=x(:,1:19) t1=z(1:19)
y1=zeros(27,19); y1=gj*t
Y=[68.1 74 74.6 71.2 72.1 66.3 65.3 66 78.2 68.8 61.6 68.3 68.8 72.6 65.7 69.9 74.5 65.4 72.6 75.8 72.2 71.6 77.1 71.5 68.2 72 71.5]; Y=zscore(Y); %数据标准化
stepwise(y1,Y,[1:19]);%逐步回归,呈现交互界面
范文二:2012年数学建模竞赛-葡萄酒的评价模型
葡萄酒的评价模型
摘要
本题主要讨论了酿酒葡萄与葡萄酒的理化指标之间的关系,并得出结论能够用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,这对于盛行的葡萄酒的鉴赏具有重要意义。
从建模的角度来说,这道题偏重于统计学的知识,因此,我们利用应用广泛的统计学软件SPSS19.0来进行分析。问题一用独立样本,检验判断两组有无显著性差异。对红、白葡萄酒分别检验,则两组评分均有显著性差异,并且第二组评酒员的评分更为可信。对于问题二,我们利用了问题一的结果作为葡萄酒的质量,使之与葡萄的理化指标相结合进行聚类分析,分别将红白葡萄酒都分为四个等级。
对于问题三,要研究葡萄与葡萄酒理化指标之间的联系,用多元统计中的典型相关分析研究两个变量组之间的联系。由于两组变量存在组内多重共线性,因而先用因子分析缩减变量,使分析结果准确可靠。得到结果葡萄的各指标对葡萄酒的综合影响大于个体指标的影响。问题四则在问题三因子分析的基础上,对公因子变量和葡萄酒质量进行回归分析,得出可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
关键字:独立样本,检验 聚类分析 因子分析 典型相关分析 综合影响 回
归分析
1
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信, 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4(分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,
二、问题分析
2.1问题1的分析
分析两组打分结果有无显著性差异,实质是对这两个独立样本均值的t检验。我们先不区分红酒还是白酒,统一对两组评酒员对55个酒样本的评分进行两个独立样本均值的t检验:如果结果显示无显著性差异,则可能是实际两组评分无显著差异,也可能是红酒和白酒的评分差异互相抵消的结果,需要将红酒评分和白酒评分进一步分开,分别做显著性检验;如果结果显示有显著性差异,则可以直接由离散趋势的相关指标判断出哪一组更可信。
在判断哪一组的结果可信度更高时,我们认为同一组评酒员对同一个酒样本的评分差别越大,即离散程度越大,则他们的评分越不可信。考虑到每组评分的总体水平不同,我们选用标准差系数来进行比较判断。
2.2问题2的分析
本题要求对酿酒葡萄进行分级。我们有两种解决思路,聚类分析法和因子得分分析。题目附件2中给出了葡萄的各理化指标,又已知每个评酒员对葡萄酒的打分可看做是葡萄酒的质量,所以我们可以用葡萄的理化指标和葡萄酒的分数作为标准,利用SPSS聚类分析法评定葡萄的等级。聚类分析是根据事物本身的特性研究个体分类的方法,聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大,它是一种探索性的分析,在分类的过程中,不必事先给出一个分类的标准,而能够从样本数据出发,自动进行分类。
因子分析是将酿酒葡萄的理化指标反映到可以综合它们的公因子上,然后按各公因子对应的方差贡献率为权重计算综合统计量,对此进行排序分级。
2.3问题3的分析
根据题意,要求分析酿酒葡萄与葡萄酒的理化指标之间的联系。根据题目附件2的葡萄酒和葡萄的理化指标可看出,题中给出的指标数量多,指标的等级不同,且相互之间可能存在较强的相关性而并不相互独立,使得直接用这些指标进
2
行分析并不合理。因此,我们首先使用原始数据得出二级指标是从一级指标中分离出来的,可以只对一级指标进行分析,直接剔除二级指标;其次,使用因子分析和典型相关分析相结合的方法,消除组内多重共线性的影响,使分析结果准确可靠。
2.4问题4的分析:
分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,可以通过SPSS软件作线性回归分析,评分作为因变量,各理化指标作为自变量。在问题3我们得知酿酒葡萄中的一些指标与葡萄酒的指标存在多重共线性,所以在将各指标进行回归时,为了减少此影响,可以通过6个公因子,用此来进行回归分析。因为红白葡萄酒在理化指标上有所不同,我们可以再分别分析红,白两种葡萄酒质量受到哪些因子的影响。
三、模型假设
1.做典型相关分析时,假设两组变量之间为线性关系,即每对典型变量之间为线性关系;
2. 在做多元线性回归模型中,假设各自变量序列之间完全不相关。
四、符号说明
(、2、3??、10) 葡萄各指标变量 i,1xi
y(、2、3??、8) 葡萄酒各指标变量 j,1j
U 第一对典型变量为 V 第二对典型变量
F, F, F, F, F, F 主成份变量 123456
五、问题一的解答
5.1统一对两组评酒员对55个酒样本的评分进行两个独立样本均值的t检验
由题目附件1的原始数据,我们首先在SPSS软件中将两组评酒员对这55种酒样品的打分情况进行输入,根据题意,分类指标的总和即为各样品的总分,我们对原始数据做了分类汇总,得到每位评酒员对每种酒样本的评分汇总表(见附件1:表1.1)。
要对汇总表中的数据的均值进行显著性检验,首先建立原假设和备择假设如下:
H:,,, H:,,,112012
利用SPSS软件中比较均值中的“独立样本t检验”,得到如下结果:
3
表(1):组统计量
组别 N 均值 标准差 均值的标准误
评分 1 550 73.54 10.838 .462
2 550 73.57 7.879 .336
表(2):独立样本检验
方差方程的
Levene 检验 均值方程的 t 检验
差分的 95% 置
信区间 Sig.(双均值差标准误
F Sig. t df 侧) 值 差值 下限 上限 评分 假设方差相44.183 .000 -.051 1098 .959 -.029 .571 -1.150 1.092
等
假设方差不-.051 1002.610 .959 -.029 .571 -1.150 1.092 相等
由于Levene’s方差齐性检验结果小于0.05,因此方差不相等,选用方差不相等的t检验结果,P值(Sig.)显示为0.959,大于0.05,从而最终得到的统计结果为接受原假设,可以认为这两组评酒员对55个酒样本的评价结果无显著性差异。
由检验变量的基本情况,用标准差比均值计算出标准差系数,第一组标准系数为0.147,第二组为0.107,所以第二组打分的结果更可信。
5.2两组评酒员对红葡萄酒样品评分的差异性检验
用同5.1的方法,可以整理出个评酒员对红葡萄酒的评分,同样的方法,求出如下结果:
表(3):组统计量
组别 N 均值 标准差 均值的标准误
评分_sum 1 270 73.0556 10.25006 .62380
2 270 70.5148 6.76901 .41195
由于Levene’s方差齐性检验结果小于0.05,因此方差不相等,选用方差 不相等的t检验结果,P值(Sig.)显示为0.001,小于0.05,从而最终得到的统
4
计结果为拒绝原假设,可以认为这两组评酒员对红葡萄酒的评价结果有显著性差异。
表(4):独立样本检验
方差方程的
Levene 检验 均值方程的 t 检验
差分的 95% 置信
区间 Sig.(双均值差标准误
F Sig. t Df 侧) 值 差值 下限 上限 评分假设方36.441 .000 3.399 538 .001 2.54074 .74755 1.07227 4.00921 _sum 差相等
假设方3.399 466.134 .001 2.54074 .74755 1.07176 4.00972
差不相
等
由检验变量的基本情况,用标准差比均值计算出标准差系数,第一组标准系数为0.14,第二组为0.096。所以第二组打分的结果更可信。
5.3两组评酒员对白葡萄酒样品评分的差异性检验
采用与红葡萄酒相同的方法,求得如下结果:
表(5):组统计量
组别 N 均值 标准差 均值的标准误
评分_sum 1 280 74.0107 11.37484 .67978
2 280 76.5321 7.76716 .46418
表(6):独立样本检验
方差方程的
Levene 检验 均值方程的 t 检验
差分的 95% 置信区
间 Sig.(双标准误
F Sig. t df 侧) 均值差值 差值 下限 上限 评分假设方38.185 .000 -3.063 558 .002 -2.52143 .82314 -4.13826 -.90460 _sum 差相等
假设方-3.063 492.714 .002 -2.52143 .82314 -4.13872 -.90414
差不相
等
由于Levene’s方差齐性检验结果小于0.05,因此方差不相等,选用方差不
5
相等的t检验结果,P值(Sig.)显示为0.002,小于0.05,从而最终得到的统计结果为拒绝原假设,可以认为这两组评酒员对白葡萄酒的评价结果有显著性差异。
由检验变量的基本情况,用标准差比均值计算出标准差系数,第一组标准系数为0.154,第二组为0.101。所以第二组打分的结果更可信。
5.4模型结果分析:
由模型得到,在对55种样品的检验中,P值(Sig.)为0.959,大于0.05,说明两组评分的均值相等,那么两组评酒员评价结果无显著性差异。第二组标准系数为0.107,第一组为0.147,显然第二组的离散程度比第一组小,说明第二组打分的结果更可信。
在对红葡萄酒的打分分析中,P值为0.001,小于0.05,则表明两组评酒员评价结果有显著性差异。由标准系数得知,第二组打分的结果更可信。
在对白葡萄酒的打分分析中,P值为0.002,小于0.05,则表明两组评酒员评价结果有显著性差异。由标准系数得知,第二组打分的结果更可信。
综上,我们认为第二组的打分结果更可信。
六、问题二的解答
6.1(选定葡萄的理化指标
考虑到此题中大多数二级指标和一级指标之间的包含关系,我们在葡萄的理化指标中将二级指标直接剔除,只考虑一级指标。但是由于数据庞大,我们依然需要对一级指标进行筛选。查找检验葡萄的一般理化指标和相关论文中认为重要的[1]指标,我们对于酿酒葡萄选出了总糖,还原糖,可溶性固形物等10种指标。(见附件2:指标)
6.2. 确定葡萄酒的质量表示
在问题一中,我们在不区分红白葡萄酒,直接对两组评酒员对所有55种酒样本的评分进行显著性检验时,求得两组评酒员的打分不存在显著的差异。并且两组评酒员评分的均值和标准差都差别不大,为了使数据更准确,我们将每个酒样品的质量用20位评酒员对该样品打分的均值来表示。(见附件2:评分)
[2]6.3葡萄的理化指标和葡萄酒质量的聚类分析
为了在SPSS中进行聚类分析的需要,我们将葡萄的理化指标表和葡萄酒质量表合并到一个表中(见附件2:合并之后)。
考虑到不同的成分数值差异显著,我们先对变量进行标准化处理(见附件2:标准化之后),然后利用SPSS软件中系统聚类分析方法,分别对红白两种酿酒葡萄进行分类。其中系统聚类分析中用到了ward联接方法,红白葡萄酒的聚类表(见附件2:聚类表)。可以选择不同的联接方法,进行多次测试,选出合理的等级分法。
6.4模型结果及分析
(1)对红葡萄的分级
等级一:葡萄样品1,葡萄样品6,葡萄样品7,葡萄样品8,葡萄样品12,葡萄
样品15,葡萄样品18
6
等级二:葡萄样品2,葡萄样品3,葡萄样品9,葡萄样品17,葡萄样品21,葡萄
样品23,葡萄样品24
等级三:葡萄样品4,葡萄样品5,葡萄样品11,葡萄样品13,葡萄样品14,葡萄
样品16,葡萄样品19,葡萄样品20,葡萄样品22,葡萄样品25,葡萄样
品26,葡萄样品27
等级四:葡萄样品10
用树状图更形象的表现为:
图(1):红葡萄的树状图
(2)对白葡萄的分级
等级一:葡萄样品1,葡萄样品6,葡萄样品7,葡萄样品13,葡萄样品14,
葡萄样品15,葡萄样品17,葡萄样品18,葡萄样品22 等级二:葡萄样品2,葡萄样品3,葡萄样品9,,葡萄样品12,葡萄样品19,葡
萄样品23,葡萄样品26,葡萄样品27
等级三:葡萄样品4,葡萄样品5,葡萄样品10,葡萄样品20,葡萄样品21,葡
萄样品24,葡萄样品25,葡萄样品28
等级四:葡萄样品8,葡萄样品11,葡萄样品16
7
用树状图更形象的表现为:
图(2):白葡萄树状图
:
(3)模型结果分析
由上图,我们对红白葡萄都采用了四级分法。将27种红葡萄和28种白葡萄进行分级。 对于四个等级,分析各项指标的特征值,可以检验样品归为一类的原因以及各等级的特征。以红葡萄为例,利用SPSS软件中描述功能,对各等级下成分特征进行分析。描述统计见附件2:红葡萄的描述统计量。
由于标准差能反映同一等级下各样品的离散程度,而通过比较,得知等级越高,离散系数越小。同理,可以按照此思路分析白葡萄的等级特征。
6.5(因子分析模型
将附件2:“指标” 导入SPSS做因子分析,经过KMO 和 Bartlett 的检验,适合做因子分析,然后根据主成分选取指标的原则,选取前五个成分作为公因子,在表中呈现出因子得分。再按各公因子对应的方差贡献率为权重计算综合统计量,最后根据不同种类葡萄进行排序分析。
8
利用上述思想,在excel表格中求得每个样本因子综合得分,并进行等级评定,红白葡萄酒都分为四个等级(见附件2:表2.3)。
七、问题三的解答
7.1葡萄和葡萄酒主要理化指标的确定
剔除葡萄和葡萄酒的二级指标,选定葡萄的一级指标10个,对于测试不止一次的指标,取平均值作为该指标的测试值,得到附件3的“葡萄选定指标”表。同理,选定葡萄酒的一级指标8个 ,得到附件3中的“葡萄酒选定指标”表。为了能够使用SPSS软件进行分析,将数据进行整理,得到附件3中的“葡萄和葡萄酒选定指标汇总表”。
[3]7.2所有选定指标的简单相关关系
利用SPSS中的相关分析功能,可以做出相关关系表(附件3:简单相关关系)。根据此表可以得出以下结论:
1)葡萄中的总糖与葡萄酒中的单宁、b*(D65) 极显著相关,与总酚、DPPH(
半抑制体积(IV50) 1/IV50(uL)显著相关;葡萄中的还原糖与葡萄酒中的b*(D65)显著相关;葡萄中的可溶性固形物与葡萄酒中的单宁、总酚、DPPH半抑制体积(IV50) 1/IV50(uL)、b*(D65)极显著相关,与酒总黄酮、L*(D65)显著相关;
D65)极显著相关;葡萄中的单宁与葡萄酒中的葡萄中的固酸比与葡萄酒中的a*(
所有指标都极显著相关;葡萄中的出汁率、可滴定酸与葡萄酒中的a*(D65)、b*(D65)极显著相关。
总体来说,葡萄的总糖、可溶性固形物、单宁指标与葡萄酒的各指标相关性较强,而还原糖、多酚氧化酶活力指标则与葡萄酒的各项指标相关性较弱。
(2)葡萄自身的理化指标之间也有相关关系。例如,总糖与还原糖、可溶性固形物极显著正相关;还原糖与可溶性固形物显著正相关,与VC含量显著负相关;可溶性固形物与单宁显著相关;固酸比与可滴定酸、酒石酸极显著负相关等。
(3)葡萄酒自身的理化指标之间也有明显相关关系。它的各指标之间都极显著正相关或负相关。
因此,变量内部存在显著的多重共线性,直接使用原始数据作为变量进行典型相关分析是不合理的。所以,我们先利用因子分析,去除变量内部的多重共线性。
7.3因子分析
将“葡萄和葡萄酒选定指标汇总表”导入SPSS做因子分析。得到下面一组表格:
表(7):KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。 .753
Bartlett 的球形度检验 近似卡方 1055.342
Df 153
Sig. .000
由上表可以看出KMO值为0.753,Bartlett的球形度检验近似卡方值为
9
1055.342,数值较大,且显著性水平小于0.01,说明适合做因子分析。
根据附件3中的在“主成份确定”表,可以看出前6个主成份的累计贡献率达到85.160%,已经超过85%,根据主成分选取指标的原则,选取前6个主成分完全可以来代表19项指标。因此,选择该6个主成分,并定义为F,F, F, F, 1234F,F。由“主成份确定”表中的成份矩阵表可以得出主成份F可以代表葡萄中的561
单宁、可滴定酸以及葡萄酒中除L*(D65)之外的所有指标的信息,同理,主成份F可以代表葡萄中总糖、还原糖以及可溶性固形物的信息,其他不一一赘述。 2
[2]7.4典型相关分析
鉴于红白葡萄酒在加工工艺等方面的不同,在这里整理数据对红白葡萄酒分别做典型相关分析。得到结果见附件3中“葡萄与红葡萄酒典型相关分析数据”表与“葡萄与白葡萄酒典型相关分析数据”表。
以红葡萄酒为例分析表中数据:
表(8):典型相关分析
Canonical Correlations
1 .978
2 .842
3 .773
4 .674
5 .570
6 .460
7 .367
8 .150
这个表显示第一典型相关系数为0.978,第二典型相关系数为0.842,第三典型相关系数为0.773,均比葡萄指标和葡萄酒指标两组间的除单宁之外的任何一个相关系数大,即综合的典型分析效果好于简单相关分析。
接下来的卡方检验表格显示只有第一典型变量通过了检验,因此葡萄与酒之间的关系可以转化为研究第一对典型相关变量之间的关系。
则因为葡萄与葡萄酒指标之间有不同量纲,所以用标准化之后的系数,可得
U,,0.007x,0.18x,0.005x,0.15x,0.31x,0.12x,0.107x,0.36x,0.105x,0.065x12345678910
在第一对变量中,葡萄指标和酒指标的系数都较为均匀,表明测试结果越好,说明其综合指标越强。其中有两项指标系数为负,表明x、x越高,综合质量越低。 17
同样的道理,对白葡萄进行分析。基本结果大致相同,只是白葡萄的卡方检验通过了两项典型变量。可对两对典型变量同时列方程分析。
葡萄和葡萄酒的理化指标相互之间存在相关关系,葡萄的各指标对葡萄酒的综合影响大于个体指标的影响。比较特殊的是葡萄中的单宁指标,它与葡萄酒的所有指标都有显著关系。
八、问题四的解答
8.1 建立模型
对于葡萄酒样品,首先将6个公因子的数据和样品的评分进行合并(见附件4:
10
表4.1),并导入SPSS数据库中。把公因子作为自变量,评分作为因变量,进行线性回归分析。在此过程中,对于自变量系数的检验,就可以用P值与显著性水平0.1进行比较,当P值越小于0.1,说明该项指标对红葡萄酒的质量影响显著。
8.2 模型求解
(1)6个公因子对红葡萄酒样品质量的影响
在构建的线性模型中,共线性VIF都小于10,说明多重共线性影响因素小53.6%可以被该线性方程说明。在系数检验表中(见附件4:表4.2),可以得到6个公因子P值,与显著性水平0.1比较,得知F2和F6对红葡萄酒质量影响显著。
(2)6个公因子对白葡萄酒样品质量的影响
对于白葡萄酒,在系数检验表中(见附件4:表4.3),可以得到6个公因子P值,与显著性水平0.1比较,得知F1和F6对白葡萄酒质量影响显著。
8.3. 模型结果分析 [4] 通过SPSS软件线性回归分析,我们可以建立公因子指标与葡萄酒质量的线性相关关系,在对自变量系数满足t检验的方法下,F2和F6对红葡萄酒质量影响显著,F1和F6对白葡萄酒质量影响显著,也就是酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,由表中非标准化系数可以表示出指标与葡萄质量的影响。
九、模型的评价
优点:
1.利用SPSS软件强大的数据分析功能,在均值的t检验中,我们将原始的数据输入到数据库中,这样既减小了分析中系统误差,也为以下题目分析数据打下了基础。利用SPSS软件,输出的结果更加明了。我们进行了所有55种样品,红葡萄酒及白葡萄酒三种显著性差异分析,可以充分全面地显示两组评酒员对不同酒类打分的差异。
2.由于各成分的数值量纲差异大,我们利用SPSS分析法中标准化的功能,将各指标的数据标准化,这样能进行聚类分析。
3.讨论葡萄与葡萄酒的理化指标之间的关系时,充分考虑到了组内多重共线性的影响,用因子分析修正,使得典型相关分析的结果更加准确。
4.思路通顺,符合人的一般思维模式;方法较为简单,易于广泛应用。
缺点:
1.在将评酒员对各样品的打分输入到SPSS的数据库中,过程繁琐重复。
2.附件中给定的成分数据庞大,我们取出了一级指标中常用的进行分析,而将其他成分排除在外。这样对葡萄的分析不够全面。并且选取主要指标的方法不够科学。
3.思路不够严谨,在进行因子分析时没有将红白葡萄酒分别分析,与前后不一致。
4.所用软件过于单一,没有引用更高一级的分析方法,而只是使用了很少量的简单编程。
11
十、参考文献
[1]林翠香,《基于数据挖掘的葡萄酒质量识别》,
http://dlib.cnki.net/kns50/scdbsearch/cdbindex.aspx,2012年9月8日
[2]张文彤,《SPSS统计分析高级教程》,北京市西城区德外大街4号,高等教育出版社,2001年9月
[3]程传玲,唐琦,注文良等.烤烟常规化学成分与感官质量的典型相关分析,http://dlib.cnki.net/kns50/detail.aspx?dbname=CJFD2011&filename=GATE20
1101019,2012年9月9日
[4]卢文岱,《SPSS统计分析(第4版)》,北京市海淀区万寿路,电子工业出版社,2011年6月
12
范文三:数学建模-2012年葡萄酒的评价
全国大学生数学建模竞赛优秀论文评析
第二十一篇 葡萄酒质量的影响因素分析
2012年A 题 葡萄酒的评价
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
附件1:葡萄酒品尝评分表(含4个表格);
附件2:葡萄和葡萄酒的理化指标(含2个表格); 附件3:葡萄和葡萄酒的芳香物质(含4个表格); 原题详见2012年全国大学生数学建模竞赛A 题。
葡萄酒质量的影响因素分析
摘要:本文针对葡萄酒和葡萄质量的评价问题,通过t 检验、模糊聚类分析、相关性分析等多种方法,综合分析了评酒员葡萄酒品尝评分结果、葡萄和葡萄酒的理化指标以及葡萄和葡萄酒的芳香物质数据,建立了葡萄和葡萄酒的理化指标对葡萄以及葡萄酒质量的影响关系多元线性回归数学模型,运用EXCEL 、Matlab 软件得出了酿酒葡萄和葡萄酒之间的理化关系。最后,将模型结果和实际酿酒过程相结合,做出了根据酿酒葡萄和葡萄酒理化指标对葡萄酒质量进行评价的模型,对如何固化葡萄酒质量评判标准提出了相关可行性方案。
针对问题一,根据评酒员对葡萄酒品尝评分结果数据,分别对红葡萄和白葡萄,首先运用t 检验分析建立了显著性差异的成对数据t 检验模型,分析出两组评酒员的评酒结果具有显著性差异;再运用方差分析建立了方差分析模型,分析出第二组评酒员的评价结果更为可信。
针对问题二,首先运用相关性分析,确认出葡萄酒与酿酒葡萄之间的一一对应关系。再结合问
*
*
本文获2012年全国一等奖。队员:苏钰,胡金晶,陈成,指导教师:李勇。
306
第二十一篇 葡萄酒质量的影响因素分析
题一中分析得出的第二组评酒员的评价结果可信度更高的结论,依据评酒员的评分结果,运用模糊聚类分析法对葡萄酒质量进行等级评估。最后,结合酿酒葡萄的理化指标数据,建立了红、白葡萄理化指标分级模型。为了方便相关技术人员对葡萄进行迅速分类,本文同时建立了一个葡萄理化指标的快速分级模型。
针对问题三,根据葡萄和葡萄酒的理化指标以及葡萄和葡萄酒的芳香物质数据,运用EXCEL 软件对这些数据加以整理分析,分别得出了红、白葡萄经过发酵变成葡萄酒之后,各项理化指标的变化情况以及变化幅度。同时,结合葡萄酿造的理化知识,对整体变化情况加以分析。最终,从定量和定性两个方面,较为完善的分析了酿酒葡萄和葡萄酒的理化指标之间的联系。
针对问题四,首先运用多元线性回归模型做出葡萄酒质量和葡萄、葡萄酒的理化性质之间的线性关系,通过理化性质指标的系数来分析酿酒葡萄和葡萄酒理化指标对葡萄酒质量的影响。然后,运用模糊综合评价模型分别按照葡萄和葡萄酒的理化性质对葡萄酒质量进行排名。最后将二者的综合排名与评酒员评的实际排名进行比较,从而论证出能够用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
本文通过综合运用上述t 检验分析、方差分析、相关性分析、聚类分析以及线性回归分析等方法,给出了较为完善的葡萄质量理化指标判别模型以供相关技术人员对提供的葡萄进行等级分类,给出了葡萄酒和葡萄理化指标判别模型对葡萄酒质量进行分类的理论依据。同时本文通过对数学模型的推广,分析了在其他领域的应用,并且综合评价了模型的优缺点。
关键词:葡萄;葡萄酒质量;t 检验;模糊聚类;回归分析;Matlab
21.1 问题的重述
21.1.1 背景知识
1.葡萄酒
⑴白葡萄酒:用白葡萄或皮红肉白的葡萄分离发酵制成。酒的颜色微黄带绿,近似无色或浅黄、禾秆黄、金黄。
⑵红葡萄酒:采用皮红肉白或皮肉皆红的葡萄经葡萄皮和汁混合发酵而成。酒色呈自然深宝石红、宝石红、紫红或石榴红。
葡萄的营养很高,而以葡萄为原料的葡萄酒也蕴藏了多种氨基酸、矿物质和维生素,这些物质都是人体必须补充和吸收的营养品。目前,已知的葡萄酒中含有的对人体有益的成分大约就有600种。葡萄酒的营养价值由此也得到了广泛的认可。
2.葡萄酒的酿造
在葡萄酒发酵过程中主要经过下述四个阶段:第一阶段:葡萄糖磷酸化,生成活泼的1,6-二磷酸果糖。第二阶段:1,6-二磷酸果糖分裂为二分子磷酸丙糖。第三阶段:3-磷酸甘油醛经氧化(脱氢) ,并磷酸化,生成1,3-二磷酸甘油酸,然后将高能磷酸键转移给ADP ,以产生ATP ,再经磷酸基变位,和分子内重排,又给出一个高能磷酸链,而后变成丙酮酸。第四阶段:酒精的生成。酵母菌在无氧条件下,将丙酮酸继续降解,产生乙醇。
3.葡萄酒的质量
⑴外观:一般而言,白酒在它年轻时是无色的,但随着陈年时间的增长,颜色会逐渐由浅黄并略带绿色反光;到成熟的麦杆色、金黄色,最后变成金铜色。若变成金铜色时,则表示已经太老不适合饮用了。红酒则相反,它的颜色会随着时间而逐渐变淡,年轻时是深红带紫,然后会渐渐转为正红或樱桃红,再转为红色偏橙红或砖红色,最后呈红褐色。
307
全国大学生数学建模竞赛优秀论文评析
⑵香气:葡萄酒的香气极其丰富和复杂,不同的葡萄品种会产生一些独特的果香。好的葡萄酒香气饱满、充沛、浓郁,所以葡萄酒的香气能够比较真实、准确地反应葡萄酒的内在质量。
⑶口感:小酌一口,并以半漱口的方式,让酒在嘴中充分与空气混合且接触到口中的所有部位;当你捕捉到红葡萄酒的迷人香气时,酒液在你口腔中是如珍珠般的圆滑紧密,如丝绸般的滑润缠绵,让你不忍弃之。此时可归纳、分析出单宁、甜度、酸度、圆润度、成熟度。 21.1.2 相关数据
1.葡萄酒品尝评分表(详见原题附件1); 2.葡萄和葡萄酒的理化指标(详见原题附件2); 3.葡萄和葡萄酒的芳香物质(详见原题附件3)。 21.1.3 要解决的问题
1.问题一:根据附件1中两组评酒员的评价结果,分析其是否有显著性差异;如果有的话,那么哪一组的评分结果更为可靠。
2.问题二:在问题一中葡萄酒质量的评分结果之上,结合附件2中的酿酒葡萄的理化指标,建立定量的酿酒葡萄分级标准,从而对酿酒葡萄进行分级。
3.问题三:综合附件2、3的资料,从定量和定性两方面综合分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.问题四:分别分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
21.2 问题的分析
21.2.1 对问题的总体分析
葡萄酒的评价是一个涉及到葡萄酒外观、香气、口感等诸多方面的问题,同时评酒员的个人偏好也会对评价结果产生影响,因此对某种葡萄酒的评价具有很多的不确定性。随着当今世界人们对高品质生活的追求,葡萄酒的销量越来越庞大,对一种确定性的、不以人的意志为转移的葡萄酒质量评价方法的需求也越来越迫切。因此,本文考虑从葡萄酒和酿酒葡萄的理化指标角度入手,综合分析葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证用其理化指标来评价葡萄酒质量的可靠性。最终,建立起一个以葡萄和葡萄酒的理化指标来判断其质量等级的数学模型,为判断酿酒葡萄和葡萄酒质量提供一个相对完善的理化评判标准。 21.2.2 对具体问题的分析
1.对问题一的分析
根据附件1中的葡萄酒品尝评分表,分析这两组评酒员的评价结果有无显著性差异,并分析哪一组结果更可信。将问题分成两个小问来解决。对于两组评酒员的评价结果有无显著性差异这一问题,采用成对数据t 检验来判定两组评酒员评价结果的平均值的差异是否显著。对于哪一组的结果更可信这一问题,采用方差分析检验来判定哪一组的评价结果更可信。
2.对问题二的分析
根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒的葡萄进行分级。首先采用相关性分析法分析葡萄酒序号与酿酒的葡萄序号之间是否有一一对应的关系。其次对葡萄酒和对应葡萄的理化指标评价结果运用模糊C 均值聚类分析法进行评价分级。再结合葡萄的理化指标,分别得到红、白葡萄的量化分级标准。最后为了方便葡萄酒公司对买到的大量葡萄进行快速分级,本文分别为红、白
308
第二十一篇 葡萄酒质量的影响因素分析
葡萄建立了一个葡萄快速分类法。
3.对问题三的分析
通过对酿酒葡萄和葡萄酒理化指标的研究,建立模型分析这两者之间的联系。附件2、3中给出了红、白葡萄和葡萄酒的理化指标数据和芳香物质数据,对这些数据加以统计分析,分别得出了红、白葡萄发酵后,各项理化指标的变化情况以及变化幅度。同时,结合理化知识,对整体变化情况加以分析。最终,从定量和定性两个方面,较为完善的分析了酿酒葡萄和葡萄酒的理化指标之间的联系情况。
4.对问题四的分析
根据所给数据分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,论证了能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。首先,本文建立葡萄酒质量评价值与葡萄和葡萄酒各个理化指标之间的多元线性关系,用各指标的系数分析其影响;然后建立模糊综合评价模型分别根据葡萄和葡萄酒理化指标做出葡萄酒的质量排名,将综合排名与评酒员评价得出的排名顺序相比较,进一步评估用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是否合理。
21.3 模型的假设
1.各类型葡萄酒的酿造流程正常且正规;
2.葡萄和葡萄酒理化指标中未给出检测值的理化指标,含量视为零;
3.本文中的葡萄酒都为全汁葡萄酒,而非半汁葡萄酒,即都是100%葡萄汁酿制而成; 4.红、白葡萄酒分别由红、白葡萄酿造而成,且葡萄和这种葡萄酿制的葡萄酒的序号一一对应(已在问题二中论证,符合假设基本原理);
5.附件3中没有显示数据的地方表示仪器没有检测到样品该成分,即该成分含量微小,视为零。
21.4 名词解释与符号说明
21.4.1 名词解释
1.可信度:指评酒员对葡萄酒质量评分结果的可信程度;
2.显著性差异:统计学上对数据差异性的评价。当数据之间具有了显著性差异,就说明参与比对的数据不是来自于同一总体,而是来自于具有差异的两个不同总体;
3.模糊聚类分析:聚类分析是数理统计中的一种多元分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。 21.4.2 符号说明
序号 1 2 3 4 5 6 7
符号
x i y i
符号说明
第一组待评价葡萄酒样品 第二组待评价葡萄酒样品 评酒员评酒的各个评价指标
z j
u i
第一组葡萄酒样品的评价总分
v i 第二组葡萄酒样品的评价总分
第一组第m 个评酒员对于第i 个葡萄酒样品第j 个评价指标的m
x ij
评价值 m y ij 第二组第m 个评酒员对于第i 个葡萄酒样品第j 个评价指标的
309
全国大学生数学建模竞赛优秀论文评析
21.5 模型的建立与求解
21.5.1 问题一的分析与求解
1.对问题的分析
根据附件1中的葡萄酒品尝评分表分析这两组评酒员的评价结果有无显著性差异,并分析哪一组结果更可信。将问题划分成两个小问题:一是分析两组评酒员的评价结果有无显著性差异。对于这个问题采用成对数据t 检验来判定两组评酒员评价结果的平均值的差异是否显著,通过比较p 双尾概率与之前规定的显著性水平α的大小来判断是否拒绝原假设,拒绝则有显著性差异;二是判断两组评酒员的评价结果哪一组更可信。对于这个问题采用方差分析法来判定,通过EXCEL 软件中的数据分析工具做出方差分析表,然后算出每个样品的平均方差,最后对平均方差进行汇总,分别比较红、白葡萄酒两组评酒员评价结果的平均方差和的大小,方差和小的评价结果更可信。最后,对红、白两种葡萄酒评价值的判定结果进行综合分析,得出两组中哪组的评分结果更可信。
2.对问题的求解 模型Ⅰ t 检验模型 ⑴建模思路
首先,针对红、白葡萄酒分别求出两组评酒员对所有葡萄酒的各项评价指标去掉最高分和最低分后的平均评分值,以每个指标的所有评酒员的平均评价值为各个样本,利用Excel 软件对两组评酒员每个指标的平均值样本进行t 检验:平均值的成对二样本分析,根据最后得出的概率p ,判断其是否小于假设的α值,若小于则拒绝原假设,即存在显著性差异,否则两组评酒员的评价结果之间无显著性差异。
⑵模型的建立
问题要求对两组评酒员的评价结果分析有无显著性差异。由于所有评酒员没有专业上的水平差异,故以红葡萄酒为例(白葡萄酒与其处理方法相同),将其每个指标求取平均值,因而采用主要用于检验两个处理平均数差异是否显著的t 检验对问题予以求解。
①提出假设
a . 无效假设H 0:μ1=μ2,即两组评酒员每个指标的平均值相等
b . 备择假设H A :μ1≠μ2,即两组评酒员每个指标的平均值不相等,亦即两组评酒员的评价结果存在显著性差异。
②确定显著性水平
定义1 显著性水平:能否定H 0的人为规定的概率标准称为显著性水平,记作α。 依据小概率原理,规定显著性水平α=0. 05。
③选定检验方法,计算检验统计量,确定概率值作出推断 选用平均值的成对二样本分析进行检验:
310
第二十一篇 葡萄酒质量的影响因素分析
首先,做出每个指标的所有评酒员的平均评价值。设x i 和y i (i =1, 2, , 27)分别表示第一、二组各个葡萄酒样品,z j , j =1, 2, , 9分别表示澄清度、色调等各个评价指标,用u i 和v i (i =1, 2, , 27)
m m
分别表示第一、二组各葡萄酒样品的评价总分,x ij 和y ij (m =1, 2, , 10)分别表示一、二组第m 个
评酒员对于第i 个葡萄酒样品第j 个评价指标的评价值,分别求出对于各个葡萄酒样品十个评酒员对于每个指标z j 的平均评价值,即:
ij =
210
x 1ij +x ij + +x ij
10
9
,ij =
210
y 1ij +y ij + +y ij
10
9
然后再对每个葡萄酒样品的平均值进行加总得到评价总分,即:
u i =∑ij ,v i =∑ij
j =1
j =1
9)分别表示求平均后第j 个接着,以X j =(1j , 2j , , 27j )和Y j =(1j , 2j , , 27j )(j =1, 2, ,
指标的各葡萄酒样品组成的均值样本,U 和V 分别表示第一、二组各葡萄酒样品的评价均值总分样本,利用Excel 软件对两组评酒员每个指标的均值样本以及均值总分样本进行平均值的成对二样本分析t 检验。
④作出推断结论:是否接受假设
根据最后得出的结果P ,判断其是否小于假设的α=0. 05。若小于则拒绝原假设,即存在显著性差异,否则两组评酒员的评价结果之间无显著性差异。
⑶模型的求解
根据t 检验模型代入附件1表格中的具体值,得到第一、二组对红、白葡萄酒评分结果的平均总分。
利用Excel 软件对两组评酒员每个指标的均值样本以及均值总分样本进行平均值的成对二样本分析T 检验后得到红、白葡萄酒各指标和总分t 检验:成对双样本均值分析(见表21-1)
由得出的结果分析红、白葡萄酒的总评价值均小于0.05,拒绝原假设,即两组评酒员的评价结果有显著性差异。 模型Ⅱ 方差分析模型 ⑴模型的准备 ①建模思路:
首先,针对红葡萄酒和白葡萄酒分别求出两组每个评酒员对每个葡萄酒样品的总评分值,以每个样品的所有评酒员的综合评分值为样本,求出每个样本的样本方差。然后,算出最后的平均样本
311
全国大学生数学建模竞赛优秀论文评析
方差。对于同一种葡萄酒,一般评酒员们最后品尝出的评价结果应该相差不是很大,即同一样品的葡萄酒不同评酒员的评价结果方差较小的一组评分结果较为可信。
②问题分析:
由于要分析两组是否有显著性差异,所以先要验证每组数据是否满足正态性分布。为了计算方便,现将每个评酒员所品的每一种酒总分作为研究对象,所以对于红酒有27?10=270个研究对象;对于白酒有28?10=280个研究对象。将每一组的研究对象看作一个矩阵,利用matlab 来进行正态性检验。
判断正态性是否存在:
①通过频数分布直方图和正态概率图(normal probability plot)能够直观的反映出原数据是否满足正态分布,见图21-1和图21-2;
②若布尔变量h=0,表示不拒绝零假设,说明提出的假设是合理的; ③若95%的置信区间完全包括均值,则说明满足正态性; ④若sig>0.5,则不能拒绝零假设。 综上即可判断正态性存在。
对红葡萄进行正态性检验,在Matlab 中得到正态性判断结果:
P r o b a b i l i t y
Data
图21-1 正态概率图 图21-2 频数分布直方图
检验结果:①由频数分布直方图和正态概率图可以明显看出满足正态性分布;②布尔变量h=0,表示不拒绝零假设,说明提出的假设“均值70.6093”是合理的;③95%的置信区间为[68.6886,72.5301],它完全包括70.6093,且精度很高;④sig 的值为1,远超过0.5,不能拒绝零假设。综上所述红葡萄理化指标数据存在正态性。
同样方法计算出红葡萄酒和白葡萄、白葡萄酒理化指标数据也都存在正态性。 ③定义2 可信度:指品酒员对葡萄酒质量的评分结果的准确度。 ⑵模型的建立
问题要求对两组评酒员的评价结果判断哪一组可信度更高,以红葡萄酒为例(白葡萄酒处理方法与其完全相同),将各评价指标的评价结果进行综合汇总得出评价的总得分,采用单因素方差分析对组间和组内的均方差进行比较,进而得出哪一组更为可信。
①对评价结果进行综合汇总
分别对一、二组第m 个评酒员对于第i 个葡萄酒样品所有评价指标的评价值汇总,即总得分为:
9
X i =
m
m
∑x
j =19j =1
m
ij
,i =1, 2, , 27; j =1, 2, , 9; m =1, 2, , 10; ,i =1, 2, , 27; j =1, 2, , 9; m =1, 2, , 10
Y i =
∑y
m ij
②进行单因素方差分析,利用方差比较结果
利用Excel 软件中数据分析工具中的“方差分析:单因素方差分析”进行数据处理,然后将各
312
第二十一篇 葡萄酒质量的影响因素分析
组的每个葡萄酒样本总方差求平均,即:(i =1, 2, , 27)
i
第一组:s x =
每个葡萄酒样本总方差每个葡萄酒样本总方差
;第二组:s i y =
评酒员人数评酒员人数
最后对每组求得的平均方差求和(注:其中红葡萄酒中第20个葡萄酒样品第四个评酒员的评价结果缺省,在计算其方差平均值时应减少一个评酒员人数),即:
S x =
27
27
∑
i =1
i
s x
,S y =
∑s
i =1
i y
比较S x 和S y 的大小,较小的一组可信度更高。 ⑶模型的求解
根据方差分析模型,结合附件1表格中的具体值,得到综合汇总后的第一、二组每个评酒员对各红、白葡萄酒样品的评价总得分情况。
利用Excel 软件中数据分析工具中的“方差分析:单因素方差分析”进行处理后,得到第一组红葡萄酒单因素方差分析(见表21-2、21-3),第二组红葡萄酒单因素方差分析(见表21-4、21-5)。
313
全国大学生数学建模竞赛优秀论文评析
分析比较后发现红葡萄酒的第一组的平均方差和大于第二组的平均方差和,即:
S x =157.1894 >S y =90. 76889
所以对于红葡萄酒而言,第二组评价结果可信度更高。
同样再对第一、二组白葡萄酒进行单因素方差分析,分析比较后发现第一组的平均方差和大于第二组的平均方差和,即:
S x =361. 73 >S y =156. 8544
所以对于白葡萄酒而言,第二组评价结果可信度更高。
综上所述,不论是红葡萄酒还是白葡萄酒,第二组评酒员的可信度都要明显高于第一组。所以,第二组评酒员的评价结果可信度更高。 21.5.2 问题二的分析与求解
1.对问题的分析
问题要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒的葡萄进行分级。由问题一得到结论:第二组评酒员的评价结果更可信,故选用第二组的评价指标进行问题的求解。首先,采用相关性分析法分析葡萄酒序号与酿酒的葡萄序号之间是否有一一对应的关系。经过检验,它们之间是一一对应的,即:1号白葡萄酒就对应着1号葡萄,2号白葡萄酒就对应着2号葡萄等等。然后,对各种葡萄酒样品的每个评价指标的所有评酒员的评价结果求平均,再对平均值求和分别得到红、白葡萄酒的评价总分,进而运用模糊C 均值聚类分析法进行评价分级。由于每一种葡萄酒都对应不同的
314
第二十一篇 葡萄酒质量的影响因素分析
葡萄原料,故葡萄酒的分级可以进一步反推出葡萄的分级。将每个级别的葡萄的各个理化性质对应列出,得到红、白葡萄的量化分级标准。最终,为方便公司对提供的大量葡萄进行快速分级,分别为红、白葡萄建立了一个葡萄快速分类法。
2.对问题的求解 模型Ⅲ 相关性分析模型 ⑴建模思路
由于葡萄酒的评价指标有多个,故先利用变异系数法对葡萄和葡萄酒的理化指标计算权重。然后,利用加权求和法分别计算出葡萄和葡萄酒的理化指标总体评价值。最后,利用相关分析法,分别定量评估出红、白葡萄酒质量和酿酒葡萄理化指标之间的相关性。
⑵模型的建立
①变异系数法计算权重
n
1
先分别计算出第i 项指标的平均值:i =
n 然后计算出第i
项指标的方差:s i 2
∑a
j =1n j =1
ij
1=?n -1
∑(a
ij
-i ) 2
再计算出第i 项指标的变异系数:v i =最后对v i 进行归一化:w i =
v i
s i
i
∑v i
i =1
m
就得到了第i 项指标的权数。 ②加权求和计算理化指标总体评价值
在附件2中,带入求出的第i 项指标的权重,分别求出红、白葡萄和葡萄酒的理化指标总体评价值。
③葡萄酒和酿酒葡萄间的相关性分析
n
∑(x -)(y -)÷(n -1)
r =
j =1
÷(n -1)
∑(x -)2÷(n -1)
j =1
n
∑(y -)
j =1
n
2
最终得到红、白葡萄酒和酿酒葡萄之间的相关性分别为:0.58和0.62,都大于0.5。因此,葡萄酒序号与酿酒的葡萄序号之间有一一对应的关系,即:1号白葡萄酒就对应着1号葡萄,2号白葡萄酒就对应着2号葡萄,依此类推。
模型Ⅳ 葡萄理化指标分级模型 ⑴建模思路
由于葡萄酒的评价指标有多个,故先对各个葡萄酒样品的每个评价指标的评价结果求平均,然后对每个样品的平均值求和得到总分,然后采用模糊C 均值聚类法分别对红、白葡萄酒进行分类,由葡萄酒的分类推得相应的酿酒葡萄的分类。最后,联系红、白葡萄的理化指标,建立葡萄理化指标分级标准。
⑵模型的建立
315
全国大学生数学建模竞赛优秀论文评析
首先,仍以红葡萄酒为例,利用问题一中的第二组评酒员品尝总分v i =∑ij ,采用模糊C 均值
j =1
9
聚类法对两组的葡萄酒质量进行分类。
定义3 模糊C 均值聚类:定义目标函数为J (U , V )=∑∑(u ik )m (d ik )2,显然J (U , V )表示了各类
k =1i =1n
c
样本到聚类中心的加权距离平方和,权重是样本x k 对第i 类隶属度的m 次方,聚类准则取为求得极小值:(min ){J (U , V )}
其中聚类中心为:v i =∑(u ik )x k /∑(u ik )m , i =1, 2, , c 且m >1;
m
k =1
k =1
n
n
其中u ik =1/∑(d ik /d jk m -1,d ik =x k -v i 。
j =1
2
2
得到葡萄酒的分级后,再由附件2得到相应的葡萄分级。按照级别将葡萄重新分类,并将每个级别的葡萄的各个理化性质列出,最后得到酿酒葡萄的理化指标分级标准。
⑶模型的求解
将问题一中已求得的u i 和v i ,利用Matlab 软件代入模糊C 均值聚类分析模型进行分级(程序见附录程序2),得到红、白葡萄酒的总分分级情况:
①红葡萄酒总分分级:
L1 =6,7,8,15,18;L2 =11;L3 =4,5,14,19,21,22,24,26,27;L4 =2,3,9,17,20,23;L5 =1,10,12,13,16,25。
②白葡萄酒总分分级:
L1 =10,15,22,28;L2 =7,8,11,12,13,26;L3 =1,2,3,4,6,14,18,19,20,23,24,27;L4 =16;L5 =5,9,17,21,25。
因为葡萄酒序号与所用葡萄序号一一对应,所以得出红、白葡萄分级结果,见表21-6。
综合各类葡萄的理化指标,得出葡萄理化指标与葡萄分级之间的关联,从而分别建立红、白葡萄理化指标分级模型。葡萄酒酿酒人员可以分别根据这两个模型,对采购到的红、白葡萄分别进行分级,从而为后续不同级别的葡萄酒制作奠定良好基础。
为了方便葡萄酒酿造人员对采购来的葡萄进行快速分类,建立以下快速葡萄理化指标分级模型:
①对葡萄抽检,检测各类理化指标含量;
②对葡萄理化指标的检测值加权求和得到葡萄理化性质得分score ,权值见表21-7;
316
第二十一篇 葡萄酒质量的影响因素分析
③根据葡萄理化性质得分score ,查询快速葡萄理化指标分级模型: 红葡萄理化指标快速分级模型:
score >185?一级
?
二级140≤score <>
level =?三级135≤score <>
?四级130≤score <135??score>135??score><>
白葡萄理化指标快速分级模型:
score >165?一级?
二级162≤score <>
level =?三级160≤score <>
?四级115≤score <160??score>160??score><>
④对葡萄进行快速分级。 21.5.3 问题三的分析与求解
1.对问题的分析
问题三要求通过对酿酒葡萄和葡萄酒理化指标的研究,建立模型分析这两者之间的联系。附件2、3中给出了红、白葡萄和葡萄酒的理化指标数据,对这些数据加以整理分析,分别得出了红、白葡萄经过发酵变成葡萄酒之后,各项理化指标的变化情况以及变化幅度。同时,结合理化知识,对整体变化情况加以分析。最终,从定量和定性两个方面,较为完善的分析了酿酒葡萄和葡萄酒的理化指标之间的联系情况。
2.对问题的求解 ⑴建模的思路
通过问题三的具体分析,将思路整理成流程图(见图21-3)。 ⑵模型的建立 ①红葡萄与红葡萄酒 i) 理化指标间的联系:
对红葡萄酿造前后理化成分进行分析,可以看出红葡萄酒成分变化情况。从中可以看出红葡萄与红葡萄酒的理化成分变化各异,有一些成分发酵前后都存在,但含量发生了变化,例如:单宁和花色苷;有一些成分在发酵过程中完全转化为其他成分,消失了,例如:氨基酸、蛋白质和多糖;还新生成了一些成分。因为成分种类多,变化很复杂,所以将红葡萄酿造前后理化成分变化情况用图表来清晰表示(如表21-8)。
317
全国大学生数学建模竞赛优秀论文评析
图21-3 理化指标联系思路图 ii) 芳香指标间的联系:
对红葡萄酿造前后芳香物质进行分析,可以看出红葡萄酒物质变化情况。从中可以看出红葡萄与红葡萄酒的芳香物质变化各异,有一些成分发酵前后都存在,但含量发生了变化,例如:丙酸乙酯、苯乙醇。有一些物质在发酵过程中完全转化为其他成分,消失了,例如:乙醛、三氯甲烷和萘。还新生成了一些成分,如:乙醇和乳酸乙酯。因为成分种类较多,变化很复杂,所以将红葡萄酿造前后芳香物质变化情况用图表来清晰表示。
②白葡萄与白葡萄酒 i) 理化指标间的联系:
对红、白葡萄酿造前后理化成分进行分析,可以看出红、白葡萄酒成分变化情况。从中可以看出红、白葡萄与红、白葡萄酒的理化成分变化各异,有一些成分发酵前后都存在,但含量发生了变化,例如:单宁、总酚。有一些成分在发酵过程中完全转化为其他成分,消失了,例如:氨基酸、蛋白质和多糖。还新生成了一些成分。因为成分种类较多,变化很复杂,所以将白葡萄酿造前后理化成分变化情况用图表来清晰表示。
ii) 芳香指标间的联系:
对白葡萄酿造前后芳香指标进行分析,可以看出白葡萄酒物质变化情况。从表2中可以看出白葡萄与白葡萄酒的芳香物质变化各异,有一些成分发酵前后都存在,但含量发生了变化,例如:5-甲基糠醛、2-甲基-1-丙醇。有一些物质在发酵过程中完全转化为其他成分,消失了,例如:乙醛、
318
第二十一篇 葡萄酒质量的影响因素分析
6-甲基-5-庚烯-2-醇和甲苯。还新生成了一些成分,如:乙醇、庚酸乙酯和乳酸乙酯。因为成分种类较多,变化很复杂,所以将白葡萄酿造前后芳香物质变化情况用图表来清晰表示(如图21-4)。
③整体分析葡萄酒酿造化学原理如图21-4。
图21-4 葡萄酒酿造化学原理
20.5.4 问题四的分析与求解
1.对问题的分析
根据附件1、2、3中的数据分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。首先,针对问题的前半部分,取问题一中求得的葡萄酒的评价结果人为去掉最高和最低分的总平均值为因变量,分别以葡萄和葡萄酒的各个理化指标为自变量做多元线性回归分析,根据各自变量前的系数分析葡萄和葡萄酒的理化指标对葡萄酒质量的影响。对于问题的后半部分,先将问题一中由附件1得到的葡萄酒的评价排名作为参考排名,建立模糊综合评价模型根据葡萄和葡萄酒的理化指标值分别对葡萄酒进行排序,最后将得到的两组排名综合,与参考排名对比分析,看二者是否基本一致。若二者排名基本一致,就说明可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
2.对问题的求解
模型V 多元线性回归模型 ⑴建模思路
因为葡萄和葡萄酒的理化指标有多个,为了研究各理化指标对葡萄酒质量的影响,选择建立葡萄酒质量与葡萄和葡萄酒理化指标之间的多元线性模型来解决问题。
⑵模型的建立
首先,选取附件所给的大部分指标,对数据进行处理,得到红、白葡萄和葡萄酒各理化指标值。根据数据,结合问题一中求得的葡萄酒评价结果的总平均值,利用Matlab 软件,做出葡萄酒评价结果和红白葡萄酒及红白葡萄的多元线性关系模型。
⑶模型的求解
以红葡萄酒为例,将具体数值带入多元线性回归模型中,在Matlab 中输入相应的程序。 ①首先做出红葡萄酒的评价结果和葡萄酒的各个理化指标的散点图(如图21-5), 经判断可以进行多元线性回归。Matlab 求解运算后得到结果:
b3 =8.6690 -0.0014 0.0350 -0.0962 0.0739 0.0716 -1.2589 -0.0257 -0.0031 -0.0056 即红葡萄酒的评价结果和红葡萄酒的各个理化指标之间的线性关系为:
319
全国大学生数学建模竞赛优秀论文评析 Y =8.669-0.0014X 1+0.035X 2-0.0962X 3+0.0739X 4+0.0716X 5
-1.2589X 6-0.0257X 7-0.0031X 8-0.0056X 9
分析:红葡萄酒的质量受到红葡萄酒理化指标的多方面影响,花色苷、总酚、DPPH 半抑制体积、色泽L*(D65)、色泽a*(D65)和色泽b*(D65)对葡萄酒质量产生的是消极影响,其中DPPH 半抑制体积影响最大;单宁、酒总黄酮和白藜芦醇产生的是积极影响,其中酒总黄酮和白藜芦醇的影响相对单宁较大。做出残差与置信区间的图形,见图21-6。
R e s i d u a l s
Case Number
图21-5 红葡萄酒评价结果和葡萄酒理化指标散点图 图21-6 红葡萄酒残差与置信区间图形
由图21-6可看出没有异常点。
s3 =0.9108 14.7405 0.0000 0.0202
可决系数R=0.9108,说明拟合度较高。h =0,p =1 ,h=0表明残差服从正态分布,进而由t 检验可知h=0,p=1,故残差服从均值为零的正态分布。
②然后做出红葡萄酒的评价结果和酿红葡萄酒的葡萄的理化指标的散点图,如图21-7。 经判断可以进行多元线性回归。
Matlab 求解运算后得到结果:
b=10.9077 -0.0000 0.0085 -0.0196 0.0018 -0.0433 -0.1020 -0.2177 -0.0313 0.0011 -9.7942 0.0643 0.0102 0.1226 0.0482 -0.0056 -0.0063 0.0047 0.0223 -0.1705 -0.0517 0.0046 -0.0035 0.3662 -0.0607 -0.2186
即红葡萄酒的评价结果和红葡萄的各个理化指标之间的线性关系为:
Y =10. 9077-0*X 1+0. 0085*X 2-0. 0196*X 3+0. 0018*X 4-0. 0433*X 5-0. 1020*X 6-0. 2177
*X 7-0. 0313*X 8+0. 0011*X 9-9. 7942*X 10+0. 0643*X 11+0. 0102*X 12+0. 1226*X 13+0. 0482*X 14-0. 0056*X 15-0. 0063*X 16+0. 0047*X 17+0. 0223*X 18-0. 1705*X 19-0. 0517*X 20+0. 0046*X 21-
0. 0035*X 22+0. 3662*X 23-0. 0607*X 24-0. 2186*X 25
分析:红葡萄酒的质量受到酿红葡萄酒的葡萄的各理化指标的多方面影响,对葡萄酒质量产生影响较大的依次是DPPH 自由基1/IC50、和果皮颜色L 和柠檬酸,其中氨基酸含量、蛋白质、VC 含量和白藜芦醇可以增加葡萄酒中的营养价值,花色苷、总酚、单宁、葡萄总黄酮、还原糖、果穗质量、果梗比产生积极影响。相比而言,酸、褐变度、DPPH 自由基1/IC50、黄酮醇等产生消极影响。做出残差与置信区间的图形,见图21-8。
R e s i d u a l s
图21-7 红葡萄酒的评价结果和葡萄理化指标散点图 图21-8 红葡萄残差与置信区间图形
Case Number
由图21-8可看出没有异常点。
320
第二十一篇 葡萄酒质量的影响因素分析
s =0.9944 7.1113 0.2892 0.0230
可知可决系数R=0.9944,说明拟合效果很好。h =0 ,p =1,h=0表明残差服从正态分布,进而由t 检验可知h=0,p=1,故残差服从均值为零的正态分布。
同红葡萄酒一样,可得白葡萄酒质量与白葡萄酒和酿酒葡萄的多元线性关系: 白葡萄酒质量与白葡萄酒理化性质的多元线性关系为:
Y =-20.2787-0.1904X 1+0.5382X 2-0.0934X 3+0.1331X 4+3.0762X 5+0.265X 6+0.1318X 7+0.1868X 8
分析:白葡萄酒的质量受到白葡萄酒的理化指标的多方面影响,对葡萄酒质量产生影响较大的依次是DPPH 半抑制体积、总酚和色度L*(D65),其中总酚、白藜芦醇和色度产生积极影响,酒总黄酮等产生消极影响。
s4 =0.6434 3.1578 0.0289 0.0372
可知可决系数R=0.6434,说明拟合度效果较好。h =0,p =1,h=0表明残差服从正态分布,进而由t 检验可知h=0,p=1,故残差服从均值为零的正态分布。
白葡萄酒质量与白葡萄理化性质的多元线性关系为:
Y =7. 8147-0. 0003X 1+0. 002X 2+0. 3864X 3-0. 0465X 4+0. 1632X 5+0. 1259X 6+0. 0498X 7+0. 0046X 8-0X 9+1. 7770X 10+0. 1484X 11+0. 1043X 12-0. 2742X 13+0. 1834X 14-0. 0208X 15+0. 0008X 16+0. 0051X 17+0. 0145X 18-0. 7306X 19-0. 0985X 20+0. 0025X 21+0. 0008X 22-0. 0548X 23-0. 0065X 24+0. 0042X 25
分析:白葡萄酒的质量受到酿白葡萄酒的葡萄的各理化指标的多方面影响,对葡萄酒质量产生
影响较大的依次是DPPH 半抑制体积、可滴定酸和VC 含量。其中氨基酸含量、蛋白质、VC 含量和白藜芦醇可以增加葡萄酒中的营养价值,葡萄总黄酮、黄酮醇、可滴定酸等产生消极影响,苹果酸、柠檬酸和总酚等产生消极影响。
s =0.8255 0.3786 0.9090 0.2368
可知可决系数R=0.8255,说明拟合度效果较好。h =0,p =1
h=0表明残差服从正态分布,进而由t 检验可知h=0,p=1,故残差服从均值为零的正态分布。 模型Ⅵ 模糊综合评价模型 ⑴模型的准备 建模思路
根据酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量建立模糊综合评价模型,将最后得到的葡萄和葡萄酒排名成绩综合后与评酒员评价得到的排名进行比较分析论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
⑵模型的建立 ①首先建立理想方案
本文选用模糊综合评价模型对葡萄酒的质量进行评价。设有U ={u 1, u 2, , u n }是待评价的n 个葡萄酒样品,V ={v 1, v 2, , v m }是评价因素集合,将U 中的每个方案用V 中的每个因素进行衡量,得到一个观测矩阵:
?a 11 a A = 21
a ?m 1
a 12a 22 a m 2
a 1n ?
?a 2n ? ??a mn ??
其中a ij 表示第j 个样品关于第i 项评价因素的指标值。 ,当a ij 为效益型指标??m ax {a ij }根据u i 0=?建立理想方案u 0。
,当a ij 为成本型指标??m in {a ij }
②建立相对偏差模糊矩阵
321
全国大学生数学建模竞赛优秀论文评析
根据r ij =
max a ij -min a ij
a ij -u i 0
计算得出相对偏差模糊矩阵:
?r 11 r R = 21~
r ?m 1
r 12r 22 r m 2
r 1n ??r 2n ?. ??r mn ??
③确定各评价指标的权数
利用变异系数法来确定各评价指标的权数。计算各指标的变异系数公式为:b i =
s i
i
n
1n 12
其中i =∑a ij 为第i 项指标的平均值,s i =?∑a ij -12是第i 项指标值的方差。
n -1i =1n j =1
()
对b i 进行归一化,即得到各指标的权数:w i =b i
④建立综合评价模型
∑b
i =1
m
i
由F i =∑w i r ij 计算出F i ,且若F t
j =1
7
酒葡萄和葡萄酒的理化指标对红白两种葡萄酒的质量进行排序。
⑶模型的求解
将红、白葡萄和葡萄酒酒各理化指标值代入模糊综合评价模型中,最后得出葡萄酒质量按照葡萄和葡萄酒理化指标排名的名次比较。
为了更加直观的显现红白葡萄酒综合排名与评酒员评价排名吻合度情况,作出折线图(见图21-9、21-10)。
图21-9 红葡萄酒综合排名与评酒员评价排名比较 图21-10 白葡萄酒综合排名与评酒员评价排名比较
由图21-9和图21-10可以看出红白葡萄酒综合排名与评酒员评价排名吻合度较高,故能够用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
在实际生活中,为了更加准确的对葡萄酒质量进行评估,可以先利用葡萄和葡萄酒的理化指标对葡萄酒质量进行定量分析,再结合评酒员的评分情况来做综合评估,从而更加完善合理的对葡萄酒质量进行分析。
20.6 误差分析
在附件1中,评酒员4号对20号红葡萄酒样品的色调未给予打分。因此,舍去了这组值,这样就产生了一定的误差。但经过综合取平均值,在一定程度上消除了差异,所以这个误差对整个模型的影响不大。
在问题四中,虽然运用葡萄和葡萄酒理化指标来判断葡萄酒质量结果和评酒员品尝打分结果不
322
第二十一篇 葡萄酒质量的影响因素分析
完全一致,所以对葡萄酒质量的判断会产生一定的误差。
20.7 模型的评价
1.优点:
⑴本文巧妙运用思路分解图,将建模思路完整清晰的展现出来; ⑵创新性的定义可信度,使得评价员对葡萄酒的评价结果得以量化; ⑶利用Excel 软件对数据进行处理并作出各种图表,简便,直观,快捷;
⑷运用多种数学软件(如Matlab 、Excel ),取长补短,使计算结果更加准确、明晰; ⑸本文综合葡萄酒酿造过程,将定量和定性方法相结合,对葡萄、葡萄酒的理化指标进行了全面的分析;
⑹本文建立的模型与实际紧密联系,充分考虑现实情况的不同阶段,从而使模型更贴近实际,通用性强。
2.缺点:
⑴对于一些数据,对其进行了一些必要的处理,会带来一些误差;
⑵模型中为使计算简便,使所得结果更理想化,忽略了一些次要影响因素。
20.8 模型的改进
1.在问题一中,还可以采用F 检验来判断哪一组结果更可信。最后,综合方差分析法和F 检验分析法,对两组评酒员打分结果可信度进行评价,从而进一步提高结果的可靠性。
2.在问题二中,是根据每个评酒员对葡萄酒打分的平均值,从而确定葡萄酒的质量。还可以进一步结合评酒员的评酒分类指标来详细地对葡萄酒质量进行评估,从而更加完善地对葡萄酒质量进行分级。
20.8 模型的推广
1.在问题一中,本文所用的t 检验模型不仅适用于判断两组评酒员的评价结果的显著性差异,它还适用于其他各种经济、社会、体育等活动两组评分结果的显著性差异判断。
2.本文建立的方差分析模型不仅适用于判断葡萄酒评价结果的可信度,还适用于其他需要判断多组结果可信度的情况。比如:各种赛事时,为防止由于各种原因导致的打分不公正现象,采取多组共同打分的方式。最后,就可利用本文的方差分析法判断每组打分结果的可信度,从而最终给出一个较为公平合理的打分结果。
3.在问题二中,本文分别建立了红、白葡萄理化指标分级标准。这个分级标准可以帮助酿酒人员对采购来的葡萄进行快速分级,从而为后续不同等级葡萄酒的制作奠定良好的基础。当今世界人们追逐高品质的生活,每年葡萄酒消耗量日益庞大,葡萄酒供应商的葡萄酒制作数量更为惊人。因此,这个红、白葡萄理化指标分级标准应用前景广阔。
4.在问题四中,本文从定量和定性两个方面论证了使用葡萄和葡萄酒的理化指标来评价葡萄酒质量的可靠性较高。因此,可以将这个葡萄酒理化指标评级标准定量固化下来,以后就根据葡萄和葡萄酒的理化指标来判断葡萄酒的质量,从而有效规避评酒员的个人主观因素对葡萄酒评分的影响,更可以缩减每年为给各类葡萄酒评级而带来的大量费用。
参考文献
[1] 中国葡萄酒信息网:http://www.winechina.com/; [2] 葡萄酒资讯网: http://www.wines-info.com/;
[3] 山东师范大学发酵工艺学:http://www.lsc.sdnu.edu.cn/guawang/fajiao/24_70.htm;
323
全国大学生数学建模竞赛优秀论文评析
[4] 李兆斌等译.Excel 2003与VBA 编程[M].电子工业出版社.2004.9. [5] 吴礼斌. 经济数学实验与建模[M].天津大学出版社.2009.8. ; [6] 姜启源等. 数学模型(第三版)[M].高等教育出版社.2003.8.
[7] 李运等. 统计分析在葡萄酒质量评价中的应用[J]. 酿酒科技.2009年第4期:79-82.
论文特色
◆标题定位:“葡萄酒质量的影响因素分析”既紧扣研究对象葡萄酒质量,又包含定量研究的指标影响因素,标题定位准确、简洁、传统。
◆方法鉴赏:使用成对数据t 检验、方差分析、模糊C 均值聚类、相关性分析、多元回归分析、模糊综合评价等方法,方法科学,使用恰当。且建立了可信度、显著性差异、模糊聚类分析等概念。
◆写作评析:论文摘要按总分总结构交待,字数得当、简洁经典、全面到位;关键词:葡萄、葡萄酒质量、t 检验、模糊聚类、回归分析、Matlab 分别与问题、方法、模型、算法和软件等紧密联系,恰当准确。问题的重述将原始杂乱无章的问题梳理成背景知识、相关数据、要解决的问题三个方面,层次清晰、条理分明,接近建模语言,有利于对问题本质的把握。问题的分析将分问题处理为总体分析和对具体问题的分析,这既点明问题的归属和拟采用的对策,也反映出作者的综合能力和处理问题应变能力。假设适当,具有目的性、针对性和合理性。大量图表的处理反映出作者的计算机使用能力。针对具体问题,作者按建模思路、模型的建立与求解、结果分析等步骤处理,行文有条不紊且图文并茂。
◆其它解读:论文写作较为全面,有误差分析、模型的评价、模型的改进与模型的推广。
没有对模型改进作深入的研究,缺少灵敏度分析。
324
范文四:数学建模-2012年葡萄酒的评价.
全国大学生数学建模竞赛优秀论文评析
306
第二十一篇 葡萄酒质量的影响因素分析
2012年 A 题 葡萄酒的评价
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进 行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打 分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄 的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄 检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附 件 1给出了某一年份一些葡萄酒的评价结果,附件 2和附件 3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝 试建立数学模型讨论下列问题:
1. 分析附件 1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理 化指标来评价葡萄酒的质量?
附件 1:葡萄酒品尝评分表(含 4个表格);
附件 2:葡萄和葡萄酒的理化指标(含 2个表格); 附件 3:葡萄和葡萄酒的芳香物质(含 4个表格); 原题详见 2012年全国大学生数学建模竞赛 A 题。
葡萄酒质量的影响因素分析 *
摘要:本文针对葡萄酒和葡萄质量的评价问题,通过 t 检验、模糊聚类分析、相关性分析等多 种方法,综合分析了评酒员葡萄酒品尝评分结果、葡萄和葡萄酒的理化指标以及葡萄和葡萄酒的芳 香物质数据,建立了葡萄和葡萄酒的理化指标对葡萄以及葡萄酒质量的影响关系多元线性回归数学 模型,运用 EXCEL 、 Matlab 软件得出了酿酒葡萄和葡萄酒之间的理化关系。最后,将模型结果和 实际酿酒过程相结合,做出了根据酿酒葡萄和葡萄酒理化指标对葡萄酒质量进行评价的模型,对如 何固化葡萄酒质量评判标准提出了相关可行性方案。
针对问题一,根据评酒员对葡萄酒品尝评分结果数据,分别对红葡萄和白葡萄,首先运用 t 检 验分析建立了显著性差异的成对数据 t 检验模型,分析出两组评酒员的评酒结果具有显著性差异; 再运用方差分析建立了方差分析模型,分析出第二组评酒员的评价结果更为可信。
针对问题二,首先运用相关性分析,确认出葡萄酒与酿酒葡萄之间的一一对应关系。再结合问
*
本文获 2012年全国一等奖。队员:苏钰,胡金晶,陈成,指导教师:李勇。
第二十一篇 葡萄酒质量的影响因素分析
307
题一中分析得出的第二组评酒员的评价结果可信度更高的结论,依据评酒员的评分结果,运用模糊 聚类分析法对葡萄酒质量进行等级评估。最后,结合酿酒葡萄的理化指标数据,建立了红、白葡萄 理化指标分级模型。为了方便相关技术人员对葡萄进行迅速分类,本文同时建立了一个葡萄理化指 标的快速分级模型。
针对问题三,根据葡萄和葡萄酒的理化指标以及葡萄和葡萄酒的芳香物质数据,运用 EXCEL 软件对这些数据加以整理分析,分别得出了红、白葡萄经过发酵变成葡萄酒之后,各项理化指标的 变化情况以及变化幅度。同时,结合葡萄酿造的理化知识,对整体变化情况加以分析。最终,从定 量和定性两个方面,较为完善的分析了酿酒葡萄和葡萄酒的理化指标之间的联系。
针对问题四,首先运用多元线性回归模型做出葡萄酒质量和葡萄、葡萄酒的理化性质之间的线 性关系,通过理化性质指标的系数来分析酿酒葡萄和葡萄酒理化指标对葡萄酒质量的影响。然后, 运用模糊综合评价模型分别按照葡萄和葡萄酒的理化性质对葡萄酒质量进行排名。最后将二者的综 合排名与评酒员评的实际排名进行比较,从而论证出能够用葡萄和葡萄酒的理化指标来评价葡萄酒 的质量。
本文通过综合运用上述 t 检验分析、方差分析、相关性分析、聚类分析以及线性回归分析等方 法,给出了较为完善的葡萄质量理化指标判别模型以供相关技术人员对提供的葡萄进行等级分类, 给出了葡萄酒和葡萄理化指标判别模型对葡萄酒质量进行分类的理论依据。同时本文通过对数学模 型的推广,分析了在其他领域的应用,并且综合评价了模型的优缺点。
关键词:葡萄;葡萄酒质量; t 检验;模糊聚类;回归分析; Matlab
21.1 问题的重述
21.1.1 背景知识
1.葡萄酒
⑴白葡萄酒:用白葡萄或皮红肉白的葡萄分离发酵制成。 酒的颜色微黄带绿, 近似无色或浅黄、 禾秆黄、金黄。
⑵红葡萄酒:采用皮红肉白或皮肉皆红的葡萄经葡萄皮和汁混合发酵而成。酒色呈自然深宝石 红、宝石红、紫红或石榴红。
葡萄的营养很高,而以葡萄为原料的葡萄酒也蕴藏了多种氨基酸、矿物质和维生素,这 些物质都是人体必须补充和吸收的营养品。目前,已知的葡萄酒中含有的对人体有益的成分 大约就有 600种。葡萄酒的营养价值由此也得到了广泛的认可。
2.葡萄酒的酿造
在葡萄酒发酵过程中主要经过下述四个阶段:第一阶段:葡萄糖磷酸化,生成活泼的 1, 6-二磷 酸果糖。第二阶段:1, 6-二磷酸果糖分裂为二分子磷酸丙糖。第三阶段:3-磷酸甘油醛经氧化 (脱 氢 ) ,并磷酸化,生成 1, 3-二磷酸甘油酸,然后将高能磷酸键转移给 ADP ,以产生 ATP ,再经磷酸 基变位,和分子内重排,又给出一个高能磷酸链,而后变成丙酮酸。第四阶段:酒精的生成。酵母 菌在无氧条件下,将丙酮酸继续降解,产生乙醇。
3.葡萄酒的质量
⑴外观:一般而言,白酒在它年轻时是无色的,但随着陈年时间的增长,颜色会逐渐由浅黄并 略带绿色反光;到成熟的麦杆色、金黄色,最后变成金铜色。若变成金铜色时,则表示已经太老不 适合饮用了。红酒则相反,它的颜色会随着时间而逐渐变淡,年轻时是深红带紫,然后会渐渐转为 正红或樱桃红,再转为红色偏橙红或砖红色,最后呈红褐色。
全国大学生数学建模竞赛优秀论文评析
308
⑵香气:葡萄酒的香气极其丰富和复杂,不同的葡萄品种会产生一些独特的果香。好的葡萄酒 香气饱满、充沛、浓郁,所以葡萄酒的香气能够比较真实、准确地反应葡萄酒的内在质量。
⑶口感:小酌一口, 并以半漱口的方式, 让酒在嘴中充分与空气混合且接触到口中的所有部位; 当你捕捉到红葡萄酒的迷人香气时, 酒液在你口腔中是如珍珠般的圆滑紧密, 如丝绸般的滑润缠绵, 让你不忍弃之。此时可归纳、分析出单宁、甜度、酸度、圆润度、成熟度。 21.1.2 相关数据
1.葡萄酒品尝评分表(详见原题附件 1); 2.葡萄和葡萄酒的理化指标(详见原题附件 2); 3.葡萄和葡萄酒的芳香物质(详见原题附件 3)。 21.1.3 要解决的问题
1.问题一:根据附件 1中两组评酒员的评价结果,分析其是否有显著性差异;如果有的话,那 么哪一组的评分结果更为可靠。
2.问题二:在问题一中葡萄酒质量的评分结果之上,结合附件 2中的酿酒葡萄的理化指标,建 立定量的酿酒葡萄分级标准,从而对酿酒葡萄进行分级。
3.问题三:综合附件 2、 3的资料,从定量和定性两方面综合分析酿酒葡萄与葡萄酒的理化指 标之间的联系。
4.问题四:分别分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄 和葡萄酒的理化指标来评价葡萄酒的质量。
21.2 问题的分析
21.2.1 对问题的总体分析
葡萄酒的评价是一个涉及到葡萄酒外观、香气、口感等诸多方面的问题,同时评酒员的个人偏 好也会对评价结果产生影响,因此对某种葡萄酒的评价具有很多的不确定性。随着当今世界人们对 高品质生活的追求,葡萄酒的销量越来越庞大,对一种确定性的、不以人的意志为转移的葡萄酒质 量评价方法的需求也越来越迫切。因此,本文考虑从葡萄酒和酿酒葡萄的理化指标角度入手,综合 分析葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证用其理化指标来评价葡萄酒质量的可靠 性。最终,建立起一个以葡萄和葡萄酒的理化指标来判断其质量等级的数学模型,为判断酿酒葡萄 和葡萄酒质量提供一个相对完善的理化评判标准。 21.2.2 对具体问题的分析
1.对问题一的分析
根据附件 1中的葡萄酒品尝评分表,分析这两组评酒员的评价结果有无显著性差异,并分析哪 一组结果更可信。将问题分成两个小问来解决。对于两组评酒员的评价结果有无显著性差异这一问 题,采用成对数据 t 检验来判定两组评酒员评价结果的平均值的差异是否显著。对于哪一组的结果 更可信这一问题,采用方差分析检验来判定哪一组的评价结果更可信。
2.对问题二的分析
根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒的葡萄进行分级。首先采用相关性分析法 分析葡萄酒序号与酿酒的葡萄序号之间是否有一一对应的关系。其次对葡萄酒和对应葡萄的理化指 标评价结果运用模糊 C 均值聚类分析法进行评价分级。再结合葡萄的理化指标,分别得到红、白葡 萄的量化分级标准。最后为了方便葡萄酒公司对买到的大量葡萄进行快速分级,本文分别为红、白
第二十一篇 葡萄酒质量的影响因素分析
309
葡萄建立了一个葡萄快速分类法。
3.对问题三的分析
通过对酿酒葡萄和葡萄酒理化指标的研究,建立模型分析这两者之间的联系。附件 2、 3中给 出了红、白葡萄和葡萄酒的理化指标数据和芳香物质数据,对这些数据加以统计分析,分别得出了 红、白葡萄发酵后,各项理化指标的变化情况以及变化幅度。同时,结合理化知识,对整体变化情 况加以分析。最终,从定量和定性两个方面,较为完善的分析了酿酒葡萄和葡萄酒的理化指标之间 的联系情况。
4.对问题四的分析
根据所给数据分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,论证了能否用葡萄和葡 萄酒的理化指标来评价葡萄酒的质量。首先,本文建立葡萄酒质量评价值与葡萄和葡萄酒各个理化 指标之间的多元线性关系,用各指标的系数分析其影响;然后建立模糊综合评价模型分别根据葡萄 和葡萄酒理化指标做出葡萄酒的质量排名,将综合排名与评酒员评价得出的排名顺序相比较,进一 步评估用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是否合理。
21.3 模型的假设
1.各类型葡萄酒的酿造流程正常且正规;
2.葡萄和葡萄酒理化指标中未给出检测值的理化指标,含量视为零;
3.本文中的葡萄酒都为全汁葡萄酒,而非半汁葡萄酒,即都是 100%葡萄汁酿制而成; 4.红、白葡萄酒分别由红、白葡萄酿造而成,且葡萄和这种葡萄酿制的葡萄酒的序号一一对 应(已在问题二中论证,符合假设基本原理);
5.附件 3中没有显示数据的地方表示仪器没有检测到样品该成分,即该成分含量微小,视为 零。
21.4 名词解释与符号说明
21.4.1 名词解释
1.可信度:指评酒员对葡萄酒质量评分结果的可信程度;
2.显著性差异:统计学上对数据差异性的评价。当数据之间具有了显著性差异,就说明参与 比对的数据不是来自于同一总体,而是来自于具有差异的两个不同总体;
3.模糊聚类分析:聚类分析是数理统计中的一种多元分析方法,它是用数学方法定量地确定 样本的亲疏关系,从而客观地划分类型。 21.4.2 符号说明
序 号 符 号
符号说明
1 i x 第一组待评价葡萄酒样品 2 i y
第二组待评价葡萄酒样品 3 j z
评酒员评酒的各个评价指标
4 i u
第一组葡萄酒样品的评价总分
5 i v 第二组葡萄酒样品的评价总分
6 m
ij
x 第一组第 m 个评酒员对于第 i 个葡萄酒样品第 j 个评价指标的 评价值 7
m ij y 第二组第 m 个评酒员对于第 i 个葡萄酒样品第 j 个评价指标的
全国大学生数学建模竞赛优秀论文评析
310
21.5 模型的建立与求解
21.5.1 问题一的分析与求解
1.对问题的分析
根据附件 1中的葡萄酒品尝评分表分析这两组评酒员的评价结果有无显著性差异,并分析哪一 组结果更可信。将问题划分成两个小问题:一是分析两组评酒员的评价结果有无显著性差异。对于 这个问题采用成对数据 t 检验来判定两组评酒员评价结果的平均值的差异是否显著,通过比较 p 双 尾概率与之前规定的显著性水平 α的大小来判断是否拒绝原假设,拒绝则有显著性差异;二是判断 两组评酒员的评价结果哪一组更可信。对于这个问题采用方差分析法来判定,通过 EXCEL 软件中 的数据分析工具做出方差分析表,然后算出每个样品的平均方差,最后对平均方差进行汇总,分别 比较红、白葡萄酒两组评酒员评价结果的平均方差和的大小,方差和小的评价结果更可信。最后, 对红、白两种葡萄酒评价值的判定结果进行综合分析,得出两组中哪组的评分结果更可信。
2.对问题的求解 模型Ⅰ t 检验模型 ⑴建模思路
首先,针对红、白葡萄酒分别求出两组评酒员对所有葡萄酒的各项评价指标去掉最高分和最低 分后的平均评分值,以每个指标的所有评酒员的平均评价值为各个样本,利用 Excel 软件对两组评 酒员每个指标的平均值样本进行 t 检验:平均值的成对二样本分析,根据最后得出的概率 p ,判断 其是否小于假设的 α值,若小于则拒绝原假设,即存在显著性差异,否则两组评酒员的评价结果之 间无显著性差异。
⑵模型的建立
问题要求对两组评酒员的评价结果分析有无显著性差异。由于所有评酒员没有专业上的水平差 异,故以红葡萄酒为例(白葡萄酒与其处理方法相同),将其每个指标求取平均值,因而采用主要 用于检验两个处理平均数差异是否显著的 t 检验对问题予以求解。
①提出假设
a . 无效假设 0H :21μμ=,即两组评酒员每个指标的平均值相等
b . 备择假设 A H :21μμ≠,即两组评酒员每个指标的平均值不相等,亦即两组评酒员的评价结 果存在显著性差异。
②确定显著性水平
定义 1 显著性水平:能否定 0H 的人为规定的概率标准称为显著性水平,记作 α。 依据小概率原理,规定显著性水平 05. 0=α。
③选定检验方法,计算检验统计量,确定概率值作出推断 选用平均值的成对二样本分析进行检验:
第二十一篇 葡萄酒质量的影响因素分析
311
首先,做出每个指标的所有评酒员的平均评价值。设 i x 和 i y (27, , 2, 1 =i )分别表示第一、二 组各个葡萄酒样品, 9, , 2, 1, =j z j 分别表示澄清度、 色调等各个评价指标, 用 i u 和 i v (27, , 2, 1 =i )
分别表示第一、二组各葡萄酒样品的评价总分, m ij x 和 m
ij y (10, , 2, 1 =m )分别表示一、二组第 m 个
评酒员对于第 i 个葡萄酒样品第 j 个评价指标的评价值,分别求出对于各个葡萄酒样品十个评酒员 对于每个指标 j z 的平均评价值,即:
10
10
21ij
ij ij ij x x x +++=
, 10
10
21ij
ij ij ij y y y +++=
然后再对每个葡萄酒样品的平均值进行加总得到评价总分,即:
∑==9
1
j ij i u , ∑==9
1
j ij i v
接着,以 ()j j j j X 2721, , , =和 ()j j j j Y 2721, , , =(9, 2, 1,
=j )分别表示求平均后第 j 个 指标的各葡萄酒样品组成的均值样本, U 和 V 分别表示第一、 二组各葡萄酒样品的评价均值总分样 本,利用 Excel 软件对两组评酒员每个指标的均值样本以及均值总分样本进行平均值的成对二样本 分析 t 检验。
④作出推断结论:是否接受假设
根据最后得出的结果 P ,判断其是否小于假设的 05. 0=α。若小于则拒绝原假设,即存在显著性 差异,否则两组评酒员的评价结果之间无显著性差异。
⑶模型的求解
根据 t 检验模型代入附件 1表格中的具体值,得到第一、二组对红、白葡萄酒评分结果的平均总 分。
利用 Excel 软件对两组评酒员每个指标的均值样本以及均值总分样本进行平均值的成对二样本 分析 T 检验后得到红、白葡萄酒各指标和总分 t 检验:成对双样本均值分析(见表 21-1)
由得出的结果分析红、白葡萄酒的总评价值均小于 0.05,拒绝原假设,即两组评酒员的评价结 果有显著性差异。 模型Ⅱ 方差分析模型 ⑴模型的准备 ①建模思路:
首先,针对红葡萄酒和白葡萄酒分别求出两组每个评酒员对每个葡萄酒样品的总评分值,以每 个样品的所有评酒员的综合评分值为样本,求出每个样本的样本方差。然后,算出最后的平均样本
全国大学生数学建模竞赛优秀论文评析
312
方差。对于同一种葡萄酒,一般评酒员们最后品尝出的评价结果应该相差不是很大,即同一样品的 葡萄酒不同评酒员的评价结果方差较小的一组评分结果较为可信。
②问题分析 :
由于要分析两组是否有显著性差异,所以先要验证每组数据是否满足正态性分布。为了计算方 便,现将每个评酒员所品的每一种酒总分作为研究对象,所以对于红酒有 2701027=?个研究对象; 对于白酒有 2801028=?个研究对象。 将每一组的研究对象看作一个矩阵, 利用 matlab 来进行正态性 检验。
判断正态性是否存在:
①通过频数分布直方图和正态概率图(normal probability plot)能够直观的反映出原数据是否满 足正态分布,见图 21-1和图 21-2;
②若布尔变量 h=0,表示不拒绝零假设,说明提出的假设是合理的; ③若 95%的置信区间完全包括均值,则说明满足正态性; ④若 sig>0.5,则不能拒绝零假设。 综上即可判断正态性存在。
对红葡萄进行正态性检验,在 Matlab 中得到正态性判断结果:
Data
P r o b a b i l i t y
图 21-1 正态概率图 图 21-2 频数分布直方图
检验结果:①由频数分布直方图和正态概率图可以明显看出满足正态性分布; ②布尔变量 h=0, 表示不拒绝零假设,说明提出的假设“均值 70.6093”是合理的;③ 95%的置信区间为[68.6886, 72.5301],它完全包括 70.6093,且精度很高;④ sig 的值为 1,远超过 0.5,不能拒绝零假设。综上 所述红葡萄理化指标数据存在正态性。
同样方法计算出红葡萄酒和白葡萄、白葡萄酒理化指标数据也都存在正态性。 ③定义 2 可信度:指品酒员对葡萄酒质量的评分结果的准确度。 ⑵模型的建立
问题要求对两组评酒员的评价结果判断哪一组可信度更高,以红葡萄酒为例(白葡萄酒处理方 法与其完全相同),将各评价指标的评价结果进行综合汇总得出评价的总得分,采用单因素方差分 析对组间和组内的均方差进行比较,进而得出哪一组更为可信。
①对评价结果进行综合汇总
分别对一、 二组第 m 个评酒员对于第 i 个葡萄酒样品所有评价指标的评价值汇总,即总得分为:
∑==
9
1j m
ij
m
i x
X , 10, , 2, 1; 9, , 2, 1; 27, , 2, 1 ===m j i ; ∑==
91
j m ij
m
i y
Y , 10, , 2, 1; 9, , 2, 1; 27, , 2, 1 ===m j i
②进行单因素方差分析,利用方差比较结果
利用 Excel 软件中数据分析工具中的“方差分析:单因素方差分析”进行数据处理,然后将各
第二十一篇 葡萄酒质量的影响因素分析
313
组的每个葡萄酒样本总方差求平均,即:(27, , 2, 1 =i )
第一组:评酒员人数 每个葡萄酒样本总方差 =
i
x s ;第二组:评酒员人数
每个葡萄酒样本总方差
=i y s
最后对每组求得的平均方差求和(注:其中红葡萄酒中第 20个葡萄酒样品第四个评酒员的评价 结果缺省,在计算其方差平均值时应减少一个评酒员人数),即:
∑
==
27
1
i i
x
x s S , ∑==
27
1
i i y
y s
S
比较 x S 和 y S 的大小,较小的一组可信度更高。 ⑶模型的求解
根据方差分析模型,结合附件 1表格中的具体值,得到综合汇总后的第一、二组每个评酒员对 各红、白葡萄酒样品的评价总得分情况。
利用 Excel 软件中数据分析工具中的“方差分析:单因素方差分析”进行处理后,得到第一组 红葡萄酒单因素方差分析 (见表 21-2、 21-3),第二组红葡萄酒单因素方差分析(见表 21-4、 21-5)。
全国大学生数学建模竞赛优秀论文评析
314
分析比较后发现红葡萄酒的第一组的平均方差和大于第二组的平均方差和,即:
76889. 90 157.1894y =>=S S x
所以对于红葡萄酒而言,第二组评价结果可信度更高。
同样再对第一、二组白葡萄酒进行单因素方差分析,分析比较后发现第一组的平均方差和大于 第二组的平均方差和,即:
8544. 156 73. 613y =>=S S x
所以对于白葡萄酒而言,第二组评价结果可信度更高。
综上所述, 不论是红葡萄酒还是白葡萄酒, 第二组评酒员的可信度都要明显高于第一组。 所以, 第二组评酒员的评价结果可信度更高。 21.5.2 问题二的分析与求解
1.对问题的分析
问题要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒的葡萄进行分级。由问题一得到 结论:第二组评酒员的评价结果更可信,故选用第二组的评价指标进行问题的求解。首先,采用相 关性分析法分析葡萄酒序号与酿酒的葡萄序号之间是否有一一对应的关系。经过检验,它们之间是 一一对应的,即:1号白葡萄酒就对应着 1号葡萄, 2号白葡萄酒就对应着 2号葡萄等等。然后,对各 种葡萄酒样品的每个评价指标的所有评酒员的评价结果求平均,再对平均值求和分别得到红、白葡 萄酒的评价总分,进而运用模糊 C 均值聚类分析法进行评价分级。由于每一种葡萄酒都对应不同的
第二十一篇 葡萄酒质量的影响因素分析
315
葡萄原料,故葡萄酒的分级可以进一步反推出葡萄的分级。将每个级别的葡萄的各个理化性质对应 列出,得到红、白葡萄的量化分级标准。最终,为方便公司对提供的大量葡萄进行快速分级,分别 为红、白葡萄建立了一个葡萄快速分类法。
2.对问题的求解 模型Ⅲ 相关性分析模型 ⑴建模思路
由于葡萄酒的评价指标有多个,故先利用变异系数法对葡萄和葡萄酒的理化指标计算权重。然 后,利用加权求和法分别计算出葡萄和葡萄酒的理化指标总体评价值。最后,利用相关分析法,分 别定量评估出红、白葡萄酒质量和酿酒葡萄理化指标之间的相关性。
⑵模型的建立
①变异系数法计算权重
先分别计算出第 i 项指标的平均值:∑==
n
j ij
i a
n 11
然后计算出第 i
项指标的方差:∑=-?-=n j i ij
i a
n s 1
22
) (1
1
再计算出第 i 项指标的变异系数:i
i
i s v = 最后对 i v 进行归一化:∑==
m
i i
i
i v v w 1
就得到了第 i 项指标的权数。 ②加权求和计算理化指标总体评价值
在附件 2中,带入求出的第 i 项指标的权重,分别求出红、白葡萄和葡萄酒的理化指标总体评价 值。
③葡萄酒和酿酒葡萄间的相关性分析
()()()
()()
()
()
∑∑∑===-÷--÷--÷--=
n
j n
j n
j n y n x n y x r 1
2
1
21
111
最终得到红、白葡萄酒和酿酒葡萄之间的相关性分别为:0.58和 0.62,都大于 0.5。因此,葡 萄酒序号与酿酒的葡萄序号之间有一一对应的关系,即:1号白葡萄酒就对应着 1号葡萄, 2号白葡 萄酒就对应着 2号葡萄,依此类推。
模型Ⅳ 葡萄理化指标分级模型 ⑴建模思路
由于葡萄酒的评价指标有多个,故先对各个葡萄酒样品的每个评价指标的评价结果求平均,然 后对每个样品的平均值求和得到总分,然后采用模糊 C 均值聚类法分别对红、白葡萄酒进行分类, 由葡萄酒的分类推得相应的酿酒葡萄的分类。最后,联系红、白葡萄的理化指标,建立葡萄理化指 标分级标准。
⑵模型的建立
全国大学生数学建模竞赛优秀论文评析
316
首先,仍以红葡萄酒为例,利用问题一中的第二组评酒员品尝总分 ∑==9
1
j ij i v ,采用模糊 C 均值
聚类法对两组的葡萄酒质量进行分类。
定义 3 模糊 C 均值聚类 :定义目标函数为 ()()()∑∑===n
k c
i ik m ik d u V U J 112, ,显然 ()V U J , 表示了各类
样本到聚类中心的加权距离平方和,权重是样本 k x 对第 i 类隶属度的 m 次方,聚类准则取为求得极 小值:()(){}V U J , min
其中聚类中心为:()()∑∑==>==n
k n
k m ik k m
ik i m c i u x u v 1
1
1, , 2, 1, /且 ;
其中 (∑=-=2
1
12
//1j m jk ik ik d d u , i k ik v x d -=。
得到葡萄酒的分级后,再由附件 2得到相应的葡萄分级。按照级别将葡萄重新分类,并将每个 级别的葡萄的各个理化性质列出,最后得到酿酒葡萄的理化指标分级标准。
⑶模型的求解
将问题一中已求得的 i u 和 i v ,利用 Matlab 软件代入模糊 C 均值聚类分析模型进行分级(程序见 附录程序 2),得到红、白葡萄酒的总分分级情况:
①红葡萄酒总分分级:
L1 =6, 7, 8, 15, 18; L2 =11; L3 =4, 5, 14, 19, 21, 22, 24, 26, 27; L4 =2, 3, 9, 17, 20, 23; L5 =1, 10, 12, 13, 16, 25。
②白葡萄酒总分分级:
L1 =10, 15, 22, 28; L2 =7, 8, 11, 12, 13, 26; L3 =1, 2, 3, 4, 6, 14, 18, 19, 20, 23, 24, 27; L4 =16; L5 =5, 9, 17, 21, 25。
因为葡萄酒序号与所用葡萄序号一一对应,所以得出红、白葡萄分级结果,见表 21-6。
综合各类葡萄的理化指标,得出葡萄理化指标与葡萄分级之间的关联,从而分别建立红、白葡 萄理化指标分级模型。葡萄酒酿酒人员可以分别根据这两个模型,对采购到的红、白葡萄分别进行 分级,从而为后续不同级别的葡萄酒制作奠定良好基础。
为了方便葡萄酒酿造人员对采购来的葡萄进行快速分类,建立以下快速葡萄理化指标分级模 型:
①对葡萄抽检,检测各类理化指标含量;
②对葡萄理化指标的检测值加权求和得到葡萄理化性质得分 score ,权值见表 21-7;
第二十一篇 葡萄酒质量的影响因素分析
317
③根据葡萄理化性质得分 score ,查询快速葡萄理化指标分级模型: 红葡萄理化指标快速分级模型:
?????
??
??<><><≤>=135135130140135185140185score score score score score level 五级
四级 三级 二级 一级
白葡萄理化指标快速分级模型:
?????
??
??<><><≤>=95160115162
160165162165score score score score score level 五级 四级 三级 二级 一级
④对葡萄进行快速分级。 21.5.3 问题三的分析与求解
1.对问题的分析
问题三要求通过对酿酒葡萄和葡萄酒理化指标的研究,建立模型分析这两者之间的联系。附件 2、 3中给出了红、白葡萄和葡萄酒的理化指标数据,对这些数据加以整理分析,分别得出了红、白 葡萄经过发酵变成葡萄酒之后,各项理化指标的变化情况以及变化幅度。同时,结合理化知识,对 整体变化情况加以分析。最终,从定量和定性两个方面,较为完善的分析了酿酒葡萄和葡萄酒的理 化指标之间的联系情况。
2.对问题的求解 ⑴建模的思路
通过问题三的具体分析,将思路整理成流程图(见图 21-3)。 ⑵模型的建立 ①红葡萄与红葡萄酒 i) 理化指标间的联系:
对红葡萄酿造前后理化成分进行分析,可以看出红葡萄酒成分变化情况。从中可以看出红葡萄 与红葡萄酒的理化成分变化各异,有一些成分发酵前后都存在,但含量发生了变化,例如:单宁和 花色苷;有一些成分在发酵过程中完全转化为其他成分,消失了,例如:氨基酸、蛋白质和多糖; 还新生成了一些成分。因为成分种类多,变化很复杂,所以将红葡萄酿造前后理化成分变化情况用 图表来清晰表示(如表 21-8)。
全国大学生数学建模竞赛优秀论文评析
318
图 21-3 理化指标联系思路图 ii) 芳香指标间的联系:
对红葡萄酿造前后芳香物质进行分析,可以看出红葡萄酒物质变化情况。从中可以看出红葡萄 与红葡萄酒的芳香物质变化各异,有一些成分发酵前后都存在,但含量发生了变化,例如:丙酸乙 酯、苯乙醇。有一些物质在发酵过程中完全转化为其他成分,消失了,例如:乙醛、三氯甲烷和萘。 还新生成了一些成分,如:乙醇和乳酸乙酯。因为成分种类较多,变化很复杂,所以将红葡萄酿造 前后芳香物质变化情况用图表来清晰表示。
②白葡萄与白葡萄酒 i) 理化指标间的联系:
对红、白葡萄酿造前后理化成分进行分析,可以看出红、白葡萄酒成分变化情况。从中可以看 出红、白葡萄与红、白葡萄酒的理化成分变化各异,有一些成分发酵前后都存在,但含量发生了变 化,例如:单宁、总酚。有一些成分在发酵过程中完全转化为其他成分,消失了,例如:氨基酸、 蛋白质和多糖。还新生成了一些成分。因为成分种类较多,变化很复杂,所以将白葡萄酿造前后理 化成分变化情况用图表来清晰表示。
ii) 芳香指标间的联系:
对白葡萄酿造前后芳香指标进行分析,可以看出白葡萄酒物质变化情况。从表 2中可以看出白 葡萄与白葡萄酒的芳香物质变化各异,有一些成分发酵前后都存在,但含量发生了变化,例如:5-甲基糠醛、 2-甲基 -1-丙醇。有一些物质在发酵过程中完全转化为其他成分,消失了,例如:乙醛、
第二十一篇 葡萄酒质量的影响因素分析
319
6-甲基 -5-庚烯 -2-醇和甲苯。还新生成了一些成分,如:乙醇、庚酸乙酯和乳酸乙酯。因为成分种类 较多,变化很复杂,所以将白葡萄酿造前后芳香物质变化情况用图表来清晰表示(如图 21-4)。
③整体分析葡萄酒酿造化学原理如图 21-4。
图 21-4 葡萄酒酿造化学原理
20.5.4 问题四的分析与求解
1.对问题的分析
根据附件 1、 2、 3中的数据分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,论证能否 用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。首先,针对问题的前半部分,取问题一中求得的 葡萄酒的评价结果人为去掉最高和最低分的总平均值为因变量,分别以葡萄和葡萄酒的各个理化指 标为自变量做多元线性回归分析,根据各自变量前的系数分析葡萄和葡萄酒的理化指标对葡萄酒质 量的影响。对于问题的后半部分,先将问题一中由附件 1得到的葡萄酒的评价排名作为参考排名, 建立模糊综合评价模型根据葡萄和葡萄酒的理化指标值分别对葡萄酒进行排序,最后将得到的两组 排名综合,与参考排名对比分析,看二者是否基本一致。若二者排名基本一致,就说明可以用葡萄 和葡萄酒的理化指标来评价葡萄酒的质量。
2.对问题的求解
模型 V 多元线性回归模型 ⑴建模思路
因为葡萄和葡萄酒的理化指标有多个,为了研究各理化指标对葡萄酒质量的影响,选择建立葡 萄酒质量与葡萄和葡萄酒理化指标之间的多元线性模型来解决问题。
⑵模型的建立
首先, 选取附件所给的大部分指标, 对数据进行处理, 得到红、 白葡萄和葡萄酒各理化指标值。 根据数据,结合问题一中求得的葡萄酒评价结果的总平均值,利用 Matlab 软件,做出葡萄酒评价结 果和红白葡萄酒及红白葡萄的多元线性关系模型。
⑶模型的求解
以红葡萄酒为例,将具体数值带入多元线性回归模型中,在 Matlab 中输入相应的程序。 ①首先做出红葡萄酒的评价结果和葡萄酒的各个理化指标的散点图(如图 21-5), 经判断可以进行多元线性回归。 Matlab 求解运算后得到结果:
b3 =8.6690 -0.0014 0.0350 -0.0962 0.0739 0.0716 -1.2589 -0.0257 -0.0031 -0.0056 即红葡萄酒的评价结果和红葡萄酒的各个理化指标之间的线性关系为:
全国大学生数学建模竞赛优秀论文评析
320
9
8
7
6
5 4
3
2
1
0.0056X
-
0.0031X
-
0.0257X
-
1.2589X
-
0.0716X 0.0739X
0.0962X
-
0.035X
0.0014X
-
8.669+
+
+
=
Y
分析:红葡萄酒的质量受到红葡萄酒理化指标的多方面影响,花色苷、总酚、 DPPH 半抑制体 积、色泽 L*(D65)、色泽 a*(D65)和色泽 b*(D65)对葡萄酒质量产生的是消极影响,其中 DPPH 半抑 制体积影响最大;单宁、酒总黄酮和白藜芦醇产生的是积极影响,其中酒总黄酮和白藜芦醇的影响 相对单宁较大。做出残差与置信区间的图形,见图 21-6。
R
e
s
i
d
u
a
l
s
Case Number
图 21-5 红葡萄酒评价结果和葡萄酒理化指标散点图 图 21-6 红葡萄酒残差与置信区间图形
由图 21-6可看出没有异常点。
s3 =0.9108 14.7405 0.0000 0.0202
可决系数 R=0.9108,说明拟合度较高。 h =0, p =1 , h=0表明残差服从正态分布,进而由 t 检 验可知 h=0, p=1,故残差服从均值为零的正态分布。
②然后做出红葡萄酒的评价结果和酿红葡萄酒的葡萄的理化指标的散点图,如图 21-7。 经判断可以进行多元线性回归。
Matlab 求解运算后得到结果:
b=10.9077 -0.0000 0.0085 -0.0196 0.0018 -0.0433 -0.1020 -0.2177 -0.0313 0.0011 -9.7942 0.0643 0.0102 0.1226 0.0482 -0.0056 -0.0063 0.0047 0.0223 -0.1705 -0.0517 0.0046 -0.0035 0.3662 -0.0607 -0.2186
即红葡萄酒的评价结果和红葡萄的各个理化指标之间的线性关系为:
25
24
23
22
21 20
19
18
17
16
15
14
13
12
11
10
9
8
7 6
5
4
3
2
1
*
2186
. 0
*
0607
. 0
*
3662
. 0
*
0035
. 0
*
0046
. 0
*
0517
. 0
*
1705
. 0
*
0223
. 0
*
0047
. 0
*
0063
. 0
*
0056
. 0
*
0482
. 0
*
1226
. 0
*
0102
. 0
*
0643
. 0
*
7942
. 9
*
0011
. 0
*
0313
. 0
* 2177
. 0
*
1020
. 0
*
0433
. 0
*
0018
. 0
*
0196
. 0
*
0085
. 0
*
9077
.
10
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
Y
-
-
+
-
+
-
-
+
+
-
-
+
+
+
+
-
+
-
-
-
-
+
-
+
-
=
分析:红葡萄酒的质量受到酿红葡萄酒的葡萄的各理化指标的多方面影响,对葡萄酒质量产生 影响较大的依次是 DPPH 自由基 1/IC50、和果皮颜色 L 和柠檬酸,其中氨基酸含量、蛋白质、 VC 含量和白藜芦醇可以增加葡萄酒中的营养价值,花色苷、总酚、单宁、葡萄总黄酮、还原糖、果穗 质量、果梗比产生积极影响。相比而言,酸、褐变度、 DPPH 自由基 1/IC50、黄酮醇等产生消极影 响。做出残差与置信区间的图形,见图 21-8。
R
e
s
i
d
u
a
l
s
Case Number
图 21-7 红葡萄酒的评价结果和葡萄理化指标散点图 图 21-8 红葡萄残差与置信区间图形
由图 21-8可看出没有异常点。
第二十一篇 葡萄酒质量的影响因素分析
321
s =0.9944 7.1113 0.2892 0.0230
可知可决系数 R=0.9944,说明拟合效果很好。 h =0 , p =1, h=0表明残差服从正态分布,进而 由 t 检验可知 h=0, p=1,故残差服从均值为零的正态分布。
同红葡萄酒一样,可得白葡萄酒质量与白葡萄酒和酿酒葡萄的多元线性关系: 白葡萄酒质量与白葡萄酒理化性质的多元线性关系为:
8
76543210.1868X 0.1318X 0.265X 3.0762X 0.1331X 0.0934X -0.5382X 0.1904X --20.2787++++++=Y
分析:白葡萄酒的质量受到白葡萄酒的理化指标的多方面影响,对葡萄酒质量产生影响较大的 依次是 DPPH 半抑制体积、总酚和色度 L*(D65),其中总酚、白藜芦醇和色度产生积极影响,酒总 黄酮等产生消极影响。
s4 =0.6434 3.1578 0.0289 0.0372
可知可决系数 R=0.6434,说明拟合度效果较好。 h =0, p =1, h=0表明残差服从正态分布,进 而由 t 检验可知 h=0, p=1,故残差服从均值为零的正态分布。
白葡萄酒质量与白葡萄理化性质的多元线性关系为:
25
2423222120191817161514131211109876543210042. 00065. 00548. 00008. 00025. 00985. 07306. 00145. 00051. 00008. 00208. 01834. 02742. 01043. 01484. 07770. 100046. 00498. 01259. 01632. 00465. 03864. 0002. 00003. 08147. 7X X X X X X X X X X X X X X X X X X X X X X X X X Y +--++--+++-+-+++-++++-++-= 分析:白葡萄酒的质量受到酿白葡萄酒的葡萄的各理化指标的多方面影响,对葡萄酒质量产生
影响较大的依次是 DPPH 半抑制体积、可滴定酸和 VC 含量。其中氨基酸含量、蛋白质、 VC 含量 和白藜芦醇可以增加葡萄酒中的营养价值,葡萄总黄酮、黄酮醇、可滴定酸等产生消极影响,苹果 酸、柠檬酸和总酚等产生消极影响。
s =0.8255 0.3786 0.9090 0.2368
可知可决系数 R=0.8255,说明拟合度效果较好。 h =0, p =1
h=0表明残差服从正态分布,进而由 t 检验可知 h=0, p=1,故残差服从均值为零的正态分布。 模型Ⅵ 模糊综合评价模型 ⑴模型的准备 建模思路
根据酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量建立模糊综合评价模型,将最后得到的葡萄 和葡萄酒排名成绩综合后与评酒员评价得到的排名进行比较分析论证能否用葡萄和葡萄酒的理化 指标来评价葡萄酒的质量。
⑵模型的建立 ①首先建立理想方案
本文选用模糊综合评价模型对葡萄酒的质量进行评价。设有 {}n u u u U , , , 21 =是待评价的 n 个葡 萄酒样品, {}m v v v V , , , 21 =是评价因素集合,将 U 中的每个方案用 V 中的每个因素进行衡量,得到 一个观测矩阵:
??????
?
??=mn m m n n a a a a a a a a a A
2
1
22221
11211 其中 ij a 表示第 j 个样品关于第 i 项评价因素的指标值。 根据 {}{}
?????=为成本型指标 ,当 为效益型指标 ,当 ij ij ij ij i a a a a u m in m ax 0建立理想方案 0u 。
②建立相对偏差模糊矩阵
全国大学生数学建模竞赛优秀论文评析
322
根据 ij
ij i ij ij a a u a r min max 0
--=
计算得出相对偏差模糊矩阵:
??????
? ??=mn m m n n r r r r r r r r r R
2
1
2222111211~. ③确定各评价指标的权数
利用变异系数法来确定各评价指标的权数。计算各指标的变异系数公式为:i
i
i s b =
其中 ∑==n j ij i a n 1
1为第 i 项指标的平均值, ()
∑=-?-=n
i ij i a n s 1212
11是第 i 项指标值的方差。
对 i b 进行归一化,即得到各指标的权数:∑==m
i i
i
i b
b w 1
④建立综合评价模型
由 ∑==7
1
j ij i i r w F 计算出 i F ,且若 s t F F <,则第 t="" 个葡萄酒样品排在第="" s="" 个样品前="" .="">,则第>
酒葡萄和葡萄酒的理化指标对红白两种葡萄酒的质量进行排序。
⑶模型的求解
将红、白葡萄和葡萄酒酒各理化指标值代入模糊综合评价模型中,最后得出葡萄酒质量按照葡 萄和葡萄酒理化指标排名的名次比较。
为了更加直观的显现红白葡萄酒综合排名与评酒员评价排名吻合度情况,作出折线图(见图 21-9、 21-10)。
图 21-9 红葡萄酒综合排名与评酒员评价排名比较 图 21-10 白葡萄酒综合排名与评酒员评价排名比较
由图 21-9和图 21-10可以看出红白葡萄酒综合排名与评酒员评价排名吻合度较高, 故能够用葡 萄和葡萄酒的理化指标来评价葡萄酒的质量。
在实际生活中,为了更加准确的对葡萄酒质量进行评估,可以先利用葡萄和葡萄酒的理化指标 对葡萄酒质量进行定量分析,再结合评酒员的评分情况来做综合评估,从而更加完善合理的对葡萄 酒质量进行分析。
20.6 误差分析
在附件 1中,评酒员 4号对 20号红葡萄酒样品的色调未给予打分。因此,舍去了这组值,这 样就产生了一定的误差。但经过综合取平均值,在一定程度上消除了差异,所以这个误差对整个模 型的影响不大。
在问题四中,虽然运用葡萄和葡萄酒理化指标来判断葡萄酒质量结果和评酒员品尝打分结果不
第二十一篇 葡萄酒质量的影响因素分析
323
完全一致,所以对葡萄酒质量的判断会产生一定的误差。
20.7 模型的评价
1. 优点:
⑴本文巧妙运用思路分解图,将建模思路完整清晰的展现出来; ⑵创新性的定义可信度,使得评价员对葡萄酒的评价结果得以量化; ⑶利用 Excel 软件对数据进行处理并作出各种图表,简便,直观,快捷;
⑷运用多种数学软件(如 Matlab 、 Excel ),取长补短,使计算结果更加准确、明晰; ⑸本文综合葡萄酒酿造过程,将定量和定性方法相结合,对葡萄、葡萄酒的理化指标进行了全 面的分析;
⑹本文建立的模型与实际紧密联系,充分考虑现实情况的不同阶段,从而使模型更贴近实际, 通用性强。
2. 缺点:
⑴对于一些数据,对其进行了一些必要的处理,会带来一些误差;
⑵模型中为使计算简便,使所得结果更理想化,忽略了一些次要影响因素。
20.8 模型的改进
1.在问题一中,还可以采用 F 检验来判断哪一组结果更可信。最后,综合方差分析法和 F 检 验分析法,对两组评酒员打分结果可信度进行评价,从而进一步提高结果的可靠性。
2.在问题二中,是根据每个评酒员对葡萄酒打分的平均值,从而确定葡萄酒的质量。还可以 进一步结合评酒员的评酒分类指标来详细地对葡萄酒质量进行评估,从而更加完善地对葡萄酒质量 进行分级。
20.8 模型的推广
1.在问题一中,本文所用的 t 检验模型不仅适用于判断两组评酒员的评价结果的显著性差异, 它还适用于其他各种经济、社会、体育等活动两组评分结果的显著性差异判断。
2.本文建立的方差分析模型不仅适用于判断葡萄酒评价结果的可信度,还适用于其他需要判 断多组结果可信度的情况。比如:各种赛事时,为防止由于各种原因导致的打分不公正现象,采取 多组共同打分的方式。最后,就可利用本文的方差分析法判断每组打分结果的可信度,从而最终给 出一个较为公平合理的打分结果。
3.在问题二中,本文分别建立了红、白葡萄理化指标分级标准。这个分级标准可以帮助酿酒 人员对采购来的葡萄进行快速分级,从而为后续不同等级葡萄酒的制作奠定良好的基础。当今世界 人们追逐高品质的生活,每年葡萄酒消耗量日益庞大,葡萄酒供应商的葡萄酒制作数量更为惊人。 因此,这个红、白葡萄理化指标分级标准应用前景广阔。
4.在问题四中,本文从定量和定性两个方面论证了使用葡萄和葡萄酒的理化指标来评价葡萄 酒质量的可靠性较高。因此,可以将这个葡萄酒理化指标评级标准定量固化下来,以后就根据葡萄 和葡萄酒的理化指标来判断葡萄酒的质量,从而有效规避评酒员的个人主观因素对葡萄酒评分的影 响,更可以缩减每年为给各类葡萄酒评级而带来的大量费用。
参考文献
[1] 中国葡萄酒信息网:http://www.winechina.com/; [2] 葡萄酒资讯网 : http://www.wines-info.com/;
[3] 山东师范大学发酵工艺学:http://www.lsc.sdnu.edu.cn/guawang/fajiao/24_70.htm;
全国大学生数学建模竞赛优秀论文评析
324
[4] 李兆斌等译 .Excel 2003与 VBA 编程 [M].电子工业出版社 .2004.9. [5] 吴礼斌 . 经济数学实验与建模 [M].天津大学出版社 .2009.8. ; [6] 姜启源等 . 数学模型(第三版) [M].高等教育出版社 .2003.8.
[7] 李运等 . 统计分析在葡萄酒质量评价中的应用 [J]. 酿酒科技 .2009年第 4期:79-82.
论文特色
◆标题定位 :“葡萄酒质量的影响因素分析”既紧扣研究对象葡萄酒质量,又包含定量研究的 指标影响因素,标题定位准确、简洁、传统。
◆方法鉴赏:使用成对数据 t 检验、方差分析、模糊 C 均值聚类、相关性分析、多元回归分析、 模糊综合评价等方法,方法科学,使用恰当。且建立了可信度、显著性差异、模糊聚类分析等概念。
◆写作评析:论文摘要按总分总结构交待,字数得当、简洁经典、全面到位;关键词:葡萄、 葡萄酒质量、 t 检验、模糊聚类、回归分析、 Matlab 分别与问题、方法、模型、算法和软件等紧密 联系,恰当准确。问题的重述将原始杂乱无章的问题梳理成背景知识、相关数据、要解决的问题三 个方面,层次清晰、条理分明,接近建模语言,有利于对问题本质的把握。问题的分析将分问题处 理为总体分析和对具体问题的分析,这既点明问题的归属和拟采用的对策,也反映出作者的综合能 力和处理问题应变能力。假设适当,具有目的性、针对性和合理性。大量图表的处理反映出作者的 计算机使用能力。针对具体问题,作者按建模思路、模型的建立与求解、结果分析等步骤处理,行 文有条不紊且图文并茂。
◆其它解读:论文写作较为全面,有误差分析、模型的评价、模型的改进与模型的推广。
没有对模型改进作深入的研究,缺少灵敏度分析。
范文五:葡萄酒的评价
葡萄酒的评价
目录
葡萄酒的评价 ................................................................................................. 1 摘 要 ............................................................................................................. 2 一、问题重述 ................................................................................................. 2 二、模型假设 ................................................................................................. 2 三、符号说明 ................................................................................................. 3 四、模型建立与求解 ..................................................................................... 3 五、模型评价 ............................................................................................... 20 六、模型推广 ............................................................................................... 20 七、参考文献 ............................................................................................... 21
摘 要
本文主要针对葡萄和葡萄酒的相关指标及其数据,研究葡萄和葡萄酒之间的联系及葡萄酒的质量的评价方法
关键词:葡萄酒 酿酒葡萄 主成分分析 多元回归 相关分析
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在品尝后对其分类指标打分,其总酚可以确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄的理化指标会在一定程度上反映葡萄和葡萄酒的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
要求解决以下4个问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组可信度更高? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、模型假设
1、各附件中所得到的数据准确可靠,一段时间内数据不会因温度,湿度,光度等外因变化
2、对于一级指标和二级指标,我们普遍采用一级指标的数据
3、各个评酒员之间对葡萄酒样本的评价相互独立,并且每个评酒员都仔细品尝,认真负责地给葡萄酒样本的各个分类指标评分
三、符号说明
四、模型建立与求解
4.1问题一
问题的提出:分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
通过excel我们分别算出了一组中的每个评酒员对某个红葡萄酒样本和白葡萄酒样本的各分类指标的和?Amij,?Bmkj,分别利用公式A
j?1
j?1
10
10
Amij/10,
mij??j?1
10
B
mkj
??B/10求其平均,如下为求得的数据:
mkjj?1
10
红葡萄酒评分均值
白葡萄酒评分均值
4.1.1、对红葡萄酒评价结果的显著性差异分析 (以下所得数据均来自chengxu1.sas)
为了判断两组数据间是否存在显著性差异,我们需要对红葡萄酒和白葡萄酒样本中的评分均值进行双总体假设检验。
1.正态分布检验
利用MATLAB作正态概率分布图进行判断,从得到的正态概率分布图可较直观的看出每组数据基本满足正态分布,随后我们通过SAS中的univariate过程来进行正态分布的检验,通过程序结果可以看到,红葡萄酒的第一组和第二组的正态检验W值分别为0.9248,0.9803,均接近于1,且其对应的概率为0.0519,0.8680,都大于0.05,因此我们可以得出结论:在0.05的显著性水平下,不能拒绝两组数据来自正态分布的假定,也即两组数据的正态性是可以接受的。
第一组红葡萄酒
第二组红葡萄酒
2.方差齐次性检验
通过SAS中的anova过程给出的levene方差齐性检验结果,本题中F=4.81,其对应的P值为0.0328,小于0.05,故得出结论,方差有显著区别。
3.通过上述检验,虽然两组数据满足正态分布,但是其方差齐性得不到满足,因此需要采用SAS中npar1way(非参数法)过程进行检验。本题中,Kruskal-Wallis卡方检验的卡方统计量为5.8685,其对应的概率为0.0154,小于显著性水平0.05。因此可以得出结论,在0.05的显著性水平下,两组评酒员对红葡萄酒的评价结果有显著性差异
4.1.2、对红葡萄酒两组结果的可信度比较
对于两组结果的可信度,我们通过观察两组数据的波动性来衡量两组结果的可信度,该波动性我们通过两组数据的均值与方差来得以体现 (1)均值图比较:
由图中曲线可以很直观的看出第二组的曲线较稳定,初步反应出对第二组葡萄酒的评价结果更可信
(2)方差比较:
红葡萄酒中各样本的方差
从上图中通过比较得出,第二组葡萄酒的方差普遍比第一组的方差值要小,即第二组红葡萄酒的方差普遍较小,显示出第二组评价结果更加稳定,故得出结论:第二组红葡萄酒的评价结果更可信
4.1.3、对白葡萄酒评价结果的显著性差异分析(以下所得数据均来自chengxu2.sas) 对于对白葡萄酒的分析,与对红葡萄酒的分析类似,故适当简化给出结论。
1.正态分布检验
白葡萄酒的第一组和第二组的正态检验W值分别为0.979,0.9455,均接近于1,且其对应的概率为0.8241,0.1526,都大于0.05,可以得出结论:也即两组数据的正态性是可以接受的。
第一组白葡萄酒
第二组白葡萄酒
2.方差齐次性检验
F=4.82,其对应的P值为0.0325,小于0.05,故得出结论,方差有显著区别。
3.Kruskal-Wallis卡方检验的卡方统计量为4.0640,其对应的概率为0.0438,小于显著性水平0.05。可以得出结论,在0.05的显著性水平下,两组评酒员对白葡萄酒的评价结果有显著性差异
4.1.4、对白葡萄酒两组结果的可信度比较 方法与上述类似: (1)均值图比较
白葡萄酒中各样本的方差
与上述方法类似,得出结论:第二组对白葡萄酒的评价结果更可信
4.2问题二
问题的提出:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
根据酿酒葡萄的理化指标和葡萄酒的质量,我们可以分别对酿酒葡萄进行分级,但考虑两者分级可能存在的差异性,我们考虑将两者结合起来,对酿酒葡萄进行分级。
4.2.1对红葡萄进行分级:
①在对问题一的研究中,我们得到了评酒员给红葡萄酒的评分均值,以此可以对红葡萄酒进行排序,得到其排名。
②对于酿酒葡萄的理化指标,由于数据庞大,我们先对数据进行了预处理; i. 重要指标:由附件3我们得到芳香物质的总和,作为附件2理化指标的补充,
并对葡萄的几大重要指标进行了合并,得到总酸,总糖以及PH值。(见附录excel表格)
ii. 其他指标:我们主要通过这些指标与每一位评酒员的评分均值的相关系数确
定指标的重要程度,以下是相关系数表:
从表中相关系数可看出,评酒员打分的高低与蛋白质、DPPH自由基、总酚、葡萄总黄酮、单宁、出汁率这几个指标相关性较高,这几个指标基本上从葡萄的营养,色泽,
香味,口感反应出葡萄的质量好坏。
故选取蛋白质、DPPH自由基、总酚、葡萄总黄酮、单宁、出汁率这6个理化指标作为主要其他指标。
将重要指标与选取的其他指标作为最终选定的理化指标(见附录excel表),对他们进行
主成分分析:
主成分分析原理介绍:
(1)假设我们观测了n个对象。记第i个观测对象p个指标的观测值分别为:
xi1,xi2,...,xip,则所有n个对象p个指标的观测值可以表示成以下矩阵形式:
?x11?x21
X??
????xn1?
x12x22
?
xn2
...x1p?
...x2p?? ???
?...xnp??
启中,n为观测对象书,p为指标或变量数。
(2)对原始数据进行标准化处理,处理方法为:
'
?/sk,i?1,2...n,k?1,2,...,p xik=?x?xikk??
式中,
xk??xik/n
i?1
n
2
,k
1
?xik?xk?s???n?1i?1?
n
2
标准化处理后,变量或指标的方差为1,均值为0
(3)设观察值构成的相关系数矩阵为:
?r11r12...r1p?
?r?r...r21222p??R??????? ????rp1rp2...rpp??
经标准化处理后的数据的相关系数为:
1n''
rij?xkixkj?n?1k?1
,(i,j?1,2,...,p)
(4)对应于相关系数矩阵R,求特征方程R??I?0的p个非负的特征值
?1,?2,...,?p。对应于特征值?i的特征向量为:
Ci
?(c1i,c2i,...,cpi)
'
,i?1,2,...,p
(5)求主成分。由特征向量组成的p个主成分为:
Fi?c1iX1?c2iX2?...?cpiXp
主成分F1,F2,...FP之间相互无关,且它们的方差是递减的。若把样品各指标的观测值带入到主成分中,就得到了样品各主成分的得分。
(6)选择m(m<>
本问题中以各主成分的方差贡献率作为权数,以前几个主成分为变量组成一个综合评价函数,具体函数形式如下:
F总?
?1
??
i?1
p
F1?
?2
i
??
i?1
p
F2?...?
?m
i
??
i?1
p
Fm(理化指标的综合评分,其中?1,?2,...,?m为
i
特征值)
Y?
x?x
?
(评分标准化后得分)
得到理化指标的评定分数,并将评酒员的打分标准化得到分数Y,结合两者得分定义综合得分Y总
?F总?Y,并对酿酒葡萄的综合得分分级。
(以上表格中的理化指标数据均来自chengxu3.sas)
由表中的总评分的降序排序我们对酿酒红葡萄进行分级: 第一级(2~3):样本9,23,
第二级(1~2):样本2,3,20,17, 第三级(-1~1):样本21,5,14,19,26,24,22,1,13,16,27,4,12,10, 第四级(-2~-1):样本8,25,6,15,7,18,11
4.2.2对白葡萄进行分级:
对白葡萄分级的方法与红葡萄相似,故可以适当简化得出结论。
②与红葡萄类似,除了主要指标以外,对于其他评价指标的选取,我们通过指标与每一位评酒员的评分均值与葡萄各项指标进行相关性检验,得到了以下相关系数:
观察该表格可看出,评酒员的打分高低与葡萄各个指标的相关性不是特别大。所以只选择主要指标即芳香物质,总酸,总糖以及ph值作为最终的理化指标,经过总评分排序得到如下表格:
(以上表格中的理化指标数据均来自chengxu4.sas)
由表中的总评分的降序排序我们对酿酒白葡萄进行分级: 第一级(1~2):样本5,22,25,9,10 第二级(0~1):样本17,28,14,19,21,23,12,15,4 第三级(-1~0):样本6,27,24,2,3,26,1,20,18 第四级(-4~-1):样本,13,8,11,7,16 4.3问题三
问题的提出:分析酿酒葡萄与葡萄酒的理化指标之间的联系
通过分析,我们知道该问题本质上为一个多因变量的多元回归分析,但考虑到计算的复杂性,我们对该模型进行简化,采用逐步回归法对问题进行处理。
4.3.1模型建立:多元线性回归模型 其一般表示式为:yi
??0??1xi1??2xi2?...??pxip??i(i?1,2,....n)
我们先对其进行选元,即从M(M≥p)个变量中选择p个对因变量比较重要的变量作为回归模型中的自变量。对此我们采用的方法是逐步回归法。
其思想为:①在待选的M个变量中选择一个对因变量影响最大的自变量,这可通过因变量与每一自变量进行回归得到的F值来判断。若最大的F值在给定的显著性水平下是显著的,则改变量呗选中,否则选元结束。②在剩下的M-1个变量中,再选择一个变量加入到模型中,这可以通过偏F检验来判断。
SSR(XjX1)/1
?F(1,n?3),其中偏F统计量为:F?
MSE(X1,Xj)
SSR(XjX1)?SSR(X1,Xj)?SSR(X1),表示模型已存在变量X1的条件下新加入变量
Xj对因变量的贡献。若最大的偏F统计量在给定的显著性水平下是显著的,则对应的
自变量则被加入到模型中,否则不再加入其他变量,选元结束。
③对已在模型中的每个变量进行显著性检验。若检验不显著,则去掉该变量,
再重复进行第二步和第三步,否则保留该变量,重复进行第二部和第三步,这一过程一直进行到待选的全部自变量根据给定的显著性水平没有一个再能被选入模型或排除出刚构成的回归模型为止。
模型求解: 红葡萄:
通过分析,在舍去部分无关理化指标后,以X1,X2...X28这28个变量代表酿酒葡萄的28个理化指标(即代表氨基酸,蛋白质…出汁率,果皮质量,芳香物质这28个理化指标),用Y1,Y2,...,Y7代表葡萄酒的7个理化指标(即代表花色苷,单宁,总酚,酒总黄酮,白藜芦醇,DPPH半抑制体积,芳香物质这7个理化指标)(见附录excel表),通过编写SAS程序得到Y1,Y2,...,Y7与X1,X2...X28之间的线性关系: (见chengxu5.sas—chengxu11.sas)
花色苷:Y1?438.39?2.6562X4-6.7622X26
单宁:Y2?-12.625?0.0005X1-0.0602X8?0.0036X9?17.37X10?0.0602X18 总酚:Y3?1.6838?0.0082X4+0.2528X11 酒总黄酮:Y4??0.9513?0.3976X11
白藜芦醇:Y5?38.001?0.0708X2?0.0314X4?0.3131X5?0.7697X6 ?0.3424X13?0.1497X14 DPPH半抑制体积:Y6??0.024?0.0168X11
芳香物质:Y7=0.881+5.6689X12?1.3464X15?1.6079X18
白葡萄:
与上述类似,以X1,X2...X27这27个变量代表酿酒葡萄的27个理化指标(即代表氨基酸,蛋白质…出汁率,果皮质量这27个理化指标),用Y1,Y2,...,Y6代表葡萄酒的6个理化指标(即代表单宁,总酚,酒总黄酮,白藜芦醇,DPPH半抑制体积,芳香物质这6个理化指标)
Y1,Y2,...,Y6与X1,X2...X27之间的线性关系:(见chengxu12.sas—chengxu17.sas)
单宁Y1??0.0113?0.2416X12?4.7049X27
总酚Y2??2.5039?0.1731X13?0.016X18
酒总黄酮Y3?2.928?0.0004X1?0.0071X2?0.3594X11?2.9394X19?0.0615X21 白藜芦醇Y4?0.3664
DPPH半抑制体积Y5??0.1047?0.0484X3?0.008X13?0.0006X16 芳香物质Y6=-213.33+65.496X5?746.98X10
问题的提出:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量? 红葡萄:
与问题二类似,利用主成分分析法,将红葡萄酒的理化指标得分计算出,结合问题二中已经算出的红葡萄理化指标得分以及葡萄酒质量(即评酒员评分),将三者的得分数据绘制出如下的表格及其折线图:
观察该折线图,可以非常直观地看出红葡萄和红葡萄酒的理化指标得分与评酒员打分的折线变化规律大体相似,随后对其做相关性分析,得到相关系数表:
由三条曲线良好的一致性,相关系数较大,且显著性检验的值均明显小于0.05,说明在0.05的显著性水平下,可以接受两者的是相关的,因此能用红葡萄和红葡萄酒的理化指标来评价红葡萄酒的质量。
并通过主成分分析过程中的数据寻找出了几个对葡萄质量影响较大的红葡萄与红葡萄酒的理化指标,具体sas运行结果如图:
从图中可以看到第十主成分的贡献率最小,为0.0053,接近于0,且从图中可看到,其最大的权数为-0.800388,所对应的变量为x7,即x7对主成分的影响最小,故删除了x7这个指标,同理,第六至第九主成分的特征值也相对很小,故我们删掉其最大权数对应的指标后,剩下的指标作为主要指标x1,x2,x3,x5,x9,即酸类,糖类,蛋白质,葡萄总黄酮,芳香物质为影响红葡萄酒质量的主要红葡萄理化指标。
同理可得,红葡萄酒理化指标影响红葡萄酒的主要因素是花色苷,单宁,酒总黄酮,白藜芦醇,芳香物质。
白葡萄:
显然,三条曲线无明显规律,相关系数很小,且显著性检验的值均大于0.05,说明在0.05的显著性水平下,两者的相关性不能通过,因此可以认为两者无关,说明不能用白葡萄和白葡萄酒的理化指标来较为明确的评价白葡萄酒的质量。
总结:本小问中,酿酒红葡萄和红葡萄酒的指标对红葡萄酒质量有影响,但酿酒白葡萄和白葡萄酒的指标对白葡萄酒质量无影响,故评价葡萄酒的质量需要具体分析酿酒葡萄和葡萄酒的理化指标。
五、模型评价
优点:
1. 简化掉了与建模目的无关或关系不大的因素;并且随着问题逐渐深入,几个模型之间也是相互联系
2.本文主要使用SAS软件,模型的算法计算的速度也比较快,占用的内存空间也比较小。
缺点:
1.本文中数据量较大,我们以经验及查阅到的相关文献适当舍取了一些数据 2. 本文中对模型的一些方面进行简化,会影响到计算的精确及结果的准确性
3. 一些问题中的模型较简单理想化,忽略了很多实际中的其它很多因素,因此在实际中的运用有一定局限性。
六、模型推广
本文主要是对葡萄酒和葡萄的不同的指标和大量的数据进行处理的一个过程,⑴对于第二问中的主成分分析,可以把该方法运用到生活中的其他领域,因为生活中的一个因素往往会收到多个因素的影响,但考虑到多个因素的复杂性以及各个因素是否对我们的研究都有帮助,该方法起到了很好的简化作用,通过多个因素中的主要因素代表总体,大大简化了问题的研究难度。⑵另外对于处理多个因素对一个因素的影响,我们考虑其将多个因素结合起来对该因素的影响,让得到的结果更具有代表性
七、参考文献
[1]. 《应用多元统计分析》 高惠璇编著 北京大学出版社
[2].《SAS与现代经济统计分析》 岳朝龙 黄永兴编著 北京大学出版社
[3]. 《概率论与数理统计教程》 茆诗松 程依明 濮晓龙编著 高等教育出版社
21
转载请注明出处范文大全网 » 葡萄酒的评价2012A
≤>≤>