范文一:地统计学重点
地统计学是20世纪60年代由法国著名统计学家G .Matheron (马特隆)创立的一门新的统计
学分支
地统计学是以区域化变量理论为基础,以变异函数为主要工具,研究在空间分布上既有随机
性又有结构性,或空间相关和依赖性的自然现象的科学。
理论基础——区域化变量理论
主要工具——协方差函数和变异函数
主要内容——克立格(Kriging )插值法
经典统计学与地统计学的区别
地统计学
研究区域化变量
变量不能重复试验
样本具有空间相关性
研究样本的数字特征和区域化变量的空间分布特征
经典统计学
研究纯随机变量
变量可无限次重复观测或大量重复观测
样本相互独立
研究样本的数字特征
地理数据是用一定的测度标准去衡量地理要素而取得的地理信息。
定性地理数据 间隔尺度数据 比例尺度数据
定量地理数据 有序数据 二元数据 名义尺度数据
相关关系的种类
①按所涉及的变量的多少
单相关:两个变量之间的相关。
复相关:三个或三个以上变量之间的相关。
②按相关关系的表现形态
直线相关:如果两个变量之间相互变化近似为一条直线,则称为直线相关。
曲线相关:变量之间的相互变化近似为一条曲线。
③简单相关关系下按变量变动的方向
正相关:两个变量同方向变化。
负相关:两个变量反方向变化。
无相关(或零相关):两个量的变化互不影响。
偏相关 当研究某一个要素对另一个要素的影响或相关程度时,暂不考虑其它要素的影 响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏相关
复相关 几个要素同时与某一个要素之间的相关关系
回归分析 就是对具有高度相关关系的现象,根据其相关的形态,建立一个适宜的数学模型
( 回归方程),来近似地反映变量之间的一般变化关系,以便于进行估计或预测的统计方法。
一元线性回归 两个要素之间的线性关系。
拟合优度:样本观察值聚集在样本回归值周围的紧密程度。
区域化变量 以空间点x 的三个直角坐标xu,xv,xw 为自变量的随机场Z(xu,xv,xw)=Z(x),称为区域化变量
区域化变量示例有二维的、三维的。
例:矿石品位、矿体厚度、大气污染浓度、气温、降水量、海拔高度、土壤重金属含量等等。 区域化变量的性质
(1)随机性和结构性
(2)空间局限性
(3)不同程度的连续性
(4)不同类型的各向异性
协方差函数
设某一区域化变量Z(x)的任意n 维分布函数不因空间点x 发生位移h 而改变,即若对任一向量h 下式成立
则称区域化变量Z(x)为平稳的。
当区域化变量Z(x)的增量Z(x)-Z(x+h)满足下列两个条件时,则该区域化变量满足内蕴假设
1)在整个研究区内,区域化变量Z(x)的增量的数学期望为0
2)在整个研究区内,区域化变量Z(x)的增量的方差函数对于任意x 和h 存在,且平稳(即随机函数Z(x)的增量只依赖于分割它们的向量h ,而不依赖于具体位置x )
协方差计算
N (h )
C #
(h ) =1N (h ) ∑[Z (x i ) -x i )][Z (x i +h ) -x i +h )] i =1
N(h)样点对数
Z (i )样本点 样点对起点 样点对第二个点
协方差函数的性质
1) 先验方差不能小于零
2) C(h)=C(-h),即C(h)对于h=0的直线是对称的,它是一个偶函数。
3) 即协方差函数绝对值小于等于先验方差。
4) 当空间距离增大时,Z(x)和Z(x+h)之间的线性相关降低或不存在。
5)C(h)必须是一个非负定函数,即由C(xi–xj )构成的协方差函数矩阵必须是非负定矩阵
变异函数计算
N (h ) *2 i i
i =1
缺失值直接跳过
变异函数性质
(1) γ(h)=0,即在h=0时,变异函数为零。
(2) γ(h)=γ(-h),即γ(h)对h=0的直线对称,是一个偶函数。
(3) γ(h)≥0, 即研究现象的变异函数值只能大于或等于零。
(4) |h|→∞时, γ(h)→C(0),或写作γ(∞)=C(0),即当空间上样点间距离无限大时,变异函数值接近先验方差。
(5) [-γ(h)]必须是一个条件非负定函数,即由[-γ (xi-xj)]构成的变异函数矩阵必须是条件非负定矩阵,或者说:若条件 成立,则矩阵[-γ (xi-xj)]为非负定阵。
变异函数的功能
(1)变异函数通过“变程”反映变量的影响范围
(2)不同方向上的变异函数图可反映区域化变量的各向异性
(3)块金常数C0的大小可反映区域化变量的随机性大小
(4)变异函数在原点处的性状可反映区域化变量不同程度的空间连续性
球状模型
当 C0=0,C=1时,称为标准球状模型.
原点处切线的斜率为3C/2a,
切线与基台值线交点的横坐标为2a/3,
变程为a
指数模型
1γ(h
) =2N (h ) ∑[Z (x ) -Z (x +h )]
γ1(h ) =指数模型的变程为3a 。 C0为块金常数,(C0+C)为基台值,C 为拱高 原点处切线的斜率为C/a, 切线与基台值线交点的横坐标为a 比球状模型连续好 高斯模型 -h 2 a 2 0 C0为块金常数,(C0+C)为基台值,C 为拱高 高斯模型的变程为根号3 切线与基台值线没有交点,对应于空间变异十分连续的区域化变量。 纯块金效应模型 0 0 此时,C0=C(0),先验方差 区域化变量为随机分布,空间相关性不存在 结构分析 构造一个变异函数模型对于全部有效结构信息作定量化的概括,以表征区域化变量的主要特征。 套合结构 把分别出现在不同距离h 上和(或)不同方向α 上同时起作用的变异性组合起来。可以表示为多个变异函数之和,每一个变异函数代表一个方向一种特定尺度上的变异性 每一个变异函数代表同一方向上一种特定尺度的变异,并可以用不同的变异函数理论模型来拟合,即单一方向的套合结构
?0 ?3h 1h 3?γ2(h ) =?C 2[?-() ] 2a 22a 2??C 2 ?? 0h =0 ?? 3h 1h 3?C 1[?-() ]0 0?γ(h ) =??C +C (1-e h =0h >0) ?0γ(h ) =??c h =0h >0C >0h =00 各向异性的种类 (1)几何异向性 可转变为各向同性 同基台值不同变程 当区域化变量在不同方向上表现出变异程度相同而连续性不同时称为几何异向性 (2)带状异向性 当区域化变量在不同方向上变异性差异不能用简单几何变换得到时,就称为带状异向性。 结构分析的步骤 (1)区域化变量选择 (2)数据的获取与审议 (3)数据的统计分析 (4)变异函数的计算 (5)变异函数的结构分析——各向异性 (6)理论变异函数模型的最优拟合及检验 (7)变异函数理论模型的专业分析 克立格法概念 又称为空间局部估计或空间局部插值法, 克立格法是建立在变异函数理论及结构分析基础上,在有限区域内对区域化变量的取值进行线性无偏最优估计的一种方法。 主要类型: 简单克立格法 普通克立格法 Ordinary Krigin 泛克立格法 Universal Kriging 对数正态克立格法 Logistic Normal Kriging 指示克立格法 Indicator Kriging 概率克立格 Probability Kriging 析取克立格法 Disjuctive Kriging 协同克立格法 Co-Kriging 克里金估计量 对于任意待估点或块段的实际值,其估计值是通过该待估点或待估块段影响范围内的n 个有效样品值的线性组合得到 漂移:非平稳区域化变量Z(x)的数学期望,在任一点x 上的漂移就是该点上区域化变量Z(x)的数学期望 涨落 是一个数学期望为0的区域化变量,可认为涨落是围绕漂移m(x)摆动的随机误差。 协同区域化变量:在统计意义及空间位置上均具有某种程度相关性,并且定义于同一空间域中的区域化变量。 例:气温、海拔 Au 、Ag 、As 含量 协同克立格法:是多元地统计学研究的基本方法,建立在协同区域化变量理论基础之上,利用多个区域化变量之间的互相关性,通过建立交叉协方差函数和交叉变异函数模型,用易于观测和控制的变量对不易观测的变量进行局部估计。 满足二阶平稳假设的协同区域化变量应满足: (1)每一个协同区域化变量的数学期望存在且平稳: (2)交叉协方差函数存在,且平稳: 满足内蕴假设的协同区域化变量应满足: (1)每一个协同区域化变量增量的数学期望为0: (2)对于协同区域化变量,交叉变异函数存在且平稳。即 地统计学上机实验指导 一、 实验目的和要求 1、 实验目的 力图通过本实验课程的学习,掌握地统计学的基本概念、基本操作方法,并能够根据实验结果做出合理的解释。 2、 实验要求 本实验课程主要学习探索性空间数据分析、结构分析(计算和模拟临近位置的表面属性)、表面预测与结果评估。 要求学生实验前认真准备,实验后提供实验报告,给出详细的实验过程和实验结果。 实验报告内容应包括:实验名称、目的、内容和实验步骤、实验结果说明。 二、 实验环境介绍 实验软件:选用Office Excel软件、ESRI公司ArcGIS软件的地统计(Geostatistics)分析扩展模块。 三、 实验内容和学时分配 实验一 相关分析 一、 实验目的 掌握在Office Excel 软件中进行相关分析(包括散点图绘制、相关系数计算、相关性解释)。 二、 实验数据 简单相关分析:“实验一相关分析. xlsx”中沟壑密度和平均坡度字段 偏相关、复相关分析:“实验一相关分析. xlsx”中沟壑密度、平均坡度、平均坡长字段 三、 实验内容 1、 简单相关分析 分析沟壑密度与平均坡度的相关性? (1) 绘制相关图 (2) 计算简单相关系数 ? 函数计算法:correl(array1,array2) ? 利用分析工具计算 (3) 相关系数t-检验 t? r1?rn?2 2 相关系数的t值=r/sqrt((1-r^2)/(12-2)) ? t临界值=tinv(0.05,n-2) 若abs(t)>= t临界值,则相关性显著。 ? P值=tdist(t,n-2,2) (tdist返回t分布的百分点) 若P 2、 偏相关分析 计算沟壑密度分别与平均坡度、平均坡长的一阶偏相关系数 (1) 计算各要素的简单相关系数矩阵 利用数据分析工具中的“相关系数” (2) 计算相关系数矩阵的逆矩阵 minverse() (3) 计算偏相关系数 为第j个自变量与因变量y之间的偏相关系数;c为相关系数逆矩阵中的 对应元素。 (4) 偏相关系数检验 t临界值=tinv(0.05,n-k-1) 3、 复相关分析 F临界值=finv(0.05,k,n-k-1) 回归分析 一、 实验目的 掌握在Office Excel 软件中利用图表、Excel函数、分析工具进行一元线性回 归分析,并能够对回归分析结果进行解释。 二、实验数据 一元回归分析:“实验三回归分析. xlsx”中沟壑密度和平均坡度字段 多元回归分析:“实验三回归分析. xlsx”中沟壑密度、平均坡度、平均坡长字段 三、实验内容 1、一元线性回归分析 对沟壑密度和平均坡度建立一元线性回归方程,并进行检验。 (1)利用函数进行回归分析 一元回归方程的评价 A、相关系数检验 B、拟合优度的评价 r2, Syx C、方程假设检验 F-检验 F值= 对于一元线性回归,t值、F值可用相关系数计算,因此,F值与t值都与相关系数r等价,相关系数检验就包含了F值和t值信息,一元线性回归也就无需作F-检验与t检验。但对于多元线性回归,F-检验与t检验都不可省略。 (2)利用图表进行回归分析 添加趋势线 (3)利用excel分析工具进行回归分析 参数解释 预测 forecast() 斜体部分为非必须掌握内容 ? 残差:? 标准残差: 如果显著性水平位0.05,原则上要求95%的残差点列落入2 倍的正负标准误差带内,或者标准残差数值原则要求处于-2~2。也可通过做标准残差的散点图来观察。 ? 百分比排位: (式中n为样本数目,k=1,2,…) ? 残差图:残差点列分布越是没有趋势、没有规则,就越是具有随机性,回归的结果 就越是可靠。 ? 线性拟合图:预测值与原始数据点列匹配效果越好,表明拟合的效果越好。预测值 的点连接起来,就可得到回归趋势线。 ? 正态概率图:图中点列应该接近于一条直线(确定型数据),或者围绕对角线呈现 S形分布(随机变量)。当数据单调增加或单调减少,正态概率图的点列为直线分 布,意味着研究对象适合于线性模型拟合。但是,对于随机变量,正态概率图应该围绕对角线表现为奇对称的S形分布。如果数据点严重偏离对角线,分布于对角线一侧,则可能是因为:其一,数据取样不足;其二,因变量不是随机变量,没有典型或者特征尺度;其三,变量具有非线性性质,不宜采用线性模型拟合。 2、多元线性回归分析 利用“数据分析”工具对沟壑密度和平均坡度、平均坡长建立线性回归方程,并进行拟合优度检验、回归方程检验(F检验)、回归系数检验(t检验)。 实验二 探索性数据分析 1、 实验目的 熟练掌握ArcGIS中的探索性空间数据分析工具,能利用这些工具检验数据分布、寻找数据离群值、分析数据的全局趋势、空间自相关及方向变异性。 2、 实验数据 qxz.shp 3、 实验内容(以qxz.shp气温、海拔数据为例说明) 1、检验数据分布 ? 用直方图检验数据分布 气温 ? 用正态QQplot图检验数据分布 气温 ? 用普通QQplot图检验数据分布 气温和海拔 说明海拔是什么分布? 2、寻找全局和局部离群值 ? 用直方图查找全局离群值 海拔 ? 用半变异/协方差函数云识别离群值 海拔、气温 ? 通过Vonoroi地图寻找离群值 检验降雨量数据是否存在离群值? 3、全局趋势分析 对降雨量进行全局趋势分析(南北方向、东西方向、东北-西南方向、西北-东南方向的空间变化趋势) 4、检测空间自相关及方向变异 检验降雨量数据的空间自相关和方向变异是否存在? 实验三 简单和普通克立格法内插生成表面 一、 实验目的 掌握利用ArcGIS中的地统计分析模块,进行普通克立格插值和简单克立格插值。理解克立格法生成的不同表面类型的含义、掌握半变异函数协方差函数建模、搜索邻域确定、不同模型比较的方法。 二、 实验数据 temp.shp 气温 三、 实验内容 1、 克立格法生成的不同表面类型 预测图(Prediction Map)、概率图(Probability Map)、分位数图(Quantile Map) 标准误差图(Standard Error Map) 2、 普通克立格法插值生成预测图 (1) (2) 数据转换 “Transformation type” 块金效应建模 “Measure Error”设为100%,表明块金常数完全由测量误差构 成,不存在变量微观结构所造成的随机变异 。 (3) 区域化变量的理论模型 “type”球状模型“Spherical” 选择一个看上去适合经验半变异函数云的半变异函数模型,使用交叉验证和验证的方法从相似的模型中选择出一个最合适的模型。 (4) 各向异性建模 Anisotropy 观察黄线周围的点的分散情况,若点在黄线的某一个方向上分布很紧密,在另 一个方向上分布很分散,则可判断存在方向性自相关。各向异性建模后原来的一条黄线将变为多条。 (5) 步长分组 binning 表面中的每一个栅格是一个组(即落在同一距离和角度组中的样点对所构成的分组)内样点对所计算的平均变异函数值,颜色代表值的大小。 Lag区域可设定滞后距(Lag Size,即步长)及滞后组数(Number of Lags,即步长组) 若采样点规则分布,则可将采样间距或其倍数设定为滞后距;若采样点为不规则分布,则可基于这样一个原则:“滞后距X滞后组数≈所有采样点最大距离的一半”。可在ArcToolbox中将通过Spatial Statistics Tools/Analyzing Patterns/Average Nearest Neighbor命令计算的NNObserved值,作为滞后距。 (6) (7) 变异函数表面图 搜索邻域范围设置 领域范围的形状 圆形还是椭圆(Major semiaxis、Minor semiaxis、Angle) 设定邻域点的个数(Maximum neighbors、Minimum neighbors) 分区:避免在某个特定方向上倾斜,当采样点在横断面或格网上采集时特别有用。(Sector type) 当分区中最小点数无法满足时: (8) 交叉验证 预测误差的算术平均值(Mean)越接近于0,说明预测值越是无偏的; 均方根(Root-Mean-Square)误差和平均标准(Average Standard)误差越小,说明预测值与测量偏差越小。 Regression function显示了散点图的回归直线方程,该回归直线(图中深色线)若与1:1线(图中浅色线)吻合较好,则说明预测值总体上与测量值较为接近。 (9) 地统计图层的表达 等高线、阴影化、栅格、等高线填充表达 3、 简单克立格法插值生成预测图 4、不同插值方法比较 Compare 实验四 泛克立格法和协同克立格法内插生成曲面 一、 实验目的 利用ArcGIS中的地统计分析模块,进行泛克立格法和协同克立格插值。 二、 实验数据 我国地面国际交换站1971-2000年累年平均气温数据:temp.shp 气温字段; GTOPO30 DEM海拔高程数据:高程.shp 三、 实验内容 1. 泛克立格法插值 (1) 用80%的采样点,基于泛克立格法生成预测图,并进行验证。 (2) 基于泛克立格法生成概率图、分位数图 概率图 分位数图 注意: ? 某些地统计方法要求原数据必须是正态分布,如:普通、简单、泛克立格法的分位图和概率图、析取克立格法。 ? 趋势剔除阶数“Order of trend removal” 趋势函数类型“Kernel Function”。 2. 协同克立格插值 通过Geostatistical Wizard/Kriging/CoKriging协同克立格法插值生成预测图。 实验五 其他克立格法内插生成曲面 一、 实验目的 利用ArcGIS中的地统计分析模块,进行指示、概率、析取克立格法插值。 二、 实验数据 temp.shp 气温 三、 实验内容 1、 指示克立格(Indicator Kriging)插值 无需假设数值来自某种特定分布(如正态分布)的总体,也无需对原始数据进行变换(如对数变换)。因此指示克立格法不必去掉重要而实际存在的高值数据的条件下处理各种不同现象,并能够给出某点x处随机变量Z(x)的概率分布。 各点预测值表示高于或低于阈值的概率。 利用指示克立格法预测我国累年平均气温大于12度的概率图 2、 概率克立格(Probability Kriging)插值 概率克立格法与指示克立格法应用效果基本相同 3、 析取克立格(Disjunctive Kriging)插值 采用析取克立格法预测我国累年平均气温,并利用验证方法进行精度检验。 注:正态积分变换 将数据集从小到大分级排列,且将其级别与正态分布的同一级别相匹配,然后从同一等级的正态分布中取值来进行变换。 预测完后,进行逆变换 三种方法: 直接法(Direct):直接使用观测数据累积分布图 线性法(Linear):对累积分布图的每一步作线性拟合 高斯内核法(Gaussian Kernels):与通过拟合密度累积分布的线性组合来获得概率分布图相似 近似方法的选择取决于用户所作的假设和近似的光滑度。直接法假设最少并且最不光滑;线性法居中;高斯法具有最光滑的逆变换,且具有最严格的假设(数据为正态分布)。 与其他变换方法的区别:对每个特定的数据集做变换。 正态积分变换的目的是使研究区域的总体(不仅仅是样本)的随机误差均呈正态分布。因此,样本累积分布图能否反映整个数据集的真实情况至关重要。 ? 消除集群调整优化采样 优先采样,使某些地区的采样点密度高于其他地区。 若某些数据是优先采样且空间相关,则样本直方图不能反映数据总体的情况。 ? 解决方法:数据加权 高密度采样区的数据赋予较小的权重;较稀疏采样区的数据赋予较大的权重。 ? 单元离散化 每个数据点的权重与落在该单元内的点数成反比。 如果在高值区优先采样,则应选择使权重平均值最小的单元尺寸;反之,选最大的。 ? 多边形法 用每个点能代表的区域大小作为权重。 问题:边界上点的权重难于确定。 1.1 地统计扩展模块简介 ArcGIS地统计分析模块在地统计学与GIS之间架起了一座桥梁。使得复杂的地统计方法可以在软件中轻易实现。体现了以人为本、可视化发展的趋势。 地统计学的功能在地统计分析模块的都能实现,包括: (1)ESDA:探索性空间数据分析,即数据检查; (2)表面预测(模拟)和误差建模; (3)模型检验与对比。 地统计学起源于克里格。当时他用此法预测矿产分布,后来经过别人改进修改发展成为现在所用的克里格方法。虽然空间数据分析还有其他方法,如IDW(反距离加权插值法)等,但克里格方法是最主要、最常用的空间分析方法,下面也以此法为主进行。 1.2表面预测主要过程 ArcGIS地统计扩展模块的菜单非常简单,如下所示,但由此却可以完成完整的空间数据分析过程。 一个完整的空间数据分析过程,或者说表面预测模型,一般为。拿到数据,首先要检查数据,发现数据的特点,比如是否为正态分布、有没有趋势效应、各向异性等等(此功能主要由Explore Data菜单及其下级菜单完成);然后选择合适的模型进行表面预测,这其中包括半变异模型的选择和预测模型的选择;最后检验模型是否合理或几种模型进行对比;(后两种功能主要由Geostatistical Wizard…菜单完成)。Create Subsets…菜单的作用是为把采样点数据分成两部分,一部分作为训练样本,一部分作为检验样本。 下面将按上述表面预测过程进行叙述。 (注:[1]文章示例中所使用的数据为ArcGIS扩展模块中所带的学习数据(某地测得的臭氧含量样本),整个过程均使用此数据;[2]文章以操作方法介绍为主,所涉及到的地统计方法和基本理论一般未进行解释,可查阅相关地统计理论资料;操作中所用到的某些参数为地统计中的标准名称的也未进行解释。) 我们下面的任务是根据测量所得到的某地臭氧浓度数据进行全区的臭氧浓度预测。首先检查数据的特点,然后根据数据特点用不同参数进行表面模型预测,随后比较不同模型的精确程序,选择最佳模型,最后制作成果图。 我们下面的任务是根据测量所得到的某地臭氧浓度数据进行全区的臭氧浓度预测。首先检查数据的特点,然后根据数据特点用不同参数进行表面模型预测,随后比较不同模型的精确程序,选择最佳模型,最后制作成果图。 1.3数据检查,即空间数据探索分析(ESDA) 此功能主要通过Explore Data菜单中实现。 扩展模块提供了多种分析工具,这些工具主要是通过生成各种视图,进行交互性分析。如直方图、QQ plot图、半变异函数/协方差图等。 (1)直方图显示数据的概率分布特征以及概括性的统计指标。 下图中所展示的数据,中值接近均值、峰值指数接近3。从图中观察可认为近似于正态分布。克里格方法对正态数据的预测精度最高,而且有些空间分析方法特别要求数据为正态分布。 (2)正态QQ Plot图: 检查数据的正态分布情况。作图原理是用分位图思想。直线表示正态分布,从图中可以看出数据很接近正态分布(左上角几个偏离的点被选中)。 (3)趋势分析图。 蓝线表示南北方向,呈水平,可见南北方向无趋势。绿线表示东西方向,呈倒"U"形,可用二阶曲线拟合,在后面进行表面预测时将会去除。 点击Rotete右边的方向旋转箭头(横向箭头),可旋转趋势图,更明显地显示某一个方向的趋势。 (4)Voronoi图 用来发现离群值。Voronoi图的生成方法:每个多边形内有一个样点,多变形内任一点到该点的距离都小于其他多边形到该点的距离,生成多边形后。某个样点的相邻样点便会与该样点的多边形有相邻边。至于多边形值的计算有多种方法,可以用生成多边形的样点值作为多边形的值(Simple方法),也可以以相邻样点的平均值为多边形的值(Mean方法),具体计算方法可以在Type下拉菜单中选择。 (5)半变异函数/协方差函数。 该图可以反应数据的空间相关程度,只有数据空间相关,才有必要进行空间插值法。图表的横坐标表示任两点的空间距离,纵标表示该两点的半变异函数值。根据距离越近越相似的原理,因而x值越小,y值应该越小。 如果任意两点的值都要计算,当采样点很多时,数据量便很大,因而根据距离和方向对样点距离进行了分组。下列参数便是为此要求而设置:Lag,步长值;Number of,步长组数。步长值和步长组数之乘积应小于采样点区域的坐标范围的一半。如下图。 最后的两个图表是针对两个数据集而言的。 (6)普通Qqplot分布图 评估两个数据集分布的相似程度。利用两个数据集中具有相同累积分布值的数据值来作图。 (7)正交协方差函数云。 横坐标:两点间的距离; 纵坐标:两点间的距离所对应的样点对的理论正交协方差。 这些图彼此相关联,并与ArcMap中的图层相关联。即,在某个分析图中选择某些样点,在ArcMap 图层及其他分析图中同样会选中这些点。如下图。 后面将在数据检查的基础上进行表面预测。 1.4制作表面预测图: 通过上面的数据检查,发现数据接近正态分布、有空间相关、无离群值、东西方向有倒"U"形趋势。决定使用普通克里格方法进行表面预测。下面的步骤是针对此数据进行的。 将使用地统计模块的第二个菜单Geostatistical Analyst……。 第一步:选择输入数据和方法面板(Choose Input Data and Method) 选择使用的数据及其属性:分别在Input和Attribute中选择 选择预测方法:在Methods中选择。预测方法的选择要根据数据分析的结果而定。现在假如选择Kriging方法(其实所谓地统计方法,最主要并且用的最多的就是Kriging方法的几种变化形式)。 Validate是个可选项,选择使用何种方法对生成的预测图进行检验,如果想用检验方法,则选中此项并设置检验数据集和属性;如果对结果进行交叉检验,则不要选择此项。 第二步:地统计方法选择面板(Geostatistical Method Selection) 选择Ordinary Kriging中的Prediction Map,即使用普通克里格方法生成一个表面预测图。普通克里格方法是最常用的地统计分析方法。其他几种依次为简单克里格、泛克里格、指示克里格、概率克里格、析取克里格。这集中克里格的区别是由于克里格的形式及其数据特点的不同。 Transmition选项:对数据集进行转换,由于某些方法要求数据正态分布,因此如果数据与正态分布差距很大,可以在此选择一种方法对数据进行转换。 Order of trend:如果数据在某方向上存在趋势,则为了提高预测的准确性,一般要剔除趋势。在此处选择趋势方程的阶数:线性、一阶、或无趋势等。数据的趋势有无以及阶数在数据检查时得到,即用Explore Data菜单下的Trend analysis来分析得到。 第三步:趋势剔除面板(Detrending) 此面板只有在第二步中选择了Order of trend选项是才会出现,一般为缺省即可。 第四步:半变异函数/协方差模型面板(Semivariogram/covariance Modeling) 此步的主要功能为半变异函数建模,是预测过程中的实质性阶段。在此面板中需要社定许多与拟合半变异函数相关的选项以及半变异函数的参数。是克里格预测中十分关键的部分。 Semivariogram/covariance部分显示的是拟和的模型,黄线即半变异函数曲线。 Models部分:model1,model2,model3表示可以用多个通用函数来拟和半变异函数模型。如果数据为各向异性,则需要选中Anisotropy(其实大多数空间数据是各向异性的,各向同性只是相对的),当选中此选项时,黄线变为多条,表示多个方向的拟合函数。 Show Search Direction选项选中后,表示只搜索某个方向的半变异函数。 Nugget:块金值,函数参数之一,即函数与y轴相交的y值。 Error Modeling:如果数据中有测量误差(比如一起原因等)的话,则选中此项,预测表面将光滑许多。 第五步:搜索区域面板(Searching Neighbourhood) 此面板的主要功能是设定预测某点数值时如何搜索邻近的已测量点。 主要有样点数(neighbours to)和搜索形状(shape)两个选项。 Neighbours to:最大搜索数目,离预测点太远的样点对预测无意义。 Include at least:最小样点数目。 Shape:设置如何搜索样点,有图解。 第六步:交叉验证面板(Cross Validation) 在此面板中查看预测的精度,有四个图表,现以最左边的"预测"图表进行说明。 图表的横坐标为测量制值,纵坐标为预测值,最理想的情况是数据呈1:!线,即图中的破折线。 左下方的预测误差(precited error)项是预测误差的一些统计值,可很好的体现预测的好坏。其中,Mean:0.0005718(预测误差的均值);Root-Mean-Square:0.01154(预测误差的均方根);Average Standard Error:0.01456(平均预测标准差)、Mean Standardized:0.02688(平均标准差);Root-Mean-Square Standardized:0.8463(标准均方根预测误差)。其中前四项越小越好,最后一项越接近1越好。 右下方的项含有每个点的误差、标准差等数据, 第七步:数据图层信息面板(Output Layer Information) 该面板中显示了在数据预测过程中设置的参数,可以查看。 点击OK,即可生成预测图。 1.5模型比较 一般情况下,有时候某些参数难以判断,因而会生成几个预测表面,然后比较不同表面的精度,选择精度最高的作为结果。(Ordinary Kriging表面是用上述过程中的方法生成的预测表面,default是用缺省的参数得到的预测表面) 右键点击Ordinary Kriging并选择Compare…,即会出现下面的检验面板。To后面即为要对比的预测表面。通过下面的预测参数,很容易便可看出,Ordinary Kriging的精度明 显高于Default。 1.6最终成果展示 缺省情况下,生成的预测图按照采样数据的坐标范围显示成一个矩形。(如前面所示)现在 要把它的范围显示到州界的范围。思路为先把预测表面外推,覆盖整个州界,然后再用州界进行限定,把表面限制在州界的范围。 第一步:外推。 在ArcMap目录表中右键单击预测表面名, 在快捷菜单中选择Properties, 在Layer Properties面板中点击Extent页; 在Set the extent to下拉菜单中选择a custom extent entered below, 然后在下面的Visible Extent项中设置坐标范围。(此图中分别设置为左:-240000,右:-1600000,上:860000,下-400000)。 设置后结果如图。 点击确定,得到结果: 第二步:范围限制。 在ArcMap目录表中右键单击Layers, 选择Properties, 点击Data Frame, 在Clip to Shape项中选中Enable前的复选框,然后点击Specify shape…,在Data Frame Cliping面板中指定限制图形为ca_outline,点击OK,点击确定。 结果如下图。 后面可继续进行比例尺、图例等的设置,在此不一一赘述。(完) 在逻辑回归和克里金该方法的基础上研究土壤污染和人类活动的相关性 关键词:回归克里金 逻辑回归 指示克里金 重金属 土壤污染 摘要:在台湾的中心地区, 量化土壤的污染和长期土地利用的相关性是一个管理土壤资源的 非常有效地方式。 定义有害的地区为重金属含量超过相应的可控标准的地区, 此项研究不仅 估算了有害地区概率分布的空间格局, 有害地区的概率是使用指示克里金方法而且只基于那 些可观测的重金属数据得出, 还通过逻辑回归和回归克里金法考虑辅助变量来估算可能有害 地区的空间格局。 估算结果显示通过指示克里金法和回归克里金法估算的有害空间格局比用 指示克里金法估算的还要零碎。 此外, 指示克里金和回归克里金能够确定污染源和污染途径 的关系。 在结果的基础上, 受害地区和工长的位置以及研究区灌溉系统的位置有着极为密切 的关系。 这些方式为未来检测土壤污染提供了一个探索危害性的有效方式。 逻辑克里金和回 归克里金不仅能识别土壤污染的自然和人为的因素, 而且提高了辨别受害区域土壤污染的超 微性。特别是,回归克里金法考虑到用空间残差来改善逻辑克里金中的优势。 1. 介绍 金属离子位于饮食来源必须提供的关键营养当中。一些重金属元素是人类每分每秒必不 可少的, 然而那些超过限制的不是致癌的就是有毒的。 此外, 由于重金属在人体内不能被降 解或是摧毁, 所以他们具有持久性。 重金属污染和人类活动有密切的关系。 化学和冶金行业 是重金属在自然中最重要的来源。还有,由于人类的活动土壤的重金属污染已占主导趋势。 重金属集中的热点地区是离台湾中部近的工厂和灌溉系统。 工厂被怀疑往台湾中部的灌溉渠 道排放废水,当地的站点可能被这种途径污染。由于人类的行为活动,不合理的废水处置, 农业土壤的重金属污染在全世界范围内快速增长。 在逻辑回归的基础上,许多研究已经分析出推动力因素和土壤污染是怎样相互关系着来 决定土壤污染发生的可能性。 逻辑回归分析检查出污染集中区的概率超出了一系列资源的极 限值。使用逻辑回归, tesoriero 和 voss 估计普吉声音盆地硝酸盐污染的含水层脆弱性。使 用同样的方式, twarakavi 和 kaldarachchi sumas-blaine 预测含水层重金属污染物的敏感性。 也是使用逻辑回归, lee 量化出砷浓度和水化学参数的污染敏感性是怎样相关联的。他们的 研究在基于推动力的点上确定出决定污染公害的概率。 为了增加逻辑回归模型的准确率, 这 个研究通过套用回归克里金法建模而得出重金属的危害概率。 回归克里金法包含着对辅助变 量的因变量的回归分析和回归残差的简单克里金。 大多数研究证实回归克里金对于实际应用 中的空间估计是一种灵活但又稳健的方式。 基于回归克里金法, 趋势估计与残余插值是分离 的,趋势估计涉及到任意复杂形式的回归。通过使用回归克里金,基于已建立的过程模型 staceyetal 改善了土壤中氧化亚氮的预测能力。 Hengletal 讨论回归克里金的特征,优点和极 限, 用一个简单的例子和三个案例研究举例说明了这些特征。 众所周知, 回归克里金是一种 混合残差的方式。 回归克里金起初在辅助信息上使用回归分析, 后来使用简单的克里金并用 一个非常出名的方式向回归分析模型中插入残差。 此外, 土壤污染监测在弄明白环境的危险性方面, 是一个必须的和过高花费的过程。 不 用测量整个区域内的土壤数据, 克里金模型就能被用来估计土壤污染的空间格局。 指示克里 金法除了划定有危害的区域, 还能确定区域内重金属污染的概率分布。 指示克里金法提供了 一个非参数分布, 估计非抽样位置直接使用固定扩值和澄清公害危险的空间格局。 通过使用 指示克里金 ,goovaert 估计并绘制出镉和铜污染的危害程度,引入了瑞士岸区域的表土层。 基于指示克里金法, van meihe goovaert 评估出重金属集中区污染元素的概率,那些元素超 过了比利时空气传播的镉污染区域的环境极限值。 以上这个模型通过观察土壤集中区和测量 研究区域的数据,而适用于评估重金属污染区域的有害危险程度。 进一步,此项研究的目的是:1. 辨别土壤污染中包括人类行为多变性的因素 2. 提高估计 的准确性 3. 评估有土壤重金属污染的空间有害地图 4. 强调土壤中带有金属的热点地区的分 布率。 2. 方法和材料 研究评估台湾中部地区工厂附近的一个农业区的空间地图,特别强调土壤中金属元素的 分布和关系。 在逻辑回归和克里金的基础上, 重金属的空间分布格局被予以分析。 讨论台湾 长华村人类行为和重金属的抽样调查。 2.1研究区域 区域是台湾一个非常重要的农业区的长华村。东边是长华市,西边是鹿港镇。此区域的 农业用地是 461ha ,占整个区域的百分之六十二。在 1970年以后,政府鼓励轻工业。将近 106家工厂聚集在这个研究区。在这个研究区的工厂包括金属业,电镀业,纺织业以及金属 表面处理业,些工厂被怀疑往研究区的灌溉渠道排放污水。 2.2抽样调查和化学分析 2002年的 2月到 8月之间, 台湾的环境保护管理会在这个研究区开展了一个土壤重金属 调查项目, 调查了 1309个表土层的例子 (包括铬, 铜, 镍, 锌, 铅, 砷, 镉和汞的集中区) , 并得出了数据。 由于研究区农地的不规则性, 抽样战略地点是不一致的。 研究区不是一个规 则的区域,它是由于灌溉系统的地形决定的。这些抽样的地方在图一(b )里显示。使用不 锈钢铲子和再生障碍性勺子从每一个样区采集接近 1公斤的土壤,然后储藏在塑料食物袋。 在室温下将空气晾干后,每一份样土有 3克被分解,筛到 0.85毫米,地面的 0.15毫米是细 粉。每 3克研磨样品在室温条件下加入 7毫升硝酸和 21毫升盐酸吸收 2小时,慢慢地氧化 土壤中的有机物。接下来,这个 100毫升的王水将被过滤。最后,电感偶合 Plasma-Optical 发射光谱仪确定样品集中区的重金属水平。 图一(b ) 2.3逻辑回归法 逻辑回归提供了基于推动力基础上每一个位置每一种污染危害出现的概率。 逻辑回归法 定量危害发生和推动力之间的关系,规定如下: ) exp(1) exp(1 01 0∑∑==+ ++ = k j ji j k j ji j i x x p β ββ β (1) and ) 1ln( ) (log i i i p p y it -= (2) i p 表示在网格单元 i 中超过可控标准集中区重金属元素的概率 , k 是推动力因素的个数, y i 表示在网格单元 i 中相互依存的指标变量 ,x ji 表示在 j 因素下的每一个 i 因素的值 , 0β是估计 系数, j β是逻辑模型中每一个推动力因素的系数。研究中的逻辑回归由 SPSS 统计软件执 行 , 重要变量由卡方检验确定。 2.4回归克里金法 随机功能被模拟为是趋势和随机变量的结合物。 回归克里金用两种方法去连接这些:回归 法用于适应解释型变量,用期望值为零的简单克里金法去适应残差。 ) () () (0^ 0^ 0^ s e s m s z += =) (00 ^s x k j j j ∑=β+) (1i n i i s e ∑=λ (3) ) (0^ s m 是拟合的趋势, ) (0^ s e 是剩余插值, j x 是推动力因素, j ^ β是估计的趋势模型系数, i λ是残差的空间独立结构决定的克里金重量并且 e(si ) 是在 s i 处的残差值。回归系数 j β用 合适的方式从样本中估计。 此外,回归克里金在数学上是与普遍克里金以及外部漂移克里金是一样的。回归克里金 能够将辅助变量整合而构成关心属性的普遍趋势。 克里金方式然后适用于模拟残差的空间分 布。回归克里金中有害污染概率的估计由研究中逻辑回归提供。 2.5指示克里金 指示克里金估计的是一个给定的位置点超过特别极限值的污染物集中区的概率,数据 z ) (s ) 被定义为以下指标: I(s,z) (s )={ otherwise z ifz c s , 0, 1) () (< (4)=""> 如果重金属的集中程度 z ) (s 超过了 z ) (c 则指示值是 0,否则为 1. 在 n 确定的条件下, I(s;z ) (c |(n))的估计值,如以下所示: E [I(s;z ) (c |(n))]=Prob[z ) (s ≤ z ) (c |(n) ] (5) 超过 z ) (c 的概率如以下所示, Prob [z ) (s >z ) (c |(n) ] =1- Prob[z ) (s ≤ z ) (c |(n) ] (6) 普遍克里金的概率分布为: Prob [z ) (0 s ≤ z ) (c |(n) ]=∑=n c z s I 1 ) ; (αααλ (7) 在(7)式中, I(sα;z c ) 代表在 αχ确定的情况下的指数值, α=1,…, n; αλ是 I(sα;z c ) 的权重, I(sα;z c ) 是由以下克里金体系确定的: ) ; () ; (01 c i c n i z s s z s s -=+-∑=αβαββγμγ λ (8) 11 =∑=n ββ λ (9) 在 (9)式中, μ是拉格朗日乘数, ) ; (c i z s s βαλ-是在样本 th α和 th β之间变化的指标值, ) ; (0c i z s s -αλ是在样本 th α和 s 0之间变化的指标值, α=1, …, n; 研究中的克里金和指标 克里金是由 GSLIB(地统计数据库 ) 执行的。 3. 结果和讨论 3.1基本的统计数据 表 1总结了八种被调查的重金属的统计数据。在台湾,污染控制标准如以下所示,该标 准是由台湾环境保护组织通过对监管区土壤重金属调查所得:铬:250mg/kg, 铜:200 mg/kg, 镍:200 mg/kg, 锌:600 mg/kg, 铅:500 mg/kg, 砷:60 mg/kg, 镉:5 mg/kg, 汞:5 mg/kg。 表一列举了超过可控标准的例子,铬的 286个,铜的 395个,镍的 622个,锌的 336个。一 些例子对于镉(26例)和汞(1例)是可利用的。在研究区没有砷和铅污染的出现。基于基 本的统计分析,四种重金属元素(铬,铜,镍,锌)被选定来评估空间污染危害地图。 表一:原例中得重金属的描述性统计 3.2逻辑回归法估计的空间概率 基于逻辑回归模型,超过可控标准的重金属集中区的概率通过预测危害与污染源的关系 被评估出来。 表二列举了四种重金属元素的逻辑回归模型的系数。 在回归结果的基础上, 金 属业的距离与确定此地铬污染的可疑性成正比例关系。 同时, 距渠道的距离, 汽车修理厂的 距离以及造纸业的距离与概率成反比例关系。 水业的距离, 所有工厂的距离以及化学业的距 离有助于评估铜危害的危险性。然而,农业土地,距渠道的距离,距灌溉渠道的距离,距主 要灌溉渠道的距离, 表面处理业, 纺织业电镀业以及其他行业的距离与铜危害性污染成负相 关关系。 为了估计镍污染发生的概率, 合适的逻辑模型使用了三个正相关的系数因素 (与金 属业,纺织业的距离)和负相关因素(农用地,与渠道灌溉,渠道,皮革,橡胶业的距离) 。 为了估计锌危害发生的概率四个正相关因素 (人口, 与水产业化学工业金属业) 和七个负相 关因素(建设用地,农用地与渠道,主要灌溉渠道,排水渠道,造纸业,电镀业的距离)被 用来适用逻辑模型。 还有, 人口密度, 离主干道的距离, 土壤水力传导系数和土壤流失因素 不具有统计学意义, 没有改善模型的利用。 结果反映出在研究区人口密度以及土壤性质和土 壤污染物没有直接的关系。 最小值 (mg/kg) 中间值 (mg/kg) 最大值 (mg/kg) 平均值 (mg/kg) 偏差 (mg/kg) 可控标准 (mg/kg) 超 过 可 控 标 准 的 观 测 物 的 数 量 铬 22.6 119.0 3070.0 193.95 212.51 250 286 铜 11.0 116.0 3810.0 194.73 222.70 200 395 镍 21.3 189.17 4020.0 217.31 258.95 200 622 锌 60.5 337.0 7850.0 526.40 549.56 600 336 铅 6.11 36.9 148.27 42.65 17.53 500 0 砷 4.6 10.7 37.4 11.42 3.81 60 0 镉 0.116 0.925 18.0 1.342 1.464 5 26 汞 0.038 0.35 5.35 0.430 0.378 5 1 表二 图 2在逻辑回归的基础上,显示出超过可控标准的土壤集中区的概率图,其中包括铬, 铜, 镍和锌。 研究区重金属的可疑性显示出人类活动在这个地区占主导地位, 人类活动导致 了高的重金属积聚。 结果也显示出逻辑回归是另一种实用的估计土壤污染发生率的方式, 即 使在没有直接测量各处污染物的每一个例子中都能实现。 总的说来, 地图指示出工厂和灌溉 系统和高的可变性密切相关。 和先前有关的估计结果指示出重金属的实用以及人类资源的分 布与工厂和灌溉渠道有密切的关系。 此外, 来源于人类不同的活动的污染物影响着土壤。 由 于工业活动, 重金属的农业土壤污染已经变得更严重而遍布整个研究区。 重金属污染与像电 镀业,金属业,金属表面处理,纺织业这样的工厂有关系。研究区,土壤集中区与化学原料 使用的强度以及工业化的程度相关。 由于研究区金属土壤集中区的分布, 工业活动和农业活 动是重金属污染的主要原因。 土壤, 特别是那些用污染的水灌溉的地区, 含有非常高的重金 属数量。 图二 3.3通过克里金方法得出的空间分布率 地统计学能通过变差函数描述环境数据的空间格局,预测非抽样地区有关属性的值。超 过可控标准的任何一个非抽样点的重金属污染的概率由克里金模型所确定。 有害物质概率的 空间分布能够通过指示变差函数来确定。 变差是变差函数模型的一种功能。 表三列出了四种 重金属元素的指示变差函数的参数。 铬和铜是指数模型镍和锌是球状模型。 模型中所有的 R 的平方都超过了 0.92。 在抽样点之中变差函数定量了有害物质地图的空间多变性。 变差的结 果指示出铬和铜的范围是 57米和 66米。 然而镍和锌的范围是 255米和 252米。 这个发现揭 示出一种空间相关性, 镍和锌的距离比铬和铜的距离远。 以上结果也揭示出锌的变差模型有 较高的块金值,显示出小规模的多变性。 极限值 模型 Co Co+c 范围 R 2Rss (mg/kg) (mg/kg)2(mg/kg)2(m) 铬 250 0.068 0.180 57.0 0.959 铜 200 0.093 0.216 66.0 0.953 镍 200 0.076 0.226 255.0 0.920 锌 600 0.097 0.198 252.0 0.961 Rss 代表面积减少的总量 图 3显示了铬,铜,镍,锌的土壤污染的概率图,这四种元素都超过了逻辑克里金的可 控标准。 估计结果指示出镍污染的有害性超过了其他元素。 图 4显示了回归克里金下超过可 控标准的重金属概率图, 并且提高了逻辑回归的结果。 然而, 逻辑回归的空间的概率分布图 缺少空间相关性。 在观测的多个方面上, 回归克里金和逻辑克里金的图表显示了多变性的相 似形式和重金属的集中分布, 但是锌不包括在内。 采用克里金方法的图包括了观测点的特征, 显示了研究区有害土壤的碎片形式。 还有, 回归克里金的结果显示通过增加克里金估计到回 归预测值里去, 是降低回归克里金预测方差的有效方式。 当介绍空间趋势的确定性进程极大 地影响土壤污染的可变性时,一个纯粹随机的地理统计学的假设是不能令人满足的。 在研究过程中,土壤污染物的的分布趋势的确定是通过把污染来源的信息纳入模型当 中。 明显的, 人类可能影响着重金属的空间分布图。 在大多数地点带有重金属特征的有害物 通常污染来源加倍。 此外, 土壤污染物的结果可疑性地图提供了一种可替代方式, 这种方式 可以探索空间资源和未来环境管理工程的不确定污染物。 3.4逻辑回归和克里金方法的比较 表四 重金属元素 方法 AUC 铬 逻辑克里金 0.742 指示克里金 0.837 回归克里金 1.000 铜 逻辑克里金 0.690 指示克里金 0.792 回归克里金 1.000 镍 逻辑克里金 0.738 指示克里金 0.803 回归克里金 0.963 锌 逻辑克里金 0.791 指示克里金 0.791 回归克里金 0.983 相对操作特征是衡量逻辑回归或者指示克里金适宜性的标准。低于 ROC 曲线的地区被 估算着去测量模型中的解释性力量。 AUC 的估计值超过 0.7的被普遍的认为是优良的,然 而估计值超过 0.9被认为是预示了一个极好的模型适宜性。表四总结了铬,铜,镍,锌在三 种模型中的 AUC 。逻辑回归的 AUC 值从 0.690到 0.791,指示克里金的 AUC 值从到 0.791到 0.837,回归克里金的 AUC 值从 0.963到 1。 AUC 结果显示回归克里金的 AUC 比指示克 里金和逻辑回归的 AUC 都高。这个发现暗示着回归克里金比指示克里金和逻辑回归有着较 高的预测力。 还有, 回归克里金提供了任何一种重金属基于推动力因素在任何的位置危害可 能性的概率。 这个发现也预示着回归克里金产生一些益处, 也定量着有害危险与推动力因素 之间的关系。 我们的研究结果和之前的一个研究相一致, 回归克里金是一个很有效的空间预 测方式,而且这种方式能在大的点设置时插入样本环境变量。此外, juanghe lee在辅助变量 (协同克里金,回归克里金,有 Q 码因素分析的克里金)的基础上使用了三种插入方式在 台湾的一个污染地插入了重金属集中区。 这些插入方式更有效的使用辅助变量评估概率, 以 至于估计出重金属的空间分布。 表五 在研究当中,这三种方式除了提供每一种重金属元素危害的概率,而且在划定有害地 区也是非常有效的。此外, 0.95,0.85.0.75以及 0.50的有害概率分布被用来划定土壤污染物 的安全与有害区域, 同时在多种概率的基础上描绘有害的状况。 表五指示出有害区的百分比 随着有害标准的不同而不同。 多种方式决定的多种有害地区的结果为政策的制定者在更深的 程度提供了一个有价值的参考。估计结果显示出有重金属污染等级的区域铬的含量是 0到 2.8%,铜的是 3.%到 4.4%,镍的是 13.2%到 18.3%,锌是 2.5%到 38.3%。这个发现提供了 有害地区的信息, 除了逻辑回归中的锌研究区域的四种重金属元素中, 镍占有害污染的最大 部分。 这个研究在概率图的基础上, 运用了三种方法去辨别安全的和有害的区域。 和克里金 方式相比较, 通过逻辑回归的方法得出了锌的含量过高, 通过逻辑回归的方法得出的铬铜镍 的含量过低。 更进一步, 以上结果显著地作用于通过使用这三种方式而量化的有害区的成果。 4. 结论 这个研究调查了模型方式的可行性,运用一个特别的案例研究探测污染和人类活动的关 系。 估计结果显示出回归克里金提高了预测效率, 并在一个相对高程度的适宜环境中提供了 可解释性力量。 此外, 像距渠道的距离, 农业用地, 工厂的距离这些推动力因素和土壤的重 金属污染有着密切关系。 这种提出的方式能够被延伸至包括土壤污染的交通运输。 在研究区 土壤污染和污染来源有密切的关系, 来源包括工业工厂和灌溉系统。 这些提倡的模型在人们 没有确定土壤集中区而直接覆盖整个研究区域的情况下这是非常高端的, 用来评估重金属的 可疑性。通过空间地图,模型估计能够使土地利用的计划者帮着辨别有污染的区域。还有, 逻辑回 5. 致谢(未翻译) 报告 3 地统计学软件在害虫管理中的应用 1 1 1 2 1 ,2 3 3 吕昭智包安明陈曦马英杰沈佐锐 1 2 () 中国科学院新疆生态与地理研究所 , 乌鲁木齐 830011 ;中国农业大学植物保护学院 , 北京 100094 ( ) 摘 要 以棉花主要害虫棉蚜 A p his gossy pi w 为例 ,介绍了常见地统计学软件 Surfer 和 Vari2 owin 在害虫管理中的应用 ,包括数据建立 、数据图形表达 、模型计算以及数据共享等关键技术 , 对地统计学在害虫管理中应用前景进行了分析和评价 。 关键词 地统计学 ,Surfer ,Variowin ,害虫管理 () 中图分类号 S435162 文献标识码 A文章编号 1000 - 4890 200306 - 0132 - 05 1 ,2 1 Appl ication of geostatistic sof t ware in pest management. L U Zhaozhi, BAO Anming, CHEN 1 2 2 1 ( Xi, MA Yingjie, SHEN ZuoruiX i nji an g Ecology an d Geog rap hy I nst i t ute , Chi nese A cadem y 2 ) of S cien as , U r u m qi 830011 , Chi n a ; Chi n a A g ricul t u re U ni versi ty , Bei ji n g 100094 , Chi n a. () Chi nese Jou r n al of Ecology ,2003 ,22 6:132,136 . Taking t he case of cot to n ap hid , a main pest in cot to n , t he geostatistic applicatio n of Surfer and Var2 iowin was int roduced in pest management . Data2inp ut , figure2display , model2calculatio n and data2 share were key techniques in Surfer and Variowin. The pospect of geostatistic in pest management was analyzed and evaluated. Key words geostatistic , Surfer , Variowin , pest management 该公 司 的 网 址 为 www1goldensof t ware1co m 。Vari2 1 引 言 () owin 是瑞士洛桑 L ausanne大学矿物研究所研制开 ( ) 地统 计 学 20 世 纪 50 年 代 初 期 形 成 , Mat h2 发 ,软件主要功能有数据欲处理 模块 Prevar2D、3 (( ) erond进行了大量工作而形成了一门新的学科 ,该学 方差处理 模块 Vario2D wit h PCF、栅格显示 Grid科已成功地应用在矿产储量计算 、矿产预测 、水文和 ) ( ) display和 模 型 计 算 Mo del , 公 司 的 网 址 为 工程地质 ,同时开始渗透到森林 、海洋气象 、环境管理 www1sp ringer2ny1co m/ o rder new1ht ml 。Surfer 图形 及农业等领域中 ;近几年地统计学广泛地应用于昆虫 表达 、软件接口 、数据管理的功能强大 ,界面友好 ,易 4 6 生态学研究中,Sharor分析发生区 、过渡区和未感操作 ,但 Variowin 变异函数模型分析更专业 , 且提 染区性诱剂对毒蛾诱集数量 ,获得了 3 种区域变异函 供了套合分析的功能 。 ( 数差异性较大的参数 ,这种差异是毒蛾 L y m aneri a 6 () ) dispar L种群入侵程度不同所致 ,Schotzko利用地 3 数据建立 ( ) 统计学 ,对麦蚜 Di u raphis hox ia在嗜好和不嗜好的 1 Surfer 软件中数据建立有 2 种方式 。读取外部寄主上运动进行分析和评价 ,李友常等利用空间变 数据和在 wo r ksheet 中建立数据 。在菜单项 File 上 异函 数 分 析 了 不 同 林 型 条 件 下 杨 树 光 肩 星 天 牛 点击 New , 系 统 弹 出 选 项 plot document 和 wo r k2 ( ) A noplophora giabri pen nis Molsch卵 、幼虫和成虫空 sheet ;选择 wo r ksheet , 系统的界面与 Excel 比较类 间依赖性和不同样方大小对变异函数的影响 。本文 似 ,可以很容易建立空间数据 ,一般为第 1 列和第 2 以棉 花 害 虫 棉 蚜 为 例 证 , 介 绍 常 见 地 统 计 学 软 件 列为数据空间位置 ,其它列为害虫田间数据 。数据 Surfer 和 Variowin 在应用中的关键技术 。 输入完成后 ,可以保存为 Surfer 数据格式 、Excel 格 式和纯文本等其它格式 。 Surfer 中建立数据另一种方式为读取外部数据 , 2 软件简介 Surfer 是 Golden 软 件 公 司 在 地 统 计 学 领 域 的( ) 3 中国科学院资助项目 K2CX2 - 40404、中国科学院知识创重大项 产品 ,该软件有数据管理 、编辑 、图形表达和浏览 、数 ( ) ( 目 KZCX1 - 08 - 01 和 中 国 科 学 院 领 域 前 沿 资 助 项 目 KZCX -据栅格化 、变异曲线分析 、软件接口等功能 。软件接 ) XJ 02 - 01。 3 3 通讯作者口可 以 和 外 部 数 据 库 及 GIS 软 件 进 行 数 据 交 流 。 收稿日期 :2002 - 07 - 22改回日期 :2002 - 09 - 15 系统可以很容易地读取 Excel 、纯文本和 Lotus 数据 ,Variowin 数据是在 W INDO WS 下记事本等其该系统中未提供与 Sql 、Orcal 和 Informix 等大型数据 它字处理软件建立 ,文件保存为纯文本格式 ,文件内 ( 库接 口 , 可 以 通 过 开 放 数 据 库 互 联 ODBC Open 容由表头信息和数据组成 ,其后缀为 DA T 。图 1 为 ) (( ) Database Connectivity、数据访问对象 DAO data Access 典型的 Variowin 数据格式 , 1数据说明 ,研究项目 ) () ( ) objects、远程数据库对象 RDO remote data objects和 的简要介绍 2定义变量个数 ,在本例中有 6 个变量 () () () () () ( ) () ADOactive data objects等数据桥梁 ,转化为 Excel 数 345678为相应的变量 ,数据列对应定 据表单形式 ,间接在 Surfer 环境中应用 。 义的变量 。 图 1 Vario win 中数据表头信息和数据格式 Fig. 1 Data hea ding inf ormation and data f ormat in Vario win Surfer 中 数 据 和 Variowin 数 据 容 易 共 享 , 将 生成各种图形 。 Surfer 中的数据保存为纯文本文件 , 在字处理程序 Sufer 对新疆棉蚜在田间分布进行分析 。利用 下 ,增加表头信息文件 ,即数据说明 、变量个数 、变量 图 2 中棉蚜田间分布等值趋势图表达了棉蚜空间分名称 ,可以转化为 Variowin 数据格式 。 在害虫数据分析中 ,数据必须完整 。具有害虫 数据的地理数据 ,如 X 、Y 坐标或通过 GPS 定位经 、 纬度数据 ;其它数据包括害虫种群数量 、危害指数 、 天敌数量等 。 4 数据图形表达 图形能直观表达数据之间的关系 ,反映害虫种 群分布以及与环境因子关系 。在生态学和害虫管理 ( 中 ,应用比较多的图形类型有等值趋势图 co nto ur ) ( ) ( map、矢 量 图 形 vecto r map 和 三 维 空 间 图 wire2 ) f rame map。在 Surfer 环境下进行图形分析 , 首先 分析者在 Grid 菜单下选择 Data 实现数据类型的转 化 ,利用 Kriging 插值技术 ,将原始数据转化为 Grid 图 2 棉蚜田间分布等值趋势图类型数据 ,该功能由系统自动提供 ,在 Map 菜单下 Fig. 2 Contour ma p of cotton a phid distribution in the f iel d 布 ,在 X 轴 80 m 处棉蚜集中分布 , 该处杂草带 , 是 棉蚜越冬的场所 ,导致了早期棉蚜在该处大量分布 。 图 3 为棉蚜田间分布三维空间图 ,清晰地表明了棉 蚜种群数量与空间位置的关系 。图 4 为等值趋势图 () 和矢量图叠加 overlay,表明了棉蚜在田间的扩散 趋势 ,即由田间中心株向全田扩散 。 图 5 Post 图形与矢量图叠加 Fig. 5 Overla p of post ma p and vector ma p 件 ,提高 Surfer 与其它地理信息系统的数据交流和 数据共享 。建议在 Surfer 环境下进行图形分析 ,利 用其强大的图形表达功能 ,提高对研究对象信息的 深层挖掘 。 图 3 棉蚜田间分布三维空间图5 空间变异分析 Fig. 3 Three2dimensional space ma p of cotton a phid f iel d distribution ( ) 变异函数 variogram是地统 计 学 中 空 间 变 异 ( 分析主 要 手 段 , 可 以 与 空 间 协 方 差 space co nvari2 ( ) ) ance和迟滞相关度 co rrelo gram联 合 分 析 。变 异 ( ) ( ) 曲线中有 3 个重要参数 ,变程 range、基台值 sill ( ) 和块金常数 nugget ,这 3 个参数反映了变异曲线 的形状结构 。常用的变异函数有单项式 、指数式 、高 斯式 、球面函数和直线等模型 。 Surfer 和 Variowin 均有强大的空间变异分析功能 , 但 Variowin 空间变异分析更专业 ,以下主要介绍在 () Variowin 软件环境中空间变异分析过程 图 6。 图 4 等值趋势与矢量图叠加 Fig. 4 Overla p of contour ma p and vector ma p 在 Surfer 环境中 ,图形叠加功能比较强大 ,可以 ( ) 实现不同类型图形的叠加 图 4 , 5,图 5 是矢量图 形和 Po st 图形叠加形成的 ,图 4 和图 5 数据源是相 同的 ,表示田间棉蚜扩散趋势 , Surfer 图形也可以与 外部的图像叠加 ,增加了系统的图形表达功能 。 Surfer 的图形功能强大 ,而 Variowin 的图形表 达功能弱 ,另外 Surfer 生成的图形可以保存为外部 其它软 件 可 以 使 用 的 图 形 格 式 , 比 如 BM P 、GIF 、 图 6 Vario win 软件环境中的空间变异函数分析过程 Fig. 6 Analysis process of variogra m in Vario win sof t ware J P G等 格 式 文 件 , 同 时 可 生 成 ESR I公 司 shape 文 数据建立过程中 ,注意正确表达表头信息 ; Pre2 var2D 模块是数据前处理 ,对建立的数据设置 X 、Y、var 方差分析结果 ,选择菜单 mo del块中打开后缀为 Z 值 , 进行数据配对 ; Vario2D wit h PCF 是基于数 系统弹出图 7 变异函数模型分析界面 ,在此环境中 据前处理结果进行空间方差处理 , 在 Vario2D wit h 设置模型参数 ,系统对参数进行优化处理 ,最终获得 PCF 模 块 中 , 选 择 directio nal variogram 计 算 分 析 , 模型和模型参数 ,这些数据可以保存在后缀为 mo d 计算结果保存在后缀为 var 的文件中 ; 在 mo del 模 纯文本文件中 。 图 7 Vario win 软件环境中模型计算界面 Fig. 7 Model calculation interface in Vario win sof t ware 空间数据进行上述分析 ,在后缀为 mo d 文件可 , GIS 软件为地统计学提供各数据交流和数据共享 以得到变异函数的类型 ,3 个重要的参数 ; 依据 3 个 种类型图件 ,地统计学结合大田调查数据 ,实现害虫 参数 ,可以对生物种群或害虫种群进行空间相关性 空间变异分析 ; 但目前两者结合时操作比较困难 ; 分析和空间依赖强度分析 。利用指数模型 ,获得棉 Surfer 下图形传到 GIS 软件下 ,无法与害虫田间数 蚜空间 3 个变异函数参数 , 其中变程为 731559 ,块 金值为 1491042 ,基台值为 1391425 。 据建立连接 。地统计学和 GIS 技术集成是未来发展 方向 ,软 件 Arc Gis 下 基 本 已 实 现 了 两 者 的 有 机 结 合 ,为大尺度害虫研究 、管理和应用提供了良好的软 6 GIS 和地统计学集成件环境 。 GIS 能够实现害虫属性数据和地理数据结合 , 7 空间分析软件应用前景将害虫种群动态历史 、害虫迁飞路线 、地理属性 、作 ( 物空间分布等数据信息集成在空间数据库中 Geo2 地统计学在生态学研究中有广泛的应用前景 。) database,使图件和数据库有机结合在一起 , GIS 技 可以结合经典的物种空间分布图式和地统计学中变术是动态和过程研究 ,同时 GIS 技术易与 GPS 、RS 异函数 ,为物种空间分布 、分布类型 、取样技术等提 和 web 技术融合 ,对大尺度害虫管理较为方便 。地 统计学主要研究害虫空间变异 ,数据库和图件管理 供新的研究领域 ; 在种群关系研究中 , 地统计学的 功能差 ,对害虫研究是状态和静态研究 ,适宜与小尺 “套合结构”理论 ,为物种与物种 、物种与环境提供新 度的害虫空间分析和应用 。 的研究手段 ;在生物多样性研究和濒危物种保护中 Surfer 提供了与 GIS 软件接口 ,两者可以进行 有重要应用前景 ; 在农业研究中 ,害虫的空间分布 、 土壤水分分布 、农作物叶绿素和氮肥空间变异等可 2 侯景儒 ,黄竞先. 1981 . 地质统计学及其在矿产储量计算中的应 以利用地统计学中的变异函数进行研究和分析 。 用M . 北京 :地质出版社 ,93,94 .地统计学中 Kriging 插值技术 , 是最佳线形无 侯景儒 ,黄竞先. 1989 . 地质统计学的理论与方法M . 北京 : 地 3 2 偏估计 ,是比较可靠的插值方法。为害虫时空动 质出版社 ,21,22 . Andrew ML , Richard ER , William P K. 1993 . Geo statistics and 4 态研究提供很好的工具 。在利用已有空间数据和 geograp hic info r matio n systems in applied insect ecology J . A n2 Kriging 插值技术 ,预测和评估未研究区害虫种群动 n u Rev . Ent . ,38 :303,327 . 5 Schotzko DJ , Knudsen GR. 1992 . U se of geo statistics to evaluate 态 、发生趋势 、扩散等时空动态 ,有利于基于空间尺 ( a spatial simulatio n of Russian wheat ap hid Ho moptera : Ap hidi2 度的害虫预测预报技术和管理决策水平的提高 。 ) daemovement behavio r o n p referred and no np referred ho st sJ . 地统计学提供了 GIS 数据接口 ,为两种软件数 ( ) Enviro n . Ent . ,21 6:1271,1282 . Sharov AA ,Liebhold AM , Ro bert s EA. 1996 . Spatial variatio n a2 6 据共享和联合分析 ,提供了良好的环境 。依据 GIS ( ) mo ng co unt s of gyp sy mot hs L epidoptera : L ymant riidae in 强大的空间表达 、空间分析和丰富的功能模块及地 p hero mo ne - baited t rap s at expanding pop ulatio n f ro nt sJ . En v2 ( ) 统计学的空间变异分析 ,为害虫治理的精确管理和 i ron . Ent . ,25 6:1312,1320 . 决策提供了有效技术体系 。 作者简介 吕昭智 ,男 , 1968 年 7 月生 ,副研究员 ,博士 ,研 参考文献 究方向为信息技术在害虫管理中应用和生物防治 ,发表论文 20 余篇 。1 李友常 ,夏乃斌. 1997 . 杨树光肩星天牛种群空间格局的地统计 责任编辑 李凤芹 ( ) 学研究J . 生态学报 ,17 4:393,401 .范文二:地统计学实验
范文三:ArcGis地统计学
范文四:地统计学论文
范文五:地统计学软件在害虫管理中的应用