范文一:某地区电力负荷数据分析与预测
(封面格式)
报名序号:1249
论文题目:某地区电力负荷数据分析与预测
指导教师:唐玲
参赛学校:安徽建筑大学南区
证书邮寄地址、邮编、收件人:
地址: 安徽合肥市经开区紫云路292号安徽建筑大学南区 邮政编码:230061 收件人姓名: 陈富 联系电话: 131155146667
报名序号:1249
论文题目:某地区电力负荷数据分析与预测
某地区电力负荷数据分析与预测
摘 要
针对两个地区历史数据分析及未来数据相关预测,本文用统计学相关理论为基础对两个地区历史数据进行探索分析,深入并直观的描述了数据的分布情况;同时利用时间序列乘积季节模型和LMBP神经网络模型分别对未来数据进行预测并进行相关误差分析,分别得到不同预测方法下的预测结果。
对于问题一,本文对两个地区2014年1月1日—2014年12月31日的负荷数据进行挖掘分析,选取描述数据集中趋势的均值和中位数统计量、描述数据分布离散程度的方差和离散系数统计量以及描述数据分布偏态与峰度的偏度系数和峰度系数统计量来描述各地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率指标的分布情况;绘制出了两地区2014年全年负荷持续曲线;结合上述结果,分析出地区2负荷变化数据波动较平缓,初步预判地区2的负荷可以获得更准确的预测结果。
对于问题二,本文根据2012年1月1日至2014年12月31日的数据,用偏最小二乘法,分别对日最高负荷、日最低负荷、日平均负荷与各气象因素关系进行回归分析,得出6个多元线性回归模型,同时得到各个回归模型的离差平方和,以离差平方和的大小来反映回归误差的大小;使用简单相关系数检验法,通过各个气象因素相互之间的相关系数矩阵,得出最高温度、最低温度、平均温度这三个因素相关系数较高,存在多重共线性;再经过变量的显著性检验,得出若要用气象因素来提高负荷预测精度,优先推荐平均温度、降雨量、湿度这三个气象因素的结论。
对于问题三,考虑到历史电力负荷数据具有明显的周期性,建立时间序列乘积季节模型,对两个地区2015年1月11日至17日共7天的电力负荷进行预测,得出负荷预测结果见附件。由于模型中各个参数均通过了参数的显著性检验,残差序列通过了残差检验为白噪声序列,体现了模型对原序列的信息提取十分充分,所以在不知道实际负荷数据的情况下,有充分理由判断预测结果的准确度是较高的。
对于问题四,考虑最日高温度等5个天气因素,利用包含5个输入层,7个隐含层和一个输出层的LMBP神经网络预测模型在5个天气因素影响下,再次对两个地区2015年1月11日至17日共7天的电力负荷进行预测,得出负荷预测结果见附件。
对于问题五,综合上述结果参数,并同时引用股票分析中的黄金分割线对两个地区负荷数据规律优劣进行评价。得出地区2的数据规律性优于地区1的结论。
关键词:描述性统计,偏最小二乘回归,时间序列乘积季节模型,LMBP
§1 问题的提出
一、背景知识
短期负荷预测是电力系统运行与分析的基础,对机组组合、经济调度、安全校核等具有重要意义。提高负荷预测精度,是保障电力系统优化决策科学性的重要手段。现代电力系统中,构成电力负荷的用电器种类繁多,空调等受气象条件影响的负荷占比持续增高,气象因素(温度、湿度、降雨量等)对电力系统负荷的影响愈显突出。考虑气象因素成为调度中心进一步改进负荷预测精度的主要手段之一。
二、相关试验数据
已知地区1、地区2从2009年1月1日至2015年1月10 日的电力负荷数据(每15min 一个采样点,每日96点,量纲为MW)以及2012年1月1至2015年1月17 日的气象因素数据(日最高温度、日最低温度、日平均温度、日相对湿度以及日降雨量),详见附件1-数据.xlsx。
三、要解决的问题
1.请分析两个地区2014年1月1日-2014年12月31日的负荷数据,统计各地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率指标的分布情况,并绘制两地区2014年全年的负荷持续曲线;结合上述结果,分析两地区负荷变化的主要差异;初步预判哪个地区的负荷可以获得更准确的预测结果,说明你的理由。
2.根据2012年1月1日至2014年12月31日的数据,分别对日最高负荷、日最低负荷、日平均负荷与各气象因素的关系进行回归分析,分析回归误差;如果要用气象因素来提高负荷预测精度,在诸气象因素中,你优先推荐哪个(或哪几个)?简要说明理由。
3.请根据已知负荷数据,构建预测方法,对两个地区 2015年1月11日至17日共7天的电力负荷进行预测(间隔 15min),给出负荷预测结果(提交两个地区96*7负荷预测结果数据,具体要求见附录1);在不知道实际负荷数据的条件下,你对预测结果的准确度有何推断,请说明理由。
4.如果已获得2015年1月11日至17日的气象因素数据,你能否构建计及气象因素的负荷预测方法,对两个地区2015年1月11 日至17日共7天的电力负荷再次进行预测(间隔 15min),给出预测结果(提交两个地区 96*7负荷预测结果数据,具体要求见附录1);与原有的预测结果相比,你认为计及气象因素影响的负荷预测结果精度得到改善了吗?有何证据?请说明理由。
5.综合上述计算结果,你如何评价两地区负荷规律性的优劣?你还有什么证据可以佐证两地区负荷整体规律性优劣的判断?
§2 问题的分析
1) 对于问题一,本文使用统计学方法,并利用MATLAB对所给数据进行处理,分别绘制出日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标分别随时间变化的曲线图,并且分别得出数据的集中趋势、数据分布离散程度和数据的分布偏态与峰度3个大方面来描述统计分布情况。
2) 对于问题二,本文对日最高负荷、日最低负荷、日平均负荷与各气象因素的关系进行偏最小二乘多元回归分析,在EVIEWS软件中分别得出两个地区6个线性回归方程,并同时对线性回归方程误差进行了分析。
3) 对于问题三,要求由已知负荷数据对两个地区2015年1月11日至17日共7天的电力负荷进行预测。相对于已知数据来说,预测属于短期预测。故本文利用时间序列季节乘积模型对这7天数据进行预测。
4) 对于问题四,要求利用2015年1月11日至17日的气象因素数据构建计及气象因素的负荷预测方法,同样的对两个地区2015年1月11日至17日共7天的电力负荷再次进行预测。本文在MATLAB中利用LMBP算法进行7天电力负荷再次预测。
5) 对于问题五,要求综合上述计算结果,比较两地区负荷数据的优劣。本文通过选取上述计算结果日峰谷差方差等几项具有代表性的参数来对两地区数据规律性进行综合评价,并结合股票中黄金分割线思想来进一步佐证评价结果。
§3模型假设
1)假设所有数据来源真实可靠;;
2)假设电负荷量只受题目所给五项气象因素影响
3) 在建立乘积季节模型,序列周期选取时,假设一年都是365天;
§4名词解释与符号说明
一、名词解释
1) 日最高负荷:典型日中记录的负荷中,数值最大的一个;
2) 日最低负荷:典型日中记录的负荷中,数值最小的一个;
3) 日峰谷差:日最高负荷与最低负荷之差;
4) 日负荷率:日平均负荷与日最大负荷的比值;
5) 年持续负荷曲线:按一年中系统负荷的数值大小及其持续小时数顺序绘制的曲线;
6) 离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标;
7) 偏度系数:是描述分布偏离对称性程度的一个特征数。当分布左右对称时,偏度系数为0。当偏度系数大于0时,即重尾在右侧时,该分布为右偏。当偏度系数小于0时,即重尾在左侧时,该分布左偏。
8) 峰度系数:峰度是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。
二、符号说明
序号
1
2
3
4
5
6
7
8
9
10 符号 X、Y 含义 解释变量、被解释变量 解释变量的第一主成分 t1、u1 xij yi * xijxij表示解释变量矩阵X中第j个变量的第i个样本值 yi表示被解释变量矩阵Y中第i个样本值 *表示xij标准化后的数值, xijy*j E0、F0 y*j表示yi标准化后的数值 标准化矩阵 表示y关于xj的回归系数 表示原变量的xi与xj之间的相关系数 表示误差对权值微分的雅克比矩阵 ?i rij J
§5 模型的建立与求解
一、 问题一的分析与求解
根据上文中对日最高负荷、日最低负荷、日峰谷差以及日负荷率的相关描述,再由附件中所提供的两个地区2014年1月1日-2014年12月31日的负荷数据,利用MATLAB软件绘制出了两个地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标分别随时间变化的折线图,如图1(相关程序见附录一)。
图 1 两个地区各指标对比图
根据统计学[1]中常用来描述数据特征,再结合本题所给数据特点,本文选取
了数据的集中趋势(均值、中位数)、数据分布离散程度(方差、离散系数)和数据的分布偏态与峰度(偏度系数、峰度系数)三个大方面中六个参数对两个地区2014年1月1日-2014年12月31日的全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标数据进行进一步描述。利用SPSS软件求出数据的六个参数,如表1所示。
表 1 两个地区相关数据分布表
分布离散程度 分布偏态与峰度
方差 离散系偏度系峰度系
数 数 数
日最高 地区
1 9222.652 9324.658 4304937.533 0.225 -0.999 1.328 负荷 地区2 9786.915 9141.212 4132055.447 0.208 -0.216 0.089 日最低地区1 5140.649 5007.485 1515519.772 0.239 -0.580 0.478 负荷 地区2 5330.649 4662.305 2022676.688 0.267 0.193 -0.692 日峰谷地区1 4081.728 4317.173 1259224.692 0.275 -0.861 0.490 差 地区2 4456.267 4478.908 730535.085 0.192 -0.650 0.512 日负荷地区1 0.790 0.777219 0.001 0.040 1.039 1.328 率 地区2 0.800 0.794704 0.001 0.040 0.694 0.089 根据上文中对全年的负荷持续性曲线的相关,再由附件中所提供的两个地区2014年1月1日-2014年12月31日的负荷数据,利用MATLAB软件绘制出了两个地区全年的负荷持续性曲线图(相关程序见附录一),如图2所示。 集中趋势 均值 中位数
图 2 全年持续性曲线
由图1可知:在全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标中地区2数值高于地区1的数值,说明地区2的总体用电量大于地区1的用电量。由表1可知:地区2统计平均数大于地区1,同样证明地区2总体用电量较大,再对比方差等其他参数,地区2的数据波动范围相对较小,数据的分布较为集中,且较为对称。由图2同样可知,地区2的用电量在几乎全年各时刻均高于地区1的用电量。
在大量数据的前提下做预测分析,数据变化范围越小,预测结果越准确。由上述分析可知,地区2的数据更加平稳,波动范围小,所以在后续负荷预测中,
地区2相对于地区1可以获得更为准确的结果。
二、问题二的分析与求解
5.2.1 偏最小二乘法回归分析原理
偏最小二乘回归分析[2]是多元线性回归分析、典型相关分析及主成分分析有机结合。在主成分分析基础理论中,从被解释量X和解释变量Y中提取的第1主成分t1和u1应尽量多地携带原始数据的变异信息,时所提取的成分方差达到最
大,则有
D(t1)?max,D(u1)?max (1)
式中D(t1)、D(u1)表示t1和u1的方差。
在典型相关分析中,为保证解释量与被解释量之间的相关性,在典型成分t1和u1的提取过程中,应使典型成分之间的相关性关系最大,则有
r(t1,u1)?max (2)
式中r(t1,u1)表示t1和u1的相关系数。
这样,在X和Y中提取的成分t1和u1不仅能够最大程度上地携带X和Y的基
本信息,而且保值了t1和u1具有比较强大的解释能力。提取第1个主成分t1后,实施X和Y对t1的回归分析,如果精度满足要求,则不再计算;否则,提取残余信息继续进行回归分析,直到满足要求为止。如果最终对X共提取m个成分t1 、t2 、L 、tm,则Y对X回归分析即可以转化为Y对t1 、t2 、L 、tm的一组多元回归分析,而自变量X主成分t1 、t2 、L 、tm均可由X线性表示,所以最后可还原成Y对X的回归方程。
5.2.2 具体建模求解
根据解释量个数不同,偏最小二乘回归分析可分为单变量偏最小二乘回归分析和多变量偏最小二乘回归分析。根据题目要求,本文分别对日最高负荷、日最低负荷和日平均负荷三个被解释变量进行多变量偏最小二乘回归分析。
1)设已知被解释变量日最高负荷y和5个解释变量x1(最高温度)、x2(最低温度)、x3(平均温度)、x4(相对湿度)和x5(降雨量),样本数为n(n=1096),形成解释变量矩阵X??x1x2x3x4x5?1096?5和被解释矩阵Y??y?1096?1。将X与Y进行标准化处理,得到标准化后的解释变量矩阵E0和被解释变量矩阵F0。
做标准化处理是为了公式表达的方便和减少预算误差。
?*xij?xj?xij?sj???*yi?y (3) ?yj?sy??E?(x*)ij1096?5?0
*?F?(y0j)1096?1?
i=1,2,L,k;j=1,2,3,4,5
式中:xij表示解释变量矩阵X中第j个变量的第i个样本值;xj表示解释变量X中第j个变量个xj均值,sj表示xj的标准差, yi表示被解释变量矩阵Y中第i
*个样本值, y表示被解释变量y的均值, sy表示被解释变量y的标准差,xij表
示xij标准化后的数值,y*j表示yi标准化后的数值。
2)从E0中提取第1主成分t1?E0w1,其中w1为E0的第1主轴,即w1=1,E0和F0均是标准化矩阵,则有
?r(x1,y)?EF0?M?w1????EF0?r(xk,y)???T0T
(4)
t1?E0w1??r(x1,y)E01?r(x2,y)E02???r(xk,y)E0k? (5)
式中:E0i(i=1,2,L,k)表示E0的第i列,r(x1,y)(i=1,2,L,k)表示xj与y的相关系数。在简化算法中只需求出E0对t1的回归系数p1即可,无需实施F0对t1的回归。
TE0?t1p1?E1 (6)
TE0t1p1?t12 (7)
式中:p1表示E0对t1的回归系数,E1表示回归方程残差矩阵
T (8) E1?E0?t1p1
3)重复建模步骤2),以E1取代E0,以F1取代F0,用同样的方法得到w2?E1TF0
EF0T1;由于不再是标准化矩阵,所以有
?cov(E1j,y)?EF0??w2??M?? (9) EF0???cov(E1p,y)?T1T
1
t1?E0w1 (10)
p2?E1Tt2t22 (11)
T (12) E2?E1?t2p2
式中cov(E1j,y)表示E1j与y的协方差。
依次类推,从第4)步开始,可用交叉有效性来确定偏最小二乘回归分析中成分提取个数,并停止迭代。
在得到成分t1 、t2 、L 、tm( m
F0?rt11?r2t2??rmtm (13)
由于th(h=1,2,L,m)均为E0的线性组合,所以有
*th?Eh?1wh?E0?(I?wjpT
j)wh?E0wh (14)
j?1h?1
记w??(I?wjpT
j)wh,其中I为单位矩阵,所以综合可得: *
h
j?1h?1
****F0?r1E0w1??rmE0wm?E0(rw??rw11mm) (15)
m
若记x?E0j,y?F0,?j??rhwhj(j?1,2,L,k),则标准化变量y*关于x*
j的回*
j*
h?1
归方程为
****?y??1x1??2x2?L??kxk (16)
最后,通过标准化的逆过程,可得到y关于xj的回归方程为
?y??1x1??2x2?L??kxk (17)
式中?i(i?1,2,L,k)表示y关于xj的回归系数。
5)分别改变对应被解释变量,重复以上步骤,分别对日最高负荷、日最低
负荷和日平均负荷三个被解释变量进行回归分析。利用EVIEWS进行求解(具体结果见附录二),整理后结果如表2所示。
表2 线性回归曲线表
日最高负荷
地区1 地区2
y1?5583.5?39.09x1?120.77x2?120.85x3?12.72x4?5.81x5
y1?4006.41?19.18x1?26.32x2?150.40x3?19.69x4?2.95x5
y2?4159.76?7.2x1?27.43x2?176.27x3?23.69x4?11.04x5
日最低负荷 日平均负荷
y2?2869.84?20.74x1?82.93x2?65.67x3?8.56x4?3.92x5
y3?4382.51?29.43x1?101.18x2?91.76x3?10.85x4?4.33x5
y3?4083.63?16.64x1?18.48x2?194.79x3?20.78x4?9.31x5
5.2.3 气象因素选择
下面进行气象因素的选取:
首先由EVIEWS分析,得到五个气象因素相互之间的相关系数,汇成关系数表,如下所示:
表3 地区一各气象因素相关系数表
X1 X2 X3 X4 X5
X1 1 0.9129 0.9569 0.1312 0.01261 X2 0.9129 1 0.9841 0.3114 0.0988 X3 0.9569 0.9841 1 0.2169 0.0644 X4 0.1312 0.3114 0.2169 1 0.3649 X5 0.01261 0.0988 0.0644 0.3649 1
表4 地区二各气象因素相关系数表
X1 X2 X3 X4 X5
X1 1 0.7945 0.9616 0.1381 0.0322 X2 0.7945 1 0.8781 0.3985 0.1775
X3 0.9616 0.8781 1 0.2788 0.1152 X4 0.1381 0.3985 0.2788 1 0.4111 X5 0.0322 0.1775 0.1152 0.4111 1
从两个地区气象因素相关系数表可以看出x1,x2,x3两两之间相关系数较大,均接近与1,根据综合判别法与简单相关系数检验法分析的结果可以知道,本案例的最高温度、最低温度、平均温度这三个回归变量间确实存在多重共线性,变量蕴含的信息相互交叉影响,没有必要将这三个变量全部引进模型,可以经过分析对其中个别变量进行剔除[3]。
接下来,构造t统计量,进行变量的显著性检验。
在变量的显著性检验中,针对变量xi(i?1,2,3,4,5)设计的原假设与备择假设为:
H0:?j?0H1:?j?0
给定一个显著性水平?,得到临界值t?(n?k?1),于是可根据t?t?(n?k?1)来
2
2
决定拒绝H0,从而判定对应的解释变量是否应包含在模型中。
本题对六个回归方程进行参数的显著性检验,EVIEWS软件的回归结果见附录二,观察各个方程中每个回归变量t统计量对应概率p值的大小,可以得出变量x3,x4,x5的t统计量对应概率p值基本上小于给定显著性水平??0.1,通过参数的显著性检验;而变量x1,x2的t统计量对应概率p值基本上大于??0.1,不通过参数的显著性检验。 综合以上两点,如果要用气象因素来提高负荷预测精度,在这五个气象因素中,我优先推荐平均温度、相对湿度、降雨量这三个气象因素。
三、问题三的分析与求解 5.3.1 时间序列乘积季节模型原理
当序列具有短期相关性时,通常可以使用低阶ARMA(p,q)模型提取。 当序列具有季节效应,季节效应本身还具有相关性时,季节相关性可以使用以周期步长为单位的ARMA(P,Q)模型提取。
由于短期相关性和季节效应之间具有乘积关系,因此拟合模型实质为
ARMA(p,q)与ARMA(P,Q)的乘积。综合前面的d阶趋势差分和D阶以周期S为
步长的季节差分运算,对原观察值序列拟合的乘积季节模型[4-5]结构如下:
D
?d?Sxt?
?(B)?S(B)
?t (18)
?(B)?S(B)
?(B)?1??1B????qBq
式中:
?(B)?1??1B????qBq?S(B)?1??1B????QB
S
QS
?S(B)?1??1BS????PBPS
该乘积季节模型简记为ARIMA(p,d,p)?(P,D,Q)S。
5.3.2 具体建模
本文针对问题三,在EVIEWS软件做出两个地区原序列的时序图与差分后时序图。
1)确定时间序列季节乘积模型:首先考虑的是简单加法季节模型拟合原始序列再对7天各个时间节点的电负荷量进行预测,进行模型检验时,产生的残差序列延迟6步、12步、18步的Q统计量对应概率值均小于??0.05,说明残差序列为非白噪声序列,不通过模型的残差检验,可以得出模型对序列信息的提取不够充分的结论。充分说明序列的季节效应、长期趋势效应和随机波动间有着复杂的交互影响关系,使用简单的ARIMA模型不足以提取其中的相关关系,所以这时我们考虑使用乘积季节模型对原序列进行拟合。
地区二原序列时序图 地区二差分后时序图
图 3 时序图
两个地区2009年1月1日——2015年1月10日的电力负荷序列时序图显示该序列具有长期递增趋势和以年为周期的季节效应,先对序列最一阶差分消除线性增长趋势,每隔15分钟做一次记录,所以该序列周期步长为35040(365?96),接下来再做一阶步长为35040的差分消除序列周期性。
2)模型定阶:首先考虑1阶35040步差分过后,序列12阶以内的自相关系
数和偏自相关系数的特征,以确定短期相关模型。考察两个地区序列差分后自相关图和偏自相关图(见附录三),自相关图和偏自相关图显示12阶以内的偏相关系数2阶截尾,所以尝试使用ARIMA((1,2),1,0)模型提取差分后序列的短期相关信息。使用ARMA(1,1)35040模型提取差分后序列的季节相关信息。
综合前面的信息我们要拟合的乘积季节模型为ARIMA((1,2),1,0)?(1,0,1)35040
即:??35040xt?
1??1B
(1??35040B35040)?t (19) 1??1B
3)模型拟合:使用最小二乘估计方法,确定拟合该模型的口径为:
1?0.993B
(1?0.292B35040)?t 地区一:??35040xt?
1?0.987B1?0.997B
(1?0.292B35040)?t 地区二:??35040xt?
1?0.959B
4)序列预测:使用该模型预测两个地区2015年1月11日——1月17日的电力负荷(每间隔15min),负荷预测结果见附件Q3-Area1-Load.xlsx与附件Q3-Area2-Load.xlsx。
图4 乘积季节模型拟合效果图
在不知道实际负荷数据的条件下,本文推断预测结果的准确度较高。从图4两个地区电力负荷序列模型拟合效果图可以看出,拟合出的图曲线与原差分后序列接近程度较高,残差曲线在0附近波动;因为两个时间序列乘积季节模型均通过了参数的显著性检验,充分说明模型参数的选取是合理的;模型产生的残差序列为白噪声序列,不具有短期相关性,通过了残差检验,表明模型对原序列的信息提取较为充分,综合以上三个方面说明模型合理有效,使用该模型进行预测,预测的结果必然准确度较高。 四、问题四的分析与求解 5.4.1 主成分分析
本文有最高温度、最低温度、平均气温、相对湿度、降雨量五个气象因素,每个变量都在不同程度上反映了研究问题的模型特征,但指标之间彼此有一定的相关性,因而所得的统计数据反应的信息在一定程度上有所重叠。
主成分分析旨在利用降维的思想,把多指标转化为较少几个综合指标,用较少的几个综合指标来代替原来的指标,而且这些较少的综合指标能尽量多的反映原来较多变量指标所反映的信息,同时综合指标之间是彼此独立的。
假定有n个样本,每个样本有p个变量,构成一个n?p阶的数据矩阵:
?x11x12?x1p???xx?x21222p?X??
????????x?x?xnp??n1n2
主成分分析具体过程如下:
(1)将原始数据标准化为[0,1]之间的有效数据; (2)计算相关系数矩阵:
?r11r12?r1p???rr?r21222p? R??????????r?r?rpp??p1p2
式中:rij(i,j?1,2,?p)为原变量的xi与xj之间的相关系数,其计算公式为:
rij?
?(x
n
ki
?i)(xkj?j)
(20)
因为R是实对称矩阵(即rij?rji),只需要计算上三角元素或者下三角元素即可;
(3)计算特征值与特征向量:
首先解特征方程?I?R?0,用雅可比法求出特征值?i(i?1,2,?p),并使其按大小顺序排列;然后分别求出各个特征值对应的特征向量:ai(i?1,2,?p); (4)计算主成分贡献率及累计贡献率:
主成分zi的贡献率为:
?i
??
k?1
p
(i?1,2,?p) (21)
k
累计贡献率为:
????
k?1k?1p
i
i
(i?1,2,?p) (22)
k
一般取累计贡献率达到85%~95%的特征值?1,?2,??m所对应的第一、第二、第m(m?p)个主成分;
(5)新样本矩阵的构造:
定义:记x1,x2,?xp为原变量指标,z1,z2,?zm(m?p)为新变量指标,根据下式计算每个主成分的各个样本值。
?z1?a11x1?a12x2???a1pxp?
?z2?a21x1?a22x2???a2pxp
(23) ?
??
?z?ax?ax???ax
m11m22mpp?m
ai12???aip2?1
系数aij的确定原则:
①zi与zj(i?j;i,j?1,2,?m)相互无关;
②z1是x1,x2,?xp的所有线性组合中方差最大者,z2是与z1不相关的
x1,x2,?xp的所有线性组合方差最大者;zm是与z1,z2,?zm?1都不相关的则新变量指标z1,z2,?zm分别称为原变x1,x2,?xp的所有线性组合中方差最大者。
量指标x1,x2,?xp的第1,第2,?,第m主成分,它们分别是相关矩阵m个较大特征值所对应的特征向量。
5.4.2 LMBP建模具体求解
在传统BP网络预测的学习过程中,分别通过正向传播和反向传播两个过程的交替进行,在权向量空间执行误差函数梯度下降策略,动态迭代搜索一组权向量,使网络误差值达到最小值,来完成信息提取和记忆两个过程
传统BP算法采用的最速下降算法,在开始几步下降相对较快,但随着接近最优值,目标函数下降逐渐变缓;牛顿法则可在最优值附近提供一个理想的搜索方向。Levenberg-Marquardt法实际上就是梯度下降法和牛顿法的结合,而且网络权值数目较少时收敛速度非常迅速。
针对标准BP神经网络算法固有的一些缺陷,考虑到实验样本数目和网络的收敛速度,本文引入Levenberg-Marquardt算法[6-7]进行网络学习。算法基本思想
是使每次迭代不在沿着单一负梯度方向,而是允许误差沿着恶化的方向进行搜索,同时通过在最速梯度下降法和牛顿法之间自适应调整来优化网络权值,使网络有效收敛,提高了网络的收敛速度和泛化能力。
L-M优化算法的权值调整公式为:???(JT??I)JTe (24)
式中:e为误差向量,J为误差对权值微分的雅克比矩阵,?为一个标量,当?增加时,它接近于具有较小的学习速率的下降法,当?下降到0时,该算法就变成了高斯—牛顿法
基于主成分分析LMBP电力负荷预测步骤如下:
(1)主成分分析处理天气因素,将多个有一定相关的气象因素通过主成分分析法降维处理,用少数不相关气象特征变量来代表;
(2)数据归一化,将数据处理为[0,1]之间的有效数据。本文采用的归一化方式为: x?
?
x?xmin
;
xmax?xmin
(3)建立LMBP神经网络,包括根据Kolmogorov定理粗略确定网络层次,
层节点数,再多次实验来确定,输出层节点数应与输出量个数相同;
(4)设定训练参数进行训练,完成训练后,调用训练结果,输入测试数据进行测试;
(5)得到目标测试数据,进行反归一化,还原为原始范围数据
将相关数据统计整理,导入MATLAB中进行计算(相关程序见附录四),结果见附件Q4-Area1-Load.xlsx与附件Q4-Area2-Load.xlsx。 5.4.3 模型对比评价
我认为本题与原有的预测结果相比,计及气象因素引影响的负荷预测结果精度提高了。因为一方面使用本问题的LMBP模型,不仅使用以往的历史负荷数据训练神经网络模型,在此基础上在进行电力负荷序列预测是引入了气象因素作为影响因素,相较于此前单单以历史数据拟合模型作为预测模型,考虑更为全面,且经过验证气象因素确实可以对电力负荷产生一定程度的影响;另一方面,相比于前面建立的模型,本题建立的LMBP模型的离差平方和有所降低,表示此模型对原有序列信息的提取更加充分,进一步说明与原有的预测结果相比,计及气象因素引影响的负荷预测结果精度有所提高。 五、问题五的分析与求解
5.5.1数据综合评价
根据上文对两地负荷规律性分别统计分析法、时间序列法和人工智能算法三种方式研究,现选取三种方式中具有代表性的参数来综合比较两地区负荷分布规律,如表2所示。
表 5 相关参数表
日峰谷差方
回归方程平均离差乘积季节模型离差LMBP模型
据波动范围较小;地区2
回归方程平均离差平方和与乘积季节模型离差平方和相对于地区1较小,反映模型对原序列的信息提取比较充分,从而说明了地区2负荷数据规律较强;在LMBP模型中,地区2的training:R(网络学习正确率)虽然较小,但相对地区1较大,说明地区2负荷数据规律性更好。综上所述,地区2负荷数据规律性更优。 5.5.2 数据黄金比例评价
许多专家学者指出,“黄金分割率”不但具有美学观点更具有达到机能的目的。比如,建筑物、画框、扑克牌和书籍等,长和宽的比例都十分接近于“黄金分 割率”。
黄金分割线股市[8]中最常见、最受欢迎的切线分析工具之一,主要运用黄金分割来揭示上涨行情的调整支撑位或下跌行情中的反弹压力位。不过,黄金分割线没有考虑到时间变化对股价的影响,所揭示出来的支撑位与压力位较为固定,投资者不知道什么时候会到达支撑位与压力位。因此,如果指数或股价在顶部或底部横盘运行的时间过长,则其参考作用则要打一定的折扣,但这丝毫不影响黄金分割线的实用价值。
黄金分割线是利用黄金分割比率进行的切线画法,在行情发生转势后,无论是止跌转升或止升转跌,以近期走势中重要的高点和低点之间的涨跌幅作为计量的基数,将原涨跌幅按0.191、0.382、0.5、0.618、0.809分割为5个黄金点,股价在反转后的走势将可能在这些黄金分割点上遇到暂时的阻力或支撑。其中黄金分割线中运用最经典的数字为0.382、0.618,极易产生支撑与压力。
同样的在本题负荷数据规律也呈现股价变化类似规律,所以同样的可以利用黄金分割线来对数据进行分析。根据分析,地区2的负荷数据的走势更贴近于黄金分割线的划分,从而更进一步说明地区2的数据规律更优。
§6 模型的评价与推广
一、 模型的优缺点
6.1模型优点
1)本文用于模型计算的数据量足够大,使得相关计算和预测结果可信度较高; 2)本文模型建立模型考虑因素全面合理,使得模型适用性较为广泛; 3)本文在选择预测算法为改进后的算法,使得本文相关预测结果相对更为准确; 4)本文从不同角度全面具体地证明了地区2较地区1数据分布规律更优; 5)本文选取乘积季节模型,相比于一般的简单季节模型,时间序列乘积季节模型能同时更好的反映序列的季节效应、长期趋势效应。 6.2模型缺点
1)虽然相关算法已为改进后的算法,但仍存在一些固有的缺陷,导致预测数据存在一定程度的误差;
2)本文将选取五个天气因素,忽略了其他因素对用电负荷量的影响,也会导致模型的拟合存在一定程度的误差,进而引起预测的结果存在不可控误差。 二、模型的推广
由于本文模型考虑因素较多,所以使得模型应用相对较为广泛。例如可以用来预测某地区自来水用量或是对股市大致走势进行简单预测。
参考文献
[1] [2] [3] [4] [5] [6] [7] [8]
王学民. 应用多元分析[M]. 上海财经大学出版社, 2009.
毛李帆, 江岳春, 龙瑞华,等. 基于偏最小二乘回归分析的中长期电力负荷预测[J]. 电网技术, 2008(19):71-77.
李子奈. 计量经济学应用研究的总体回归模型设定[J]. 经济研究, 2008(8):136-144.
万昆, 柳瑞禹. 区间时间序列向量自回归模型在短期电力负荷预测中的应用[J]. 电网技术, 2012, 36(11):77-81.
王燕. 应用时间序列分析[M]. 中国人民大学出版社, 2012.
张淑清, 任爽, 师荣艳,等. 基于多变量气象因子的LMBP电力日负荷预测[J]. 仪器仪表学报, 2015, 36(7):1646-1652.
史峰. MATLAB智能算法30个案例分析[M]. 北京航空航天大学出版社, 2011. 谢先武. 证券投资中的数学方法[J]. 科学中国人, 2000(9):63-64..
附 录
附录一:
A1=xlsread('diqu1.xlsx');
A2=xlsread('diqu2.xlsx');%读入两个地区全年的电负荷矩阵 M1=zeros(size(A1)); M2=zeros(size(A2)); M1=sort(A1,2);
M2=sort(A2,2);%按照行升序排列电负荷矩阵 C11=M1(:,1);
C12=M2(:,1);%两个地区日最低负荷 C21=M1(:,96);
C22=M2(:,96);%两个地区日最高负荷 C31=C21-C11;
C32=C22-C12;%两个地区日峰谷差值 C41=sum(M1,2)./96;
C42=sum(M2,2)./96;%两地区日负荷均值 C51=C41./C21;
C52=C42./C22%两地区日负荷率 t=1:1:365; subplot(2,2,1);
plot(t,C21,'g') ;hold on plot(t,C22,'r');%最高负荷 legend('地区1','地区2'); subplot(2,2,2);
plot(t,C11,'g') ;hold on plot(t,C12,'r');%最低 legend('地区1','地区2'); subplot(2,2,3);
plot(t,C31,'g') ;hold on plot(t,C32,'r');%日峰谷差 legend('地区1','地区2'); subplot(2,2,4);
plot(t,C51,'g') ;hold on plot(t,C52,'r');%日负荷率 legend('地区1','地区2'); a1=xlsread('c.xlsx');
a2=xlsread('d.xlsx');%读入两个地区全年的电负荷矩阵 B1=a1(:,4:4:96);
B2=a2(:,4:4:96);%提取整点电力负荷 t=1:18760; C1=B1.*B1; C2=B2.*B2;
D1=sum(C1,2);
D2=sum(C2,2);
E1=sqrt(D1/24);
E2=sqrt(D2/24);%求出全天电力负荷
e1=sort(E1,'descend');
e2=sort(E2,'descend');%对全天电力负荷降序排列
n=24;
z1=e1*ones(1,n);
z2=e2*ones(1,n);%用全天电力负荷替换全天各小时电力负荷
f1=reshape(z1',8760,1);
f2=reshape(z2',8760,1);
>> stairs(t,f1,'g') ;hold on
stairs(t,f2,'r');%做出全年负荷持续性阶梯曲线
附录二:
地区一日最高负荷回归结果 地区二日最高负荷回归结果
地区一日最低负荷回归结果 地区二日最低负荷回归结果
地区一日平均负荷回归结果
附录三:
地区一负荷差分后序列相关图
地区一日平均负荷回归结果 地区二负荷差分后序列相关图
附录四:
clc;
close all;
clear all;
x =xlsread('4.1.xlsx');
p=x';
y = xlsread('4.2.xlsx');
y=y(:,97);
t=y';
% 利用mapminmax函数对数据进行归一化
[pn,input_str] = mapminmax(p) ;
[tn,output_str] = mapminmax(t) ;
% 建立BP神经网络,相对旧一点的MATLAB版本,新版本 newff 函数使用更简洁一些 % 但是本质和性能没有区别
net=newff(pn,tn,[5 7 1],{'purelin','logsig','purelin'});
% 10轮回显示一次结果
net.trainParam.show=10;
% 学习速度为0.05
net.trainParam.lr=0.05;
% 最大训练次数为5000次
net.trainParam.epochs=50000;
% 均方误差
net.trainParam.goal=0.65*10^(-3);
% 网络误差如果连续6次迭代都没有变化,训练将会自动终止(系统默认的) % 为了让程序继续运行,用以下命令取消这条设置
net.divideFcn = '';
% 开始训练,其中pn,tn分别为输入输出样本
net=train(net,pn,tn);
% 利用训练好的网络,基于原始数据对BP网络仿真
an=sim(net,pn);
% 新版本推荐训练样本归一化和反归一化都使用 mapminmax 函数
a = mapminmax('reverse',an,output_str);
% 本例因样本容量有限使用训练数据进行测试,通常必须用新鲜数据进行测试 pnew=[16.6000 11.2000 14 69 2.6000
14.3000 11 12 90 38.2000
14.4000 10.2000 11.7000 91 29.5000
18.1000 8.5000 12.5000 69 0
17.4000 7.9000 12.2000 64 0
20.7000 9.4000 14.7000 65 0
19.4000 11.4000 15.4000 53 0]';
% 利用原始输入数据的归一化参数对新数据进行归一化
pnewn = mapminmax('apply',pnew,input_str);
% 利用归一化后的数据进行仿真
anewn=sim(net,pnewn);
% 把仿真得到的数据还原为原始的数量级 anew = mapminmax('reverse',anewn,output_str)
范文二:海量数据下的电力负荷短期预测_张素香
第35卷 第1期 2015年1月5日 中 国 电 机 工 程 学 报
Proceedings of the CSEE V ol.35 No.1 Jan.5, 2015 ?2015 Chin.Soc.for Elec.Eng.
37
(2015) 01-0037-06 中图分类号:TM 715 DOI :10.13334/j.0258-8013.pcsee.2015.01.005 文章编号:0258-8013
海量数据下的电力负荷短期预测
张素香1,赵丙镇1,王风雨2,张东3
(1.国家电网公司信息通信分公司,北京市 西城区 100761;2.北京国电通网络技术有限公司,
北京市 丰台区 100070;3.国家电网公司农电工作部,北京市 西城区 100031)
Short-term Power Load Forecasting Based on Big Data
ZHANG Suxiang1, ZHAO Bingzhen1, WANG Fengyu2, ZHANG Dong3
(1. State Grid Information & Telecommunication branch, Xicheng District, Beijing 100761, China; 2. Beijing Guodiantong Networks Technology Co., Ltd., Fengtai District, Beijing 100070, China;
3. State Grid Corporation of China, Xicheng District, Beijing 100031, China)
ABSTRACT: The short-term power load forecasting method had been researched based on the big data. And combined the local weighted linear regression and cloud computing platform, the parallel local weighted linear regression model was established. In order to eliminate the bad data, bad data classification model was built based on the maximum entropy algorithm to ensure the effectiveness of the historical data. The experimental data come from a smart industry park of Gansu province. Experimental results show that the proposed parallel local weighted linear regression model for short-term power load forecasting is feasible; and the average root mean square error is 3.01% and fully suitable for the requirements of load forecasting, moreover, it can greatly reduce compute time of load forecasting, and improve the prediction accuracy. KEY WORDS: big data; cloud computing; load forecasting; local weighted linear regression
摘要:该文研究海量数据下的短期电力负荷预测方法,基于局部加权线性回归和云计算平台,建立并行局部加权线性回归模型。同时,为剔除坏数据,采用最大熵建立坏数据分类模型,保证历史数据的有效性。实验数据来自已建的甘肃某智能园区。实验结果表明,提出的并行局部加权模型用于短期电力负荷预测是可行的,平均均方根误差为3.01%,完全满足负荷预测的要求,并极大地减少了负荷预测时间,提高预测精度。
关键词:大数据;云计算;负荷预测;局部加权线性回归
济运行方面具有十分重要的意义。在我国经济高速发展的今天,解决电力负荷预测问题已成为重要而艰巨的任务。高质量的负荷预测需要准确的数学模型,随着现代技术的不断进步和智能用电的深入[1],负荷预测理论与技术得到很大发展,理论研究逐步深入[2-3]。多年来,电力负荷预测理论和方法不断涌现,神经网络[4-7]、时间序列[8-9]、贝叶斯[10]、模糊理论[11]、小波分析[12]、回归分析[13-14]、支持向量 机[15]等技术为电力负荷预测提供了有力的工具。但目前已有的方法仍具有局限性。神经网络方法:一是无法避免在训练过程中产生的学习不足或者是过拟合现象;二是收敛速度慢且易陷入局部极小。时间序列法:对历史数据准确性要求高,短期电力负荷预测时对天气因素不敏感,难以解决因气象因素造成的短期负荷预测不准确问题。回归分析方法是在统计平均意义下定量地描述所观察变量之间的数量关系,往往对数据量有所限制。
随着智能用电海量数据的涌现,必须要寻找一种新的方法满足海量用电大数据分析的要求。目前已有的预测算法无法满足预测速度和预测精度的要求,传统的局部加权线性回归预测用于小数据预测时,具有训练速度快、预测误差率小等优点。但是当数据量非常大时,由于该算法需要为每个测试点寻找近邻,运算量很大,单机运算的时间会达到几个小时或者几天。因此,解决海量数据基础上的预测问题显得十分重要。
本文以智能工业园区海量数据为基础,将局部加权线性回归预测算法和云计算Mapreduce 模型相
0 引言
电力负荷预测在保证电力系统规划与可靠、经
基金项目:国家863高技术基金项目(2011AA05A116)。
The National High Technology Research and Development of China 863 Program (2011AA05A116).
38 中 国 电 机 工 程 学 报 第35卷
结合展开短期电力负荷预测方法研究。该方法首先将海量数据分割成多个数据子块,然后通过云平台将各子块的数据同时进行分析和处理,最后将结果进行归并,该处理过程降低了海量数据的时间处理开销。同时,本文对枚举型数据也进行了处理,并将其加入到距离计算中,提高了预测的准确率。
1.2 基于云计算的局部加权线性回归算法实现 1.2.1 系统结构
从1.1节描述可以看出传统局部加权线性回归算法存在严重缺陷,即当待回归数据增多时,从海量数据中确定近邻数据点集合而产生的计算量是非常巨大的。本文结合云计算技术,将LWLR 算法和MapReduce 模型框架相结合,实现电力负荷并行预测。
MapReduce 是一种处理海量数据的并行编程模型和计算框架,它采用一种“分而治之”的思想。因此,本文的并行局部加权线性回归模型包括3个阶段:map 阶段、合并阶段、reduce 阶段,每个阶段的数据将以<键, 值="">的方式进行交换。系统框架如图1所示。
1 基于云计算的局部加权线性回归模型
1.1 传统局部加权线性回归模型
局部加权线性回归(locally weighted linear regression ,LWLR) 模型以局部数据为基础拟合多项式回归曲线,观察数据在局部展现出来的规律和趋势。确定预测点周围最邻近的数据点,常用的确定局部数据点的方法为K 最邻近(k -Nearest Neighbor,KNN)
[16-17]
算法,其主要思想为计算预测点到特征
空间中所有数据点的距离,从中找出距离预测点最近的k 个点的集合。
设任意1个实例用X = {s 1, s 2, ???, s n }描述,2个实例X 1和X 2之间的距离可以用式(1)得到:
d (X 1, X 2) =
map 阶段reduce 阶段数据节点
数据节点数据节点
建立回归公式:
?(x ) =ω+ωa (x ) +ωa (x ) +" +ωa (x ) (2) f 01122n n
图1 并行局部加权线性回归系统框架
Fig. 1 Framework of the parallel locally weighted linear
regression
式中 ωi 代表根据距离公式(1)计算出的权重大小,其计算公式为
1)map 阶段。
首先将输入的数据集合分为若干个数据子集,
数据用 ωi = (3) 移量,value 值解析成当前数据各个维度的坐标值。d (x q , x i ) 2 基于局部最小距离算法计算出测试点与数据子集 式中:x q 为预测点;x i 为x q 的临近点;两者之间距 的最近k 个中心点的距离,其运算中间结果将被放 离的倒数为权重的大小。 入中间库中。 在式(2)中,ω0为回归常数项,ω1、ω2、???、 2)合并阶段。 ωn 为回归系数,f ?(x ) 为回归预测值。αi (x ) 表示实 该阶段的任务即将处理完后的数据进行本地 例x 的第i 个属性值。在拟合以上形式的线性函数 层级合并。将中间键值对集合重新排序产生一个新 到给定的训练集合时,通常采用梯度下降方法,找 的二元组,相同的键值将被归为一类。 到使误差最小化的系数 ω1、ω2、???、ωn ,即满足: 3)reduce 阶段。 1?(x )) 2 (4) reduce 函数首先解析样本个数和相应节点各个(f (x ) ?f E (x ) ≡∑2x ∈最近点 维度累加的坐标值,计算出各个数据子集中离预测 通过满足误差准则满足局部逼近,得到梯度下点最近的k 个点,并基于混合高斯模型计算出各属 降训练法则: Δωj ≡η x ∈x 的 k 个最近点 性的加权值,该结果将被更新到分布式文件系统中 ?(x )) a (x ) (5) K (d (x q , x ))(f (x ) ?f j ∑ 并进行下一次迭代直至算法收敛。 1.2.2 数据来源与处理 1)数据采集网络架构。 式中 η 为学习速率。 第1期 张素香等:海量数据下的电力负荷短期预测 39 如图2所示的数据采集网络通过在用能设备信息计量点上部署计量设备,利用工业总线将数据进行集中到采集点,并与不同通信网络对接。采集的数据类型包括用电设备的电能基本参数和电能质量信息等,同时还包括温度、流量等其他能源数据的采集,实现了多能源、全覆盖的数据信息采集。 推论,它能产生最优化和唯一无偏估计值p *。 p *=arg max H (p ) (7) p ∈C 式中H (p ) 为模型p *下的熵。 本文数据为时间序列数据,因此,首先进行归一化处理,然后送入最大熵模型中迭代。所有元素按照公式(8)进行标准归一化处理。 r i = x i ?min(x i ) (8) max(x i ) ?min(x i ) 3)枚举型数据。 本文将时间、温度等数据用于并行LWLR 算法,但由于以上数据具有连续特点,本文将其转化为向量。如时间类数据:一周为7天,向量的维度为7,则设时间向量为{t 1, t 2, ???, t 7},如星期日被表示为向量{0, 0, 0, 0, 0, 0, 1}。 图2 数据采集网络架构图 Fig. 2 Architecture of data collection network 1.2.3 基于云计算的LWLR 预测算法 基于MapReduce 的LWLR 预测算法如图4所示。在LWLR 算法中,首先解决Map 个数问题。通过读取数据源及其数据结构、并行度、增量字段、异常处理方式等多种参数信息,并根据增量字段当前的最大值对数据集进行划分和调整,确定Map 个数。其次,利用KNN ,对每个Map 所处理的数据块选择离预测点最近的K 个点;最后将每个Map 的K 个点与预测点进行距离比较,筛选出最小的K 个点,并基于混合高斯模型计算权重,确定参数, 2)基于最大熵的坏数据分类模型。 由于人为因素或某些特殊原因存在,通常采样得到的异常数据将影响预测结果的精确度及可靠性。本文首先对样本历史数据进行了预处理,基于最大熵算法建立了坏数据分类模型,如图3所示。 完成了模型建立任务。 图3 基于最大熵的坏数据分类模型 Fig. 3 Bad data classification model based on maximum entropy Map 阶段: ?x q ?D ={D 1, D 2, " , D n } foreach D i {foreach{x i ∈D i } {μj }←arg min{d (x ,x i ), j =1, 2, " , K }}Reduce 阶段:?x q ?map ={μ1, μ2, " , μn }foreach μi {foreach{y i ∈μi } {βi }←arg min{d (x q , y i ), i =1, 2, " , K },n =1, 2, " , K }基于混合高斯模型计算 k 个点的加权值 ωi ?(x ) =ω+ωa (x ) +ωa (x ) +" +ωa (x ) f 11 22 n n 最大熵原理是在1950年由E. T. Jaynes提出的,其主要思想是:在用有限知识预测未知假设时,应该选取符合已知假设条件但熵值最大的概率分布。即在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识的最不确定或最随机的推断。 在最大熵模型中,信息以特征的方式表达,其中特征为二值特征f i (x , y ) ,若f i 对模型有用,则构 (x , y ) 的约束模型(模型期建一个能生成训练样本p 望=经验期望) : 图4 基于云计算的LWLR 预测算法 Fig. 4 LWLR forecasting based on cloud computing P ={p |E p (f i ) =E p 2 负荷预测实验及结果分析 (f i ),1≤i ≤k } (6) 最大熵算法提出在与约束集合一致的模型中,选择具有最大熵的p *。在有用特征f i 的基础上进行 2.1 负荷预测误差评测指标 由于电力负荷预测是通过历史数据对未来电 40 中 国 电 机 工 程 学 报 第35卷 力负荷的估算,因此预测值与实际值存在差距,产生电力负荷预测误差。产生误差的原因很多,归纳起来主要包括:1)数学模型的简化和忽略各种因素的关系;2)历史数据不够完整;3)参数选取不当造成误差。 本文采用的评测指标如下: ?(i ) 分别表示i 时刻的实际负荷值和设y (i ) 和y 预测值,则有: 绝对误差: 考虑了温度、湿度、工作日、节假日、季节等负荷影响因素对电力用户负荷波动的影响,通过计算与负荷的关联强度,为建立更加精确的负荷预测模型提供依据。 本文的数据表达为:负荷时间序列为X 1, X 2, ???, X n ;x 1, i 为负荷数据;x 2, i 为温度序列;x 3, i 为湿度序列;以此类推。 2.3 实验结果 1)并行局部加权线性回归算法与传统算法 ?(i) (9) E =y (i ) ?y 对比 从图5所示的结果可以看出,在小数据样本时, 相对误差: 两者之间的预测时间相差不大,相反,传统线性回?(i ) 1n y (i ) ?y e 1=∑||×100% (10) 归方法所需要的时间略优于并行局部线性加权算n i =1y (i ) 法,原因在于:并行局部线性加权算法在小样本集 式中e 1为日平均误差。由于预测误差有正负,为了 下仍将数据分成若干个子样本集,不同数据子集之 避免正负相抵消,计算其平均数的时候取误差的绝 间的通讯代价增高反而影响预测速度;但随着样本 对值。 e 2=100% (11) 时间/m i n 式中e 2为均方根误差。均方根误差指标加强了数值大的误差的作用,提高了该指标的灵敏性。 2.2 实验数据 本文的数据来源为甘肃省某电网企业所采集的负荷数据和天气数据,训练数据范围为2011年 输入数据集大小/MB 11月24日至2011年11月30日的用电数据,每个设备的采样间隔周期为15 min ,如表1所示。预测 图5 传统算法和并行算法所需时间对比 Fig. 5 Consume time contrast between the traditional algorithm and the parallel algorithm 2011年12月1日的电力负荷,如表2所示。同时 表1 训练数据 Tab. 1 Training data 日期 小时 分钟 最高温度 最低温度 电量/(kW?h) 集的增大,预测算法所需的迭代时间有了明显不同,并行加权线性回归算法所需的时间要远远小于传统方法。 24 00 15 7 ?3 52 679.184 224 00 30 7 ?3 58 495.673 024 00 45 7 ?3 57 386.641 0# # # # # # 2)本文实验结果 本文基于并行局部加权线性回归算法得到的负荷预测值与实际负荷值对比结果如表3所示。 如图6、7所示,预测值的曲线与实际值的曲线趋势相似,其均方根误差平均值为3.01%。预测 表3 对比结果 Tab. 3 Comparison results 序号 预测值 实际值 误差/% ?4.0 30 23 30 3 ?5 84 704.784 130 23 45 3 ?5 72 975.840 8 表2 2011年12月1日的实际负荷数据 Tab. 2 Actual load data on December 1,2011 小时 分钟 最高温度 最低温度 电量/(kW?h) 00 15 8 ?1 53 100.606 101 30 8 ?1 53 105.972 302 45 8 ?1 54 000.864 3# # # # # 1 50 976.581 8 53 100.606 1 2 54 386.020 9 53 105.972 3 2.4 3 56 034.593 1 54 000.864 3 3.8 4 52 065.280 6 53 400.287 8 # # # ?2.5 # 23 30 8 ?1 72 000.504 523 45 8 ?1 71 100.308 5 96 73 517.718 9 71 100.308 5 3.4 第1期 张素香等:海量数据下的电力负荷短期预测 41 负荷/M W Zhong Qing,Sun Wen,Yu Nanhua,et al.Load and power forecasting in active distribution network planning[J]. Proceedings of the CSEE,2014,34(19):3050-3055(in Chinese) . [3] 肖白,周潮,穆钢.空间电力负荷预测方法综述与展望 [J].中国电机工程学报,2013,33(25),78-92. Xiao Bai,Zhou Chao,Mu Gang.Review and prospect of 时间/h the spatial load forecasting methods[J].Proceedings of the CSEE ,2013,33(25):78-92(in Chinese). [4] Liang Z S .The short term load forecast of power system based on adaptive neural network[J].Journal of Northeast China Institute of Electric Power Engineering,1994,14(1):27-35. [5] 谢开贵,李春燕,周家启.基于神经网络的负荷组合预 测模型研究[J].中国电机工程学报,2002,22(7):85-89.Xie Kaigui,Li Chunyan,Zhou Jiaqi.Research of the combination forecasting model for load based on artificial neural network[J].Proceedings of the CSEE,2002,22(7): 图6 负荷预测对比图 Fig. 6 Load forecasting contrast curve 均方根误差/% 时间/h 85-89(in Chinese). [6] 刘玲,严登俊,龚灯才,等.基于粒子群模糊神经网络 的短期电力负荷预测[J].电力系统及其自动化学报,2006,18(3):47-50. Liu Ling,Yan Dengjun,Gong Dengcai,et al.New method for short term load forecasting based on particle swarm optimization and fuzzy neural network[J].Proceedings of the CSU-EPSA,2006,18(3):47-50(in Chinese). [7] 傅忠云.粒子群优化BP 算法在电力系统短期负荷预测 中的应用[J].重庆工学院学报(自然科学版) ,2007,21(10):93-96. Fu Zhongyun.Application of PSO-BP algorithm in electric power system short-term load forecast[J].Journal of Chongqing Institute of Technology (Natural Science Edition) ,2007,21(10):93-96(in Chinese). [8] Hagan M T ,Behr S M.The time series approach to short-term load forecasting[J].IEEE Transactions on Power System,1987,2(3):25-30. [9] 赵宏伟,任震,黄雯莹.考虑周周期性的短期负荷预测 [J].中国电机工程学报,1997,17(3):211-213. Zhao Hongwei,Ren Zhen,Huang Wenying.Short-term load forecasting considering weekly period based on PAR[J].Proceedings of the CSEE,1997,17(3):211-213(in Chinese). [10] 陶文斌,张粒子,潘弘,等.基于双层贝叶斯分类的空 间负荷预测[J].中国电机工程学报,2007,27(7):13-17. Tao Wenbin,Zhang Lizi,Pan Hong,et al.Spatial electric load forecasting based on double-level Bayesian classification[J].Proceedings of the CSEE,2007,27(7):13-17(in Chinese). [11] Bakirtzis A G,Theocharis J B.Short term load forecasting using fuzzy neural networks[J].IEEE Transactions on 图7 负荷预测的均方误差曲线 Fig. 7 Mean square error curve of load forecasting 结果的误差符合负荷预测的误差标准。证明基于云计算的局部加权线性回归方法是可行的,该系统软件一直在某智能园区运转正常,为电力企业管理该园区的电力负荷起到了很重要的作用。 3 结论 本文针对传统局部加权线性回归算法的严重缺陷,研究了海量数据电力负荷短期预测问题。通过最大熵剔除坏数据模型进行数据预处理后,将具有并行编程模型和计算框架的Mapreduce 和局部加权线性回归算法相结合,提出了并行局部加权线性回归算法,解决了海量数据的计算量问题,预测所耗的时间大大缩短,同时还保证了预测精度满足负荷预测要求。 下一步,将围绕多模型相结合的方法解决负荷预测中的因素关联问题。 参考文献 [1] 中国电力大数据发展白皮书[M].北京:中国电力出版 社,2013. The white paper for the development of Chinese electric power big data[M]. Beijing: China Electric Power Press, 2013(in Chinese). [2] 钟清,孙闻,余南华,等.主动配电网规划中的负荷预 测与发电预测[J].中国电机工程学报,2014,34(19):3050-3055. 42 中 国 电 机 工 程 学 报 Power System,1995,10(3):1518-1524. 26(18):6-12. 第35卷 [12] 姚李孝,刘学琴.基于小波分析的月度负荷组合预测[J]. 电网技术,2007,31(19):65-68. Yao Lixiao,Liu Xueqin.A wavelet analysis based combined model for monthly forecasting[J].Power System Technology,2007,31(19):65-68(in Chinese). [13] 雷绍兰,孙才新,周湶,等.电力短期负荷的多变量时 间序列线性回归预测方法研究[J].中国电机工程学报2006,26(2):25-29. Lei Shaolan,Sun Caixin,Zhou Quan,,et al.The research of local linear model of short-term electrical load on multivariate time series[J].Proceedings of the CSEE,2006,26(2):25-29(in Chinese). [14] 张伏生,汪鸿,韩悌,等.基于偏最小二乘回归分析的 短期负荷预测[J].电网技术,2003,27(3):36-40. Zhang Fusheng,Wang Hong,Han Ti,et al.Short-term load forecasting based on partial least-squares regression[J].Power System Technology,2003,27(3):36-40(in Chinese). [15] 牛东晓,谷志红,邢棉,等.基于数据挖掘的SVM 短 期负荷预测方法研究[J].中国电机工程学报,2006, Niu Dongxiao,Gu Zhihong,Xing Mian,et al.Study on forecasting approach to short-term load of SVM based on data mining[J].Proceedings of the CSEE,2006,26(18):6-12(in Chinese). [16] Thomas M C,Peter E H.Nearest neighbor pattern classification[J].IEEE Transaction Theory,1967,13(1):21-27. [17] Bremner D,Demaine E,Erickson J,et al.Output-sensitive algorithms for computing nearest-neighbor decision boundaries[J].Discrete and Computational Geometry,2005,33(4):593-604. 收稿日期:2014-09-07。 作者简介: 张素香(1973),女,博士,副教授,主要研究方向为数据挖掘、智能用电,zsuxiang@163.com。 张素香 (编辑 李泽荣) 摘 要 本文对电力负荷预测的 研究 主要运用了数据挖掘中的聚类 分析 。构架了一种基于 cure 聚类算法的电力负荷预测模型, 对短期电力负荷数据进行有效的预测。 并通过海量数据 存储, 数据挖掘和决策信息的支持, 可有效地克服数据有限性, 不完整性及 影响 因素复杂 性对预测结果的影响,发挥独特优势、实现 经济 价值。 关键词 电力系统;数据挖掘; cure 聚类算法;负荷预测 电力负荷预测是能量管理系统及配电管理系统的重要组成部分, 是电力系统规划和运行调度 的依据,也是电力市场化商业运营所必需的基本 内容 。准确的负荷预测,可以合理的安排 电网内部发电机组的启停, 减少不必要的旋转储备容量, 合理安排机组的检修计划, 在保证 社 会 的正常生产和生活的条件下,有效的降低发电成本,提高经济效益和社会效益。 短期负荷预测是电力系统调度和计划部门安排购电计划和制定运行方式的基础。由于电力负 荷除了受温度、天气状况等非线性因素影响之外,还具有自身的随机性,故短期负荷预测是 一个非常复杂的 问题 [1]。 人们对短期负荷预测 方法 的研究主要包括三个方面:传统算法的研究、 现代 算法的研究 和预测 应用 的研究, 各研究层面的侧重点互不相同, 但由于影响负荷预测结果的因素多样, 始终存在着预测精度不高的问题。采用数据挖掘技术,可以很好的解决准确度不高的问题。 1 数据挖掘技术 1.1 数据挖掘介绍 数据挖掘是一门涉及面很广的交叉性新兴学科, 它涉及到数据库、 人工智能、 数理统计、 并 行 计算 、可视化等等领域。它是在没有明确假设的前提下去挖掘信息、发现知识的。数据 挖掘所得到的信息应具有先前未知、有效和实用三个特征。 基于广义的数据挖掘观点, 数据挖掘是指从存放在数据库、 数据仓库或其他信息库中的大量 数据中挖掘知识的过程。数据挖掘不仅能对过去的数据进行查询和遍历,并且能够对将来的 趋势和行为进行预测,并自动探测以前未发现的模式,从而很好地支持人们的决策。被挖掘 出来的信息,能够用于信息管理,查询处理,决策支持,过程控制以及许多其它应用。 1.2 数据挖掘过程 负荷预测工作的关键在于收集大量的 历史 数据, 建立 科学 有效的预测模型, 采用有效的 算法,以历史数据为基础,进行大量试验性研究, 总结 经验,不断修正模型和算法,以真 正反映负荷变化 规律 。 (1) 调查和选择历史负荷数据资料 多方面调查收集资料, 包括电力 企业 内部资料和外部资料, 从众多的资料中挑选出有用的 一小部分,即把资料浓缩到最小量。挑选资料时的标准要直接、可靠并且是最新的资料。如 果资料的收集和选择得不好,会直接影响负荷预测的质量。本人通过建立计算机数据管理系 统,利用计算机软件系统来自动管理数据。 (2) 历史资料的整理 一般来说, 由于预测的质量不会超过所用资料的质量, 所以要对所收集的与负荷有关的统计 资料进行审核和必要的加工整理,来保证资料的质量,从而为保证预测质量打下基础,即要 注意资料的完整无缺, 数字准确无误, 反映的都是正常状态下的水平, 资料中没有异常的 “分 离项” ,还要注意资料的补缺,并对不可靠的资料加以核实调整。本人通过建立数据完整性、 一致性约束模型,来建立海量数据集为后面的数据挖掘做好充分的准备。 (3) 对负荷数据的预处理 在经过初步整理之后,还要对所用资料进行数据分析预处理 [2],即对历史资料中的异常值 的平稳化以及缺失数据的补遗,针对异常数据,主要采用水平处理、垂直处理方法。数据的 水平处理即在进行分析数据时,将前后两个时间的负荷数据作为基准,设定待处理数据的最 大变动范围, 当待处理数据超过这个范围, 就视为不良数据, 采用平均值的方法平稳其变化; 数据的垂直处理即在负荷数据预处理时考虑其 24h 的小周期, 即认为不同日期的同一时刻的 负荷应该具有相似性,同时刻的负荷值应维持在一定的范围内,对于超出范围的不良数据修 正,为待处理数据的最近几天该时刻的负荷平均值。 第35卷 第3期 2015年2月5日 中 国 电 机 工 程 学 报 Proceedings of the CSEE V ol.35 No.3 Feb.5, 2015 ?2015 Chin.Soc.for Elec.Eng. 527 (2015) 03-0527-11 中图分类号:TM 76 DOI :10.13334/j.0258-8013.pcsee.2015.03.004 文章编号:0258-8013 电力用户侧大数据分析与并行负荷预测 王德文,孙志伟 (华北电力大学控制与计算机工程学院,河北省 保定市 071003) Big Data Analysis and Parallel Load Forecasting of Electric Power User Side WANG Dewen, SUN Zhiwei (School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, Hebei Province, China) ABSTRACT: With the development of smart grids, communication network and sensor technology, the electric power user side data is growing exponentially, more complexi, and gradually forms the big data of electric power user side. Now the traditional data analysis model can’t meet the demand of big data, so a new data analysis model aiming at analyzing and processing big data of power user side is urgently necessary. The source of the big data of electric power user side is analyzed in this paper. Those challenges facing data storage, availability, processing of the power user side are pointed out based on volume, variety and speed and other characteristics of the big data. Combining cloud computing technology, an analysis and processing platform of big data of electric power user side is given, which integrates smart meter data, SCADA systems data and various sensors data to be processed by MapReduce or Spark. A load forecasting method based on parallel random forests algorithm is proposed. Parallelization random forest algorithm is used to analyze data, such as load data, temperature, wind speed. The method shortens the time of load forecasting and improves random forests algorithm on data processing capability. Parallel load forecasting prototype system of electric power users side big data based on Hadoop is designed and implemented, including cluster management, data management, predictive classification algorithms library functions and so on. By using data sets of different sizes to do load forecasting experiment with parallelization random forest algorithm, the experiment results show that the prediction accuracy of the parallel random forest algorithm is significant higher than that of the decision tree. The prediction accuracy of different data sets is generally higher than the forecast accuracy of the decision tree, and applying the parallel random forest 基金项目:国家自然科学基金项目(61074078);中央高校基本科研业务费专项资金资助项目(12MS113)。 Project Supported by National Natural Science Foundation of China (61074078); Fundamental Research Funds for the Central Universities (12MS113). algorithm to analyze and processing big data is a better choice. KEY WORDS: big data; electric power user side; load forecasting; parallel processing; cloud computing 摘要:随着智能电网、通信网络技术和传感器技术的发展,电力用户侧数据呈指数级增长、复杂程度增大,逐步构成了用户侧大数据。传统的数据分析模式已无法满足需求,迫切需要解决电力用户侧的大数据在分析与处理方面的难题。 该文分析电力用户大数据的来源,针对电力用户侧大数据的数据量大、种类繁多与速度快等特点,指出电力用户侧的 大数据在数据存储、可用性、处理等方面面临的挑战。结合云计算技术提出一种电力用户侧大数据分析处理平台,将智能电表、SCADA 系统和各种传感器中采集的数据整合,并利用并行化计算模型MapReduce 与内存并行化计算框架Spark 对电力用户侧的大数据进行分析。提出基于随机森林算法的并行负荷预测方法,将随机森林算法进行并行化,对历史负荷、温度、风速等数据进行并行化分析,缩短负荷预测时间和提高随机森林算法对大数据的处理能力。设计并实现基于Hadoop 的电力用户侧大数据并行负荷预测原型系统,包括数据集群的管理、数据管理、预测分类算法库等 功能。采用不同大小的数据集对并行化随机森林算法进行负荷预测实验,实验结果表明,并行化随机森林算法的预测精度明显高于决策树的预测精度,且在不同数据集上预测精度普遍高于决策树的预测精度,能够较好的对大数据进行分析处理。 关键词:大数据;电力用户侧;负荷预测;并行处理;云 计算 0 引言 智能电网是当前全球电力工业关注的热点,而用户作为智能化用电的行为主体,在智能电网需求响应中起着至关重要的作用[1]。对电网用户侧实时数据的采集、传输和存储,并结合累积的海量多源历史数据进行快速分析能够有效的改善需求侧管理,对用户侧数据进行管理与处理支撑着智能电网 528 中 国 电 机 工 程 学 报 第35卷 安全、坚强及可靠运行。 随着各类传感器和智能设备数量的不断增加,设备中进行获取与传输的各类数据也在发生着指数级的增长,这些数据不仅包括智能电表收集的用电量,还包括各类传感器按照固定频率采集的温度、天气、湿度、地理信息和风速信息等。用户侧数据复杂程度增大,数据存储规模将从目前的GB 级增长到TB 级,甚至PB 级[2],逐步构成了用户侧大数据。 大数据目前已成为学术界和产业界共同关注的研究主题[3]。2013年中国电机工程学会信息化专委会发布了《中国电力大数据发展白皮书》[4],文中阐述了电力大数据的特征,将会给社会带来的价值和在电力行业中的发展前景以及在发展过程中面临的技术挑战。 如何对电力用户侧大数据进行可靠存储、高效管理和快速分析,是当前重要的研究课题。电力用户侧大数据主要来源于智能电表的广泛使用、各类传感器的普及、智能家电的使用和用户消费模式的改变,其中智能电表覆盖率在2013年1月底已达到为40.5%,其中直供直管范围的智能电能表覆盖率为55%[5],而智能家电随着物联网和大数据的发展将使更多可控的智能家电进入居民生活中。根据其来源总结出电力用户侧大数据的特点如下: 1)数据量巨大。美国太平洋天然气电力公司每个月从900万个智能电表中收集超过3 TB的数据,每年将存储超过39 TB 的数据[6]。一个地区如果有10 000套传感器终端,按每套终端每5 min 采集一次数据计算,每月产生数据总量约9.3 TB ,每年产生数据接近1 PB 。随着电网智能化程度的加深,以及为了保证精细化、准确化控制,数据维度也从几十向上百过渡,同时影响电力负荷因素采集频率的提高和采集种类的增多,使上述数据量更加快速增长,而且在多数情况下还需要存储所有的历史数据值以满足溯源处理和复杂数据分析的需求[7]。 2)数据结构类型繁多。随着各类传感器的广泛使用,收集的数据包括各种结构化数据、半结构化数据和非结构化数据,这些数据在采集、传输、存储和处理的过程中形成了多源异构数据。 3)速度快。一次采集频度的提升就会带来数据体量的“指数级”变化,如对100万智能电表的数据采集中,采集频率15 min 将产生3.18 TB 的数据,频率为1 min 将产生47.7 TB 的数据,频率为1 s 将产生11.2 PB 的数据[4] 。电力系统中的高级应用需要 对海量的历史数据进行离线分析处理,这要求数据平台能够提供并行化的海量历史数据批处理的能力,以及能够快速传输与存储采集到的新数据。 4)数据的交互性。智能电网的一个重要特性之一是交互性,包括与用户的交互实现智能用电和与相关行业的数据交互融合进行全方位的挖掘分析,如将负荷数据与收集到的民生数据、气象数据进行融合进行电力负荷预测。 目前,云计算是解决大数据管理的一种基础平台和高效支撑技术。开源Hadoop 技术已经成为大数据管理与并行处理的主流技术,主要包括分布式文件系统(Hadoop distributed file system,HDFS) 和并行编程框架MapReduce 两部分,该技术具有高性能、高可靠性和强大的可扩展能力等适合管理大数据的优点,已被淘宝、百度、京东等众多互联网公司使用。电力行业也已开始对其进行研究与应用,目前的研究成果主要集中在系统架构设计、系统模型和存储等方面。例如,文献[8]针对智能电网数据的特点,结合Hadoop 云计算技术,提出智能电网云计算平台的解决方案,分析了基础设施层、平台层、业务应用层与服务访问层,但尚未讨论实现细节。文献[9]利用Hadoop 技术对海量电网设备状态监测数据进行存储,设计并实现了一个数据存储原型系统,包括存储客户端和查询客户端,能够对数据进行高效的存储和快速的查询。 国家电网公司在发输电系统的技术与欧美差别不大,但在配用电侧特别是用户侧存在较大差异,不仅技术领域的名称不同,技术内涵和解决方案也有很大差别。由于相适应的市场机制尚未形成,中国实施智能用电技术的条件不够成熟,难以支持智能配电系统和用户侧管理系统的有效集 成[6]。电力用户侧的大数据管理存在如下挑战: 1)大数据整合。 传感器网络在智能电网中的广泛使用,智能电表和物联网技术的快速发展,使其产生的大数据模态千差万别,各单位数据口径不一,加工整合困难。针对海量异构数据,如何构建一个模型来对其进行规范表达,如何基于该模型来实现数据融合是亟需解决的问题。 2)大数据可用性。 大数据可用性问题是大数据的重要挑战之一。由于数据的采集方式多种多样,各个通信信道质量不一,不仅接收的数据质量低劣,而且对数据的管控能力也不足,从而导致利用这些低劣的数据进行 第3期 王德文等:电力用户侧大数据分析与并行负荷预测 529 挖掘分析发现的知识也是不科学的,不能做出精准的决策。这已经在全球范围内造成了恶劣后果,严重困扰着信息社会。 3)大数据存储。 我国目前已累计实现1.55亿户用电信息采集,构建了大规模的高级量测体系(advanced metering infrastructure ,AMI) 系统,并在26个省区建成投运了电动汽车充换电站360座、充电桩15 333个,这些设备汇集到后台将会产生庞大的数据量[8],而电力数据对储存时间的要求以及海量电力数据的爆发式增长对 IT 基础设施提出了更高的要求。大数据的数据类型复杂,传统的关系型数据库和文件存储格式已不能满足大数据快速增长的需求。 4)大数据分析技术。 智能电网的交互性决定了用户侧大数据处理具有实时性与精准性。而大数据作为一种技术变革的标志,传统的对数据分析技术不能对大数据进行快速数据挖掘分析,已不再适合大数据。从大量数据中挖掘发现可用知识越发困难,迫切需要新的分析技术对大数据进行分析以支持智能电网的推进。 针对电力用户侧大数据的特点和其面对的挑战提出一种基于Hadoop 的电力用户侧大数据管理方案。利用Hadoop 集群搭建大数据的基础存储平台,将各电网子系统采集到的数据整合成大数据存储,并利用并行化计算框架对电力用户侧的大数据进行快速挖掘分析。本文以电力负荷预测应用为例,将传统的负荷预测迁移到云计算平台,利用随机森林算法实现并行负荷预测,并与决策树算法进行对比。利用不同大小的数据集对并行化随机森林算法进行实验,分析其算法处理大数据的性能。 1 电力用户侧大数据分析平台 1.1 大数据分析平台 本文参照云计算技术体系结构[10]与处理工具,并结合电力用户侧大数据分析的实际需要,搭建以分析计算为主的电力用户侧大数据管理平台,其基本架构如图1所示,分为应用层、私有云计算层、数据管理层。 此框架主要是结合云计算技术,利用Hadoop 搭建电力用户侧大数据管理平台,在平台上采用HDFS 、HBase 与Hive 建立大数据存储系统,在平台上搭建MapReduce 并行化计算框架和Spark 内存并行化计算框架作为大数据计算分析系统,对电力用户侧的大数据进行分析。 图1 电力用户侧大数据管理平台架构图 Fig. 1 Architecture diagram of big data manage platform of electric power user side 1.2 数据管理层 数据管理层主要是对数据进行采集和集成整合。数据采集主要包括从智能电表、SCADA 系统和各种传感器中采集的数据,这些数据不仅包括电网内部的数据,还包括大量相关的数据,这些数据由不同产商的设备产生,模态千差万别,各单位数据口径不一,形成了海量异构数据流,加工整合困难。这些数据的集成整合主要是指对传统系统的产生的数据迁移至私有云平台,进行高效的管理。 虽然各产商都提供了相应的应用程序编程接口(application programming interface,API) ,但其自动化程度并不高。简单的使用API 对大数据进行操作效率不高,需要使用第三方工具进行操作,例如Sqoop 和Datanucleus 等。Sqoop 是一款在Hadoop 和关系数据库之间进行相互转移数据的工具。利用Sqoop 可以使各个子系统的数据在大数据平台上进行整合[11]。Datanucleus 是一款开源的java 持久化工具,可以对HBase 、Cassandra 多种非关系型数据库进行操作。 平台针对数据集成整合这一难点采用sqoop 工具对数据进行抽取整合工作,将各个独立的系统产生的数据及历史数据利用sqoop 抽取整合到Hive 与HBase 中。使用Datanucleus 对列存储数据库进行操作,将基于云计算的应用产生的在线数据写入到HBase 中。大数据的抽取整合流程如图2所示。 530 中 国 电 机 工 程 学 报 第35卷 图2 电力用户侧大数据的抽取与整合流程 Fig. 2 Extraction and integration of electric power user side big data 1.3 私有云计算层与应用层 私有云计算层主要负责大数据的存储和计算分析功能。 云计算层利用Hadoop 搭建而成,大数据存储在分布式文件系统HDFS 中,利用Hive 、Pig 和HBase 对数据进行管理,电力大数据在存储方面已进行了一些研究,例如文献[12-13]提出利用云计算存储、运算技术进行电力数据中心的搭建。文献[14]在云计算平台上将数据映射成数据空间的点集,充分利用计算存储资源,实现数据集到数据中心的布局方案。文献[15]在对数据进行存储时考虑到数据的安全性,利用HBase 高性能优势和现代密码技术,将密钥与密文的管理分离,开发了基于Hadoop 的智能电网数据安全存储原型系统。 该平台利用HBase 存储电力负荷数据和相关数据,HBase 数据库是列为存储单元的,方便对整列数据进行查询,而随后使用的随机森林算法在学习过程中需要多次对整列数据进行读取计算,对数据的操作需求符合HBase 数据存储的特点。 利用并行化计算模型MapReduce 对大数据进行并行化批量计算分析,而对数据密集型的迭代计算采用基于内存的并行化计算模型Spark 。Spark 是一个开源的分布式集群系统,用于大数据的快速处理分析。Spark 克服了Hadoop 在迭代计算上的不足,现已成为Apache 的顶级项目。Spark 提供了一种内存并行化计算框架,框架将作业所需数据读入内存,所需数据时直接从内存中查询,这样比基于磁盘的MapReduce 访问数据的速度快,减少了作业的运行时间,也减少了IO 操作。 并行计算模型主要是对大量的数据进行挖掘,其计算模型主要有MapReduce [16]、Dremel [27]、Dryad [18]和Cascading 等,该平台主要利用Map Reduce 模型对电力用户侧大数据进行挖掘分析。 应用层主要是利用私有云计算集群强大的存储和计算分析能力为企业各部门提供决策和指导功能接口。 2 基于随机森林算法的并行负荷预测 2.1 电力负荷预测 负荷预测是电网规划中的关键环节,是变电 站、网架规划重要计算依据[19],高精度的短期负荷预测能够有效降低发电成本,有关键作用[20]。目前,短期负荷预测常用的方法主要包括以下几种:决策树、极限学习、遗传算法等。其中,决策树在传统预测算法中得到广泛研究,文献[21]分析了决策树ID3在扩展时易偏向属性值多的属性及属性间相关性考虑较少的缺点,对其进行改进,提出了属性–值对的两次信息增益优化算法,并用此算法进行日特征负荷决策树预测,预测结果能够满足并超过负荷预测实用化标准的要求,并具有较高的预测精度。文献[22]根据各时段负荷和平均负荷受相关因素影响的不同,结合决策树和解耦法提出解耦决策树方法进行预测,并将决策树前两层由实际经验指定,其余节点自动形成,该方法已在北方某市进行实际应用。随着大数据的产生,云计算技术也越来越多的应用在电力系统中,王保义等[23]针对智能电网中负荷数据的特性,结合云计算技术,利用极限学习进行负荷预测,使其具有分布式能力和多Agent 思想,提升了负荷预测算法预测准确率和速度。 以上方法均已取得了相应的研究成果,其中决策树是解决短期电力负荷的主流算法之一,但其自身原因和外界因素也存在很多不足,总结如下: 1)在建树初始要把所有属性读入内存,这限制了可以处理的数据量,无法对大数据进行分析; 2)容易出现过生长现象,使决策树过于复杂,导致对训练数据集可以进行很好的分类,但对测试数据集分类效果不佳; 3)随着智能电网的不断发展,用电信息的采集频率不断提高,以及对预测的精度要求越来越高,采集到的影响负荷变化的随机因素也越来越庞大,不确定性也越来越大;因此,传统的数据挖掘算法已经不能满足大数据环境下短期负荷预测的要求。 随机森林是一种集成学习方法,以决策树为基本学习单元,包含多个由Bagging 集成学习理论和随机子空间方法训练得到的决策树,输入待分类的样本,由各个决策树产生各分类结果,最终的分类 第3期 王德文等:电力用户侧大数据分析与并行负荷预测 531 结果由各个决策树的结果进行投票决定。随机森林是多个决策树的集成学习方法,不仅可以克服决策树的一些不足,而且具有良好的可扩展性和并行性,能够有效解决大数据的快速处理问题,针对大数据环境下的电力负荷预测有较好的应用前景。 2.2 随机森林算法原理 随机森林[24]是由一系列分类回归树组成的,在2001年由Leo Breiman根据他的Bagging 集成学习理论和Ho 提出的随机子空间理论相结合提出的。在随机森林中,每个分类回归树都有各自独立的样本训练集TS ,TS 是由Bagging 算法从总样本S 中有放回的抽取与S 等数量的样本组成。算法在利用各个TS 进行分类回归树的训练学习,形成各个分类器过程中,每个内部节点的分支是根据随机子空间理论随机选取若干个属性值进行的,最后形成一个具有分类规则或者回归功能的决策树群。随机森林的最终结果为各个分类回归树进行投票选择或者各分类回归树结果的平均值。随机森林中单个决策树训练过程如图3所示。 图3 随机森林中单个决策树训练过程 Fig. 3 Training process of a single decision tree in random forests 单个分类回归树的构造过程主要包括从属性集中选择合适的属性值进行分支,然后在其产生的子树上分别重复划分搜索过程,直到满足一个停止生长规则为止。 进行分支属性值的选择依据为Gini 指数和最小二乘偏差,其中Gini 指数适合于分类树,而最小二乘偏差适合于回归树,具体计算如下: 1)Gini 指数。 Gini 指数可以度量节点的不纯性,其公式为 GINI(t ) =1?∑p 2(j /t ) (1) j 式中:t 为当前节点分支属性;p (j /t ) 表示目标类别j 在节点t 中出现的比例。 节点t 按属性值s 划分的Gini 标准定义为 GINI(s , t ) =p L GINI(t L ) +p R GINI(t R ) (2) 划分标准为使GINI(s , t ) 最小。 2)最小二乘偏差。 最小二乘偏差多用来度量回归树,节点t 的拟合误差公式为 Err(t ) = 1 n (y i ?k t ) 2 (3) t ∑D t 式中:n t 为节点t 中实例的个数;k t 为每个节点中 实例的目标值的平均值,k 1 t =n ∑y l 。 l D l 节点t 按属性值s 划分的最小二乘偏差标准定义为 Err(s , t ) = n tL n Err(t ) +n tR L Err(t R ) (4) t n t 为简化在计算机中的计算过程,避免多次遍历属性值,对式(4)进行简化,可得 Err(s , t ) =S 22 L n +S R (5) tL n tR 式中S L =∑y i ,S R =D ∑y i ,划分标准是使式(5) iL D iR 最大。 2.3 随机森林算法的并行化依据 随机森林算法是一个集成学习算法,这成为并行化的基础,但随机森林并不是K 个决策树模型的简单组合,这使随机森林并行化并不只是量的变化。随机森林的Bagging 与随机子空间为算法并行化提供了理论依据,分别叙述如下。 1)Bagging 思想。 从总样本S 中有放回的抽取K 个训练样本,其样本数为|S |,其中约有37%的数据没有被抽到,使得每个学习单元的训练样本不一样,构建的过程是相互独立的。这确保了随机森林的训练过程不仅可以进行数据的并行化,也可以进行学习单元的并行化,提高模型生成的速率,能够更有效的进行大数据的处理分析。 2)随机子空间思想。 学习单元在每个节点进行属性测试时,随机的从样本属性中抽取若干个属性进行测试。这就避免了一次把所有测试属性读入内存,也避免了决策树在形成过程中容易产生过度拟合的问题。 这两个思想确保了随机森林算法是一个可以并行,能够对大数据进行分类预测的算法,具有较高的分类预测精度,而且对噪声和异常值有较好的稳健性,具有较强的泛化能力。 目前,随机森林算法的应用仍然是单机版的串 532 中 国 电 机 工 程 学 报 第35卷 行应用。随机森林算法是多个决策树的集成,每个决策树的训练是很耗时的,使得随机森林预测模型的建立需要较长的时间,无法直接应用于大数据环境下的电力负荷预测中。本文针对随机森林在大数据负荷预测中的不足提出了基于MapReduce 的并行化随机森林算法(MapReduce-random forests, MR-RF) 。 2.4 基于并行随机森林的负荷预测过程 整个过程利用3个MapReduce 作业类执行算法的训练过程,每一个MapReduce 的输出作为其后一个的输入。训练结束后得到的随机森林模型保存在Hadoop 的分布式集群中,其分为三部分:生成数据字典;生成决策树;形成随机森林。 生成数据字典就是对进行训练的样本数据进行描述,产生一个文件来描述样本中条件属性和决策属性,记录条件属性值的类型和决策属性的位置,以及要创建的模型是进行分类还是回归运算。这个过程由第一个MapReduce 完成,每个Map 过程读取实验数据的一部分,记录数据的属性类型和负荷值或者类型标识。产生的描述文件以key/value的形式存储在Hadoop 的文件系统HDFS 中,以备随后的MapReduce 使用。 生成决策树过程为整个并行化算法的核心,其并行化过程主要其中在以下几方面: 1)对原数据集Dataset 利用Bagging 算法进行随机有放回的抽取K 个与原样本数据集大小一样的样本数据TS 1,2,…,k 。因为是有放回的抽取,所以可以并行对原数据集进行抽取,而不会对TS 产生影响。一个TS 对应一个决策树的训练集,每个TS 都有所不同,并且与原数据集大小一样,这样既保证了各个决策树的不同,又不会失去原数据集的知识规模。 2)根据样本数据中属性的个数M 确定每个节点随机选择的属性个数m (m 3)递归的进行节点的建立,生成决策树。 生成第k 个决策树的map 伪代码如下: 输入:n t 个实例,实例中y 值的总和S t ,属性值X v ; 输出:第k 个决策树; 方法:按X 属性值升序排序 S R = St ;S L = 0; n R = nt ;n L = 0; BestValue = 0; For 实例i in 所有的实例{ S L =S L +y i ;S R =S R ?y i ; n L =n L +1;n R =n R ?1; //Xi,v 为X 属性值排序后第i 个属性值 if(Xi+1,v>Xi,v ){ SplitValue =(S2L /nL ) +(S2 R /nR ) ; If(SplitValue > BestValue){ BestValue = SplitValue; BestSplitPoint=(Xi+1,v+X i,v )/2; } } } K 个决策树的生成是并行产生的,一个Map 生成一个决策树,实现了算法的并行。这个过程由第二个MapReduce 过程完成。此MapReduce 只有 Map 过程没有Reduce 过程。 形成随机森林也就是把每个决策树分类器组合起来。每个决策树都会产生一个结果,如果随机森林用来分类其最终结果为投票选取,当它用来回归预测时,K 个树会给出K 个值,最终值为各树的平均值。此过程由第三个MapReduce 完成。 利用随机森林算法的并行化进行短期负荷预测的具体预测流程如图4所示。整个模型是建立在 Hadoop 的分布式集群上,对大数据进行分布式存储,利用MapReduce 将随机森林算法并行化,使算 图4 并行化随机森林短期负荷预测流程图 Fig. 4 Flow chart of parallel random forests for short-term load forecasting 第3期 王德文等:电力用户侧大数据分析与并行负荷预测 533 法能够依托Hadoop 集群的存储能力和计算能力对数据的挖掘和计算预测,整个过程都是并行执行的,能够有效提高预测的精度和改善负荷预测系统处理大数据的能力。 3 电力用户侧大数据并行负荷预测原型系统与实验分析 3.1 电力用户侧大数据实验平台 课题组在实验室构建了一个电力用户侧大数据实验平台。实验环境由35台配置相同的PC 机组成,每台PC 机CPU 为双核Inter i5-2400,主频 3.10 GHz ,4.00 GB 内存,500 GB 硬盘,其中一台PC 机作为主节点,其它的PC 均作为数据节点。主节点作为一个中心服务器,负责整个集群的资源分配和作业的调度,也是整个文件系统的管理节点,负责文件系统名字空间的管理与维护。数据节点主要是存储和运行任务。主节点将文件进行分块并存储与文件分块信息相关的名字空间和元数据,各个分块数据被冗余的存储在各个数据节点,每块数据默认存储在3个数据节点上。一个MapReduce 作业提交到主节点之后,由主节点将此作业分解成多个小任务,并根据整个集群的资源和任务所需资源将小任务分配给各个数据节点进行运行,并对其运行过程进行监控。实验集群的拓扑结构如图5所示。 大数据集 图5 实验集群拓扑结构图 Fig. 5 Topology map of experimental cluster 图5中大数据集为各个系统在关系型数据库中存储的数据,包括传感器的监测数据、电力负荷的历史数据以及相关数据等。大数据集通过相关的数据整合工具迁移到Hadoop 集群中,目前仍没有一个标准的高效的数据整合方法将各数据集整合到 Hadoop 集群中。本文采用3种整合方法,包括编写MapReduce 作业、开源的java 持久化插件 DataNucleus 、开源的Sqoop 工具,分别叙述如下。 1)编写MapReduce 作业。 根据需求编写MapReduce 作业对操作者有较 高的要求,需要操作者根据需求编写高效快速的程序,其运行效率与程序的编写有着直接的关系。在测试中将20万条测试数据插入到HBase 中,单线程的逐条插入所需时间为9 min ,多线程的并发插入所需时间为1 min ,而利用HBase 中表在HDFS 中存储特点,利用BulkLoad 插入HBase 所需时间为30 s 。 2)开源的java 持久化插件DataNucleus 。 DataNucleus 是一个开源的持久化插件,支持当前众多主流存储系统。DataNucleus 屏蔽了个存储系统的差异,提供统一的对外接口,操作者容易掌握,但其灵活度不高,操作者只能使用其提供的 API 对程序进行优化。在测试中将20万条测试数据插入到HBase 中,所需时间为3 min 。 3)开源的Sqoop 工具。 Sqoop 可以将本地文件或者数据库表与HDFS 文件进行相互迁移。Sqoop 是基于MapReduce 实现的,使操作者不用过多的去关注MapReduce 的实现和优化。在测试中将20万条测试数据插入到HBase 中,所需时间约为1 min 。 上述3种方法各有利弊,Sqoop 虽然效果较好,但使用不够灵活;DataNucleus 虽然效率较低,但利于集成开发;直接编写MapReduce 作业效率最快,但对操作者有较高的要求。由于研究过程中需求的多样性,采用了3种整合方法。 3.2 基于Hadoop 的电力用户侧大数据并行负荷预测原型系统 在此实验平台上搭建电力用户侧大数据管理平台,并在该平台上实现了基于Hadoop 的电力用户侧大数据并行负荷预测原型系统(见附录A 中 图A1) 。 系统功能包括数据集群的管理、文件管理、数据管理、序列化文件管理、预测分类算法库和预测结果展示。集群管理主要是向Hadoop 集群注册用户,得到操作集群的权限,并对MapReduce 作业进行实时监控。文件管理在HDFS 文件系统上实现了文件的上传、下载、在线查看和编辑功能。数据管理是对各系统中的数据进行抽取整合到Hadoop 集群中,并进行数据的展示。序列化文件管理主要是对较小的文件和MapReduce 作业中的中间结果进行管理,将较小的文件进行序列化为SequenceFile 文件进行存储,有利于提高小文件的存储效率,对 MapReduce 作业的中间结果进行查看容易更好的理解MapReduce 的执行过程。预测分类算法库包括 534 中 国 电 机 工 程 学 报 第35卷 了多种并行化的预测分类算法,包括K 均值算法、决策树算法、随机森林算法、贝叶斯算法。结果展示则是对预测分类的结果利用图表工具进行展示,提高数据的可视化程度。本文中实验均在此原型系统中进行。 3.3 实验数据和特征值的选取 实验数据来自某地区2011年3、4月的负荷信息和天气信息,负荷信息采集频率是0.5 h(共2 880行数据) ,天气信息为最高气温、最低气温、降雨量。实验中数据量虽然没有达到大数据的规模,但可以用此实验数据进行算法正确性实验,随后对实验数据进行人为的扩充达到大数据规模进行算法预测速率实验。进行反复多次的测试,取平均值为最终实验结果。 对大数据环境下负荷预测数据的研究发现这些数据呈现一种延续性、周期性、相关性特点,根据这些特点和大量文献 [25-26] 的研究成果确定样本 属性为星期、是否周末、最高气温、最高气温变化率、最低气温、最低气温变化率、降雨量、上月同时期负荷、上周同时期负荷、昨天负荷、预测负荷,其样本数据如表1所示。此外,负荷数据又是一个时间序列数据,有着近大远小的特点,则对上述属性设置加权值为上月同时期负荷的权值为0.2,上 周同时期负荷的权值为0.5,昨天负荷的权值为1。 表1 部分负荷训练数据集 Tab. 1 Part of load training data set 属性 值 星期 星期日 是否周末 1 最高气温 9.0 最高气温变化率 ?2.5 最低气温 8.3 最低气温变化率 0.5 降雨量 25.9 上月同时期负荷 1 529.05 上周同时期负荷 1 453.64 昨天负荷 1 517.89 负荷 1 470.08 3.4 实验评价指标 负荷预测结果的评价指标采用平均绝对百分比误差(mean absolute percentage error,MAPE) ,表达式为 n MAPE =[∑(Y t ?y t /y t )]/n ×100% (6) t =1 式中:Y t 为预测值;y t 为真实值;n 为预测点的个 数。电力负荷预测中,MAPE 值越小,负荷预测值越准确。 算法并行性评价指标采用通用的加速比,表达式为 S peedup =t /T (7) 式中:t 为单机运行的时间;T 为集群运行的时间。 3.5 基于随机森林算法的并行负荷预测实验分析 实验一:本次实验将MR-RF 算法与传统决策树算法进行比较,以某地区2011-3-7至2011-4-27的历史数据为训练样本数据集,训练MR-RF 算法和决策树算法来预测2011-4-28当天的负荷值,实验进行多次求取平均值为最终实验结果,采用公 式(6)作为评价函数,实验结果如表2所示。由表2可见,MR-RF 的MAPE 为1.43%,而决策树的MAPE 为2.12%,这表明MR-RF 的预测精度高于决策树,这是因为MR-RF 是由若干个随机抽取的决策树集成在一起的,具备决策树优点的同时又克服了决策树的一些缺陷,表现出比决策树更好的特性。 表2 MR-RF与决策树的MAPE Tab. 2 MAPE of MR-RF and decision tree 预测方法 MAPE/% MR-RF 1.43 决策树 2.12 图6是2011-4-28当天真实负荷值和用MR-RF 算法、决策树算法的进行电力负荷预测的预测值的对比图。由图6可知,当真实负荷值变化比较平缓时,决策树算法和MR-RF 都表现出较高的准确度,但随着真实负荷谷峰的出现,决策树算法的预测精度有所下降,MR-RF 算法依然表现出较高的预测精度,可见MR-RF 算法更适合在生产实际中使用。 实验二:本次实验主要是对MR-RF 算法中决 策树的个数K 进行实验确定。不同树大小的MAPE 值如表3所示。由于数据集大小和数据集属性个数 1 4001 200 W k 荷/负1 000力电800负荷量真实值 MR-RF 负荷量预测值决策树负荷量预测值 600 05 10 15 20每日负荷时间点/h 图6 电力负荷真实值与预测值的对比 Fig. 6 Comparison of actual and forecast load values 第3期 王德文等:电力用户侧大数据分析与并行负荷预测 535 表3 不同大小森林的MAPE Tab. 3 MAPE of different sizes forest 树的大小K MAPE/% 100 1.84 150 1.61 200 1.43 250 1.48 100 时间/s 700 500 300 5个节点集群 8个节点集群 300 1.61 的影响,K 取值过小会使预测模型倾向决策树模型,预测精度不高,取值过大会随机森林模型分类过细,使集群计算量剧增,因此K 是决定MR-RF 预测精度的重要变量。由表3可以看出K =200时有较好的MAPE 。 实验三:本实验主要是比较数据量的增长对算法预测精度的影响。实验数据文件大小和包含的数据元组数如表4所示。 表4 数据文件大小和元组数 Tab. 4 Size of data files and number of tuples 文件大小/MB 410 820 1 640 3 280 6 560 元组数 4×106 8×106 1.6×107 3.2×107 6.4×107 将各不同的数据集分别用来进行并行负荷预测实验,然后分别计算各个MAPE 值,其实验结果如表5所示。 表5 不同数据集的MAPE Tab. 5 MAPE of different data sizes 元组数 MAPE/% 4×106 1.63 8×106 1.61 1.6×107 1.82 3.2×107 1.76 6.4×107 1.91 由表5可以看出,不同大小数据集的预测精度不一样,没有明显的变化规律,但其精度均小于实验一中决策树的预测精度,证明并行化的随机森林算法适合用户侧大数据的负荷预测。 实验四:本次实验主要是测试不同数据集导入不同大小Hadoop 集群的影响。将实验三中的数据分别导入5台和8台Hadoop 集群所用的时间如 图7所示。 由图7可以看出,不同大小数据文件导入集群的时间随着数据集的变化而变化,但所花费的时间较少。在5个节点和8个节点的集群上导入相同大小数据文件的时间曲线基本吻合,说明数据文件导入Hadoop 集群受集群规模的影响较小。 实验五:算法并行性的好坏用加速比来衡量, 48 16 32 64 数据元组数/106 图7 数据文件导入两个集群的时间对比图 Fig. 7 Time comparison of two clusters on data files importing 即式(7)。由于实验数据有限,人为的把原数据集扩大2.4 G 、12.4 G 、124 G ,分别运行在1、5、15、25、 35台大小的分布式集群上,运行结果如图8所示。 由图8可以看出,并行的随机森林算法在不同数据量不同大小的分布式集群中显示了接近线性增长的趋势,并且在相同集群大小的情况下数据量越大加速比也越大,但是随着集群的增多加速比会减少,但总的来说随着集群数量的增多加速比会变大。 5 2.4 G 12.4 G 124 G 4 比速3 加2 1 510 15 3520 25 30 集群大小 图8 并行随机森林算法的加速比 Fig. 8 Speedup of parallel random forest algorithm 4 结论 本文结合国内外电力大数据的研究现状,针对电力用户侧大数据展开了研究。分析了用户侧大数据的特点,提出了一个大数据分析平台,并在此平台上开发了基于Hadoop 的电力用户侧大数据并行负荷预测原型系统,在此原型系统上利用并行化后的随机森林算法进行负荷并行预测实验,经试验表明该方法提高了负荷预测的精度。 受实验环境的影响,实验中使用的数据集最大只达到GB 级,但是所进行的实验已从不同的角度模拟数据量的增加,其实验结果仍具有可参考性,下一步的工作准备对更大数据集进行分析和并行处理,对内存并行化计算框架Spark 进行深入研究。 536 中 国 电 机 工 程 学 报 第35卷 参考文献 [1] Rusitschka S ,Eger K,Gerdes C.Smart grid data cloud: A model for utilizing cloud computing in the smart grid domain[C]//First IEEE International Conference on Smart Grid Communications.Gaithersburg ,MD ,USA :IEEE ,2010:483-488. [2] 丁杰,奚后玮,韩海韵,等.面向智能电网的数据密集 型云存储策略[J].电力系统自动化,2012,36(12):66-70. Ding Jie,Xi Houwei,Han Haiyun,et al.A smart grid-oriented data placement strategy for data-intensive cloud environment[J].Automation of Electric Power Systems ,2012,36(12):66-70(in Chinese). [3] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计 算机研究与发展,2013,50(1):146-169. Meng Xiaofeng,Ci Xiang.Big data management:concepts ,techniques ,and challenges[J].Computer Research and Development,2013,50(1):146-169(in Chinese) . [4] 中国电机工程学会信息化专委会.中国电力大数据发展 白皮书[S].北京:中国电力出版社,2013. Chinese society for electrical engineering.The white paper on the development of big data on china electric [S].Beijing : China Electric Power Press,2013(in Chinese) . [5] 宋亚奇,刘树仁,朱永利,等.电力设备状态高速采样 数据的云存储技术研究[J].电力自动化设备,2013,33(10):150-156. Song Yaqi,Liu shuren,Zhu Yongli,et al.Cloud storage of power equipment state data sampled with high speed[J].Electric Power Automation Equipment,2013,33(10):150-156(in Chinese). [6] 张东霞,姚良忠,马文媛.中外智能电网发展战略[J].中 国电机工程学报,2013,33(31):1-14. Zhang Dongxia , Yao Liangzhong , Ma Wenyuan .Development strategies of smart grid in China and abroad[J].Proceedings of the CSEE,2013,33(31):1-14(in Chinese). [7] 宋亚奇,周国亮,朱永利.智能电网大数据处理技术现 状与挑战[J].电网技术,2013,37(4):927-935. Song Yaqi,Zhou Guoliang,Zhu Yongli.Present status and challenges of big data processing in smart grid[J].Power System Technology,2013,37(4): 927-935(in Chinese) . [8] 王德文,宋亚奇,朱永利.基于云计算的智能电网信息 平台[J].电力系统自动化,2010,34(22):7-12. Wang Dewen,Song Yaqi,Zhu Yongli.Information platform of smart grid based on cloud computing [J].Automation of Electric Power Systems,2010,34(22):7-12(in Chinese). [9] 刘树仁,宋亚奇,朱永利,等.基于Hadoop 的智能电 网状态监测数据存储研究[J].计算机科学,2013,40(1): 81-84. Liu Shuren,Song Yaqi,Zhu Yongli,et al.Research on data storage for smart grid condition monitoring using Hadoop[J].Computer Science,2013,40(1):81-84(in Chinese) . [10] 曹子健,林今,宋永华.主动配电网中云计算资源的优 化配置模型[J].中国电机工程学报,2014,34(19): 3043-3049. Cao Zijian,Lin Jin,Song Yonghua.Optimization model for resources allocation of cloud computations in active distribution networks[J].Proceedings of the CSEE,2014,34(19): 3043-3049(in Chinese) . [11] 王德文,肖凯,肖磊.基于Hive 的电力设备状态信息 数据仓库[J].电力系统保护与控制,2013,41(9):152-130. Wang Dewen,Xiao Kai,Xiao Lei.Data warehouse of electric power equipment condition information based on hive[J].Power System Protection and Control,2013,41(9):152-130(in Chinese). [12] 王德文.基于云计算的电力数据中心基础架构及其关键 技术[J].电力系统自动化,2012,36(11):67-71. Wang Dewen.Basic framework and key technology for a new generation of data center in electric power corporation based on cloud computation[J].Automation of Electric Power Systems ,2012,36(11):67-71(in Chinese) . [13] 赵俊华,文福拴,薛禹胜,等.云计算:构建未来电力 系统的核心[J].电力系统自动化,2010,34(15):1-8. Zhao Junhua,Wen Fushuan,Xue Yusheng,et al .Cloud computing :Implementing an essential computing platform for future power systems[J].Automation of Electric Power Systems ,2010,34(15):l-8(in Chinese). [14] 丁杰,奚后玮,韩海韵,等.面向智能电网的数据密集 型云存储策略[J].电力系统自动化,2012,36(12):66-70. Ding Jie,Xi Houwei,Han Haiyun,et al.A smart grid-oriented data placement strategy for data-intensive cloud environment[J].Automation of Electric Power Systems ,2012,36(12):66-70(in Chinese). [15] 张少敏,李晓强,王保义.基于Hadoop 的智能电网数 据安全存储设计[J].电力系统保护与控制,2013,41(14):136-140. Zhang Shaomin,Li Xiaoqiang,Wang Baoyi.Design of data security storage in smart grid based on hadoop [J].Power System Protection and Control,2013,41(14): 136-140(in Chinese). [16] Tom White.Hadoop 权威指南:中文版[M].曾大聃, 周傲英,译.清华大学出版社,2010. Melnik S,Gubarev A,Long Jingjing,et al.Dremel :Interactive analysis of web-scale datasets[J].PVLDB ,2010,3(1):330-339. 第3期 王德文等:电力用户侧大数据分析与并行负荷预测 537 [17] Isard M,Budiu M,Yu Yuan,et al.Dryad :distributed data-parallel programs from sequential building blocks [C]//Proc of EuroSys 2007.New York:ACM ,2007:59-72. [18] 钟清,孙闻,余南华,等.主动配电网规划中的负荷预 测与发电预测[J].中国电机工程学报,2014,34(19):3050-3056. Zhong Qing,Sun Wen,Yu Nanhua,et al.Load and power forecasting in active distribution network planning [J].Proceedings of the CSEE,2014,34(19):3050-3056(in Chinese) . [19] 毛李帆,姚建刚,金永顺,等.中长期电力组合预测模 型的理论研究[J].中国电机工程学报,2010,30(16):53-59. Mao Lifan,Yao Jiangang,Jin Yongshun,et al.Theoretical study of combination model for medium and long term load forecasting[J].Proceedings of the CSEE,2010,30(16):53-59(in Chinese). [20] 栗然,刘宇,黎静华,等.基于改进决策树算法的日特 征负荷预测研究[J].中国电机工程学报,2005,25(24):36-41. Li Ran,Liu Yu,Li Jinghua,et al.Study on the daily characteristic load forecasting based on the optimizied algorithm of decision tree[J].Proceedings of the CSEE,2005,25(24):36-41(in Chinese). [21] 李响,黎灿兵,曹一家,等.短期负荷预测的解耦决策 树新算法[J].电力系统及其自动化学报,2013,25(3):13-19. Li Xiang,Li Canbing,Cao Yijia,et al.New algorithm of short-term load forecasting according to decision tree and decoupling[J].Proceedings of the CSU-EPSA,2013,25(3):13-19(in Chinese). [22] 王保义,赵硕,张少敏.基于云计算和极限学习机的分 布式电力负荷预测算法[J].电网技术,2014,38(2):526-531. Wang Baoyi,Zhao Shuo,Zhang Shaomin.Distributed power load forecasting algorithm based on cloud computing and extreme learning machine[J]. Power System Technology,2014,38(2):526-531(in Chinese). [23] Breiman L.Random forests[J].Machine Learning,2001, 45(1):5-32. [24] 焦润海,苏辰隽,林碧英,等.基于气象信息因素修正 的灰色短期负荷预测模型[J].电网技术,2013,37(3):720-725. Jiao Runhai,Su Chenjun,Lin Biying,et al.Short-term load forecasting by grey model with weather factor-based correction[J].Power System Technology,2013,37(3):720-725(in Chinese). [25] 张素香,刘建明,赵丙镇,等.基于云计算的居民用电 行为分析模型研究[J].电网技术,2013,37(6): 1542-1546. Zhang Suxiang,Liu Jianming,Zhao Bingzhen,et al .Cloud computing-based analysis on residential electricity consumption behavior[J].Power System Technology ,2013,37(6):1542-1546(in Chinese). [26] Matei Zaharia,Mosharaf Chowdhury,Tathagata Das, et al.Resilient distributed datasets:A fault-tolerant abstraction for in-memory cluster computing[C]// Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation.USA :USENIX Association Berkeley,2012:2-2. [27] Matei Zaharia ,Mosharaf Chowdhury,Michael J,et al .Spark :Cluster computing with working sets [C]//Proceedings of the 2nd USENIX conference on Hot topics in cloud computing.USA :USENIX Association Berkeley ,2010:10-10. [28] 刘萌,褚晓东,张文,等.负荷分布式控制的云计算平 台构架设计[J].电网技术,2012,36(8):140-144. Liu Meng,Chu Xiaodong,Zhang Wen,et al.Design of cloud computing architecture for distributed load control [J].Power System Technology,2012,36(8):140-144(in Chinese) . 附录 A 笔者所在实验室搭建了电力用户侧大数据管理平台,并在该平台上实现了基于Hadoop 的电力用户侧大数据并行负荷预测原型系统,界面如图A1所示。 图A1 基于Hadoop 的并行负荷预测原型系统 Fig. A1 Parallel load forecasting prototype system based on Hadoop 收稿日期:2014-09-29。 作者简介: 王德文(1973),男,博士,副教授,研究方向为电力系统自动化与智能信息处理,wdewen@gmail.com; 孙志伟(1987),男,硕士研究生,研究 王德文 方向为大数据与电力用户用电行为分析,sunzw20120901@126.com. (责任编辑 李婧妍) 电力用户侧大数据分析与并行负荷预测 【摘 要】在科技大发展的背景下,电网建设逐渐趋向智能化,通信网络技 术、 传感技术等现代化的技术逐渐渗透到智能化电网中; 随着电力行业的不断发 展, 电力用户的数据逐渐趋向复杂化, 形成了用户侧大数据的情况, 那么电力用 户侧大数据分析与并行负荷预测也就成为了顺应社会潮流的必然趋势。 本文简单 的分析了大数据管理存在的问题, 介绍了电力用户侧大数据分析的方法以及负荷 预测的方法,以供参考。 【关键词】电力用户侧;大数据;分析;并行负荷预测 经济的迅速发展和城市化脚步的加快为电力行业的发展赢得了良好的发展 机会和广阔的发展市场, 随着人们生活水平和生活质量的提高对电力的需求量有 了更多的要求, 对电网建设的智能化有了更高的要求; 近年来越来越多的先进技 术和系统渗透到电网建设中, 数据的复杂性有了很大程度的提高, 传统的分析和 预测方法已经不能满足电力发展的需求了, 需要跟随时代的步伐不断的改进和完 善, 在自我探索的同时借鉴国外的先进技术和丰富经验, 然后结合我国电力用户 的实际情况进一步的改善,更好的对电力用户侧大数据尽心分析和预测。 1 电力用户侧大数据管理存在的问题 1.1 大数据的整合问题 大数据的整合困难最主要就是传感器在智能电网中的使用所带来的数据模 式和口径的差异。 传感器的使用主要是将电表智能化, 在物联网技术不断发展大 背景下, 电表中所产生的数据具有很大的差异, 尤其是面对庞大的数据差异系也 越来愈大, 将这些数据进行整合, 从而进行规范性的表达也就成为了亟待解决的 问题。 1.2 大数据的可用性问题 大数据的可用性受到质疑最主要的原因就是数据的真实性受到破坏。 一方面 随着电力行业的不断发展和进步, 数据采集的方式逐渐趋向多样化, 采集的通道 也逐渐丰富, 但是各个通信信道的质量存在一定的差异, 那么接受的数据也会存 在质量不一的情况, 如果质量低劣的数据用到分析和预测中, 那么电力信息的真 实性将会受到很大的影响; 另一方面是对数据的管理控制不严密, 在数据分析的 过程中很多低劣的数据展主导地位, 那么相应的信息决策也就缺乏合理性和科学 性,对整个电力行业的发展造成了严重影响。 1.3 大数据储存问题 大数据的储存问题主要是大数据与储存格式之间的矛盾。 随着智能电网中传 感器以及通信网络技术的应用,电力用户侧大数据的复杂性有了很大程度的增 转载请注明出处范文大全网 » 某地区电力负荷数据分析与预测范文三:数据挖掘在电力负荷预测中的应用
范文四:电力用户侧大数据分析与并行负荷预测
范文五:电力用户侧大数据分析与并行负荷预测