范文一:大数据行业分析报告
大数据行业分析报告
目录
一、大数据概述 . .............................................................. 1
1、大数据简介 . ........................................................... 1
2、大数据特征 . ........................................................... 1
3、大数据的技术 . ......................................................... 2
4、大数据的应用 . ......................................................... 2
5、大数据处理方法 . ....................................................... 2
二、大数据发展现状与趋势分析 . ................................................ 4
1、国外现状 . ............................................................. 4
2、国内现状 . ............................................................. 5
3、发展趋势分析 . ......................................................... 6
三、重点应用领域及行业企业分析 . .............................................. 8
1、重点应用领域 . ......................................................... 9
2、重点企业 . ............................................................ 13
3、国内运营商分析 . ...................................................... 18
四、存在问题及对策分析 . ..................................................... 19
1、数据量的成倍增长挑战数据存储能力 . .................................... 19
2、数据类型的多样性挑战数据挖掘能力 . .................................... 20
3、对大数据的处理速度挑战数据处理的时效性 ............................... 20
4、数据跨越组织边界传播挑战信息安全 . .................................... 20
5、大数据时代的到来挑战人才资源 . ........................................ 20
五、大数据方面的相关政策和法规 . ............................................. 21
1、数据生产的相关政策和法规 . ............................................ 21
2、数据共享的相关政策与法规 . ............................................ 21
3、隐私保护的相关政策和法规 . ............................................ 22
一、大数据概述
1、大数据简介
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大量新数据源的出现导致了非结构化、半结构化数据爆发式的增长。这些数据已经远远超越了目前人力所能处理的范畴,如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
2、大数据特征
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到收集、管理、处理、并整理成为帮助企业经营决策目的的咨询。大数据不单单是指数量的量大,而且包括了以下的四个方面:
首先,数据的体量(volumes )大,大数据的起始计量单位至少是P (1000个T )、E (100万个T )或Z (10亿个T ),和我们所熟知的G 相比,体量不可谓不大。其次,是数据类别(variety )大,数据来自多种数据源,数据种类和格
式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。再次,是数据处理速度(velocity )快,在数据体量庞大的情况下,也能够做到数据的实时处理。最后,是指数据的真实性(veracity )高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,信息的真实性和安全性显得极其重要。
3、大数据的技术
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。主要可分为:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等8种技术。同时,由这几种技术形成了批处理、流处理和交互分析三种计算模式。
4、大数据的应用
大数据的应用范围非常广。有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。
在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失。
在商业上,国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。
在政府决策上,分析几十年来的天气数据,将各地降雨、气温、土壤状况和历年农作物产量做成精密图表,就可以预测农产品生产趋势,政府的激励措施、
作物存储量和农业服务也可以随之确定。
5、大数据处理方法
大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
(1)、采集。大数据的采集是指利用多个数据库来接收发自客户端(Web 、App 或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL 和Oracle 等来存储每一笔事务数据,除此之外,Redis 和MongoDB 这样的NoSQL 数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。
(2)、导入/预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter 的Storm 来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
(3)、统计分析。统计与分析主要利用分布式数据库,或者分布式计算集群
来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum 、Oracle 的Exadata ,以及基于MySQL 的列式存储Infobright 等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop 。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)、挖掘。与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict )的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans 、用于统计学习的SVM 和用于分类的NaiveBayes ,主要使用的工具有Hadoop 的Mahout 等。
该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
二、大数据发展现状与趋势分析
1、国外现状
大数据的快速发展,使它成为IT 领域的又一大新兴产业。据中央财经大学中国经济管理研究员估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。
全球数据量存储情况
(1)、政府积极介入推动
2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府上非常积极,通过Data.gov 开放37万个数据集,并开放网站的API 和源代码,提供上千个数据应用。除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41个国家相应。美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位置,从国家层面推进。
(2)、资本市场对大数据钟爱有加
2012年4月,大数据分析公司Splunk 高调宣传大数据,引发投资者关注。12月初,为企业市场提供Hadoop 解决方案的创业公司Cloudera 获得6500万美元融资,估值约为7亿美元。近期,高盛联席主席斯科特. 斯坦福说:“投资大数据及其运用回报率最高”。大数据领域的企业并购热度也在上升,单笔平均并购
金额方面,大数据超过云计算位居IT 领域榜首,在总并购额上也位居第二。
(3)、人才需求巨大
盖特纳咨询公司预测大数据将为全球带来440万个IT 新岗位和上千万个非IT 岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万-49万,缺口14万-19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。
2、国内现状
目前,大数据在国内还处于初步阶段,尽管起步较晚,但发展迅速。2011年作为大数据在国内的元年,规模还只有2.6亿元,而到2013年就已达到11.2亿元,预计未来几年大数据市场将迎来高速增长期,有望突破40亿元。
2011年-2016年国内大数据市场规模
2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。其中工信部发布的《物联网“十二五”发展规划》,把信息处理技术作为四项
关键技术创新工程之一被提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外三项关键技术创新工程,包括信息感知技术、信息传输技术和信息安全技术,也都与“大数据”密切相关。
应用方面,中国三大通信运营商都在结合自身业务情况,积极推进大数据应用工作,并取得了较好的进展。电子商务企业阿里巴巴提出要做中国数据分析第一平台,通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。
企业方面,我国能够处理大数据的企业并不是很多,这主要是因为国内企业在数据库、数据仓库和商业智能等领域基础比较薄弱。但作为国内走在大数据行业前列的一些企业,技术水平也能达到较高水平,比如永洪科技在大数据、分布式计算、数据分析等领域具备核心竞争力、自主创新并拥有多项发明专利。推出的Z 系列产品在大数据的应用分析中在国际上也是领先的。
另外,还有其他的一些“大数据”相关的上市公司:
数据处理、分析环节、综合处理:拓尔思、美亚柏科;
语音识别:科大讯飞;
视频识别:海康威视、大华股份、华平股份、中威电子、国腾电子;
商业智能软件:久其软件、用友软件;
数据中心建设与维护:天玑科技、银信科技、荣之联;
IT 咨询、方案实施:汉得信息;
信息安全:卫士通、启明星辰。
数据处理、分析环节、综合处理:拓尔思、美亚柏科
大数据的热潮也触发了一场思想启蒙运动,使得“大数据是资产,不是包袱”、“要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累,不相信数据分析等认识。有了这种思维模式的改变,大数据的应用就有了希望。
3、发展趋势分析
据统计2011年全球被创建和被复制的数据总量达1.8ZB; 预计2020年全球电子设备存储的数据将增至35.2ZB 。人类社会继蒸汽时代、电气时代和网络时代后,正在加速跨进大数据时代。
大数据的发展阶段及预测
(1)、开源软件和产业垂直整合
大数据时代开源技术的发展已经可以和商用软件分庭抗礼,传统的操作系统、中间体、数据库等平台级软件的同质化趋势已经渐趋明显。最终用户的关注焦点集中如何解决企业的业务问题,而不是购买谁的数据库或者操作系统。因此,越靠近最终用户的企业,将在产业链中拥有越大的发言权。
开源软件加剧了基础软件的同质化趋势,而软、硬件一体化的趋势,进一步弱化了产业链上游的发言权。垂直整合推动大数据产业集约化的发展道路,从而
范文二:大数据行业分析报告
(2014)
江苏振邦智慧城市信息系统有限公司
2014年4月25日
大数据行业分析报告
目录
一、大数据概述 ............................................................... 1
1、大数据简介 ............................................................ 1
2、大数据特征 ............................................................ 1
、大数据的技术 .......................................................... 2 3
4、大数据的应用 .......................................................... 2
5、大数据处理方法 ........................................................ 3 二、大数据发展现状与趋势分析 ................................................. 4
1、国外现状 .............................................................. 4
2、国内现状 .............................................................. 6
3、发展趋势分析 .......................................................... 8 三、重点应用领域及行业企业分析 .............................................. 10
1、重点应用领域 ......................................................... 11
2、重点企业 ............................................................. 17
3、国内运营商分析 ....................................................... 24 四、存在问题及对策分析 ...................................................... 25
1、数据量的成倍增长挑战数据存储能力 ..................................... 25
2、数据类型的多样性挑战数据挖掘能力 ..................................... 25
、对大数据的处理速度挑战数据处理的时效性 ............................... 26 3
4、数据跨越组织边界传播挑战信息安全 ..................................... 26
5、大数据时代的到来挑战人才资源 ......................................... 26 五、大数据方面的相关政策和法规 .............................................. 27
1、数据生产的相关政策和法规 ............................................. 27
2、数据共享的相关政策与法规 ............................................. 27
3、隐私保护的相关政策和法规 ............................................. 28
大数据行业分析报告
一、大数据概述
1、大数据简介
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大量新数据源的出现导致了非结构化、半结构化数据爆发式的增长。这些数据已经远远超越了目前人力所能处理的范畴,如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
2、大数据特征
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到收集、管理、处理、并整理成为帮助企业经营决策目的的咨询。大数据不单单是指数量的量大,而且包括了以下的四个方面,
首先,数据的体量,volumes,大,大数据的起始计量单位至少是P,1000个T,、E,100万个T,或Z,10亿个T,,和我们所熟知的G相比,体量不可谓不大。其次,是数据类别,variety,大,数据来自多种数据源,数据种类和格
1
大数据行业分析报告
式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。再次,是数据处理速度,velocity,快,在数据体量庞大的情况下,也能够做到数据的实时处理。最后,是指数据的真实性,veracity,高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,信息的真实性和安全性显得极其重要。
3、大数据的技术
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。主要可分为,数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等8种技术。同时,由这几种技术形成了批处理、流处理和交互分析三种计算模式。
4、大数据的应用
大数据的应用范围非常广。有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。
在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失。
在商业上,国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。
在政府决策上,分析几十年来的天气数据,将各地降雨、气温、土壤状况和
2
大数据行业分析报告
历年农作物产量做成精密图表,就可以预测农产品生产趋势,政府的激励措施、作物存储量和农业服务也可以随之确定。
5、大数据处理方法
大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
,1,、采集。大数据的采集是指利用多个数据库来接收发自客户端,Web、App或者传感器形式等,的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。
,2,、导入/预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3
大数据行业分析报告
,3,、统计分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
,4,、挖掘。与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测,Predict,的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
二、大数据发展现状与趋势分析
1、国外现状
大数据的快速发展,使它成为IT领域的又一大新兴产业。据中央财经大学中国经济管理研究员估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。
全球数据量存储情况
4
大数据行业分析报告
,1,、政府积极介入推动
2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府上非常积极,通过Data.gov开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41个国家相应。美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位置,从国家层面推进。
,2,、资本市场对大数据钟爱有加
2012年4月,大数据分析公司Splunk高调宣传大数据,引发投资者关注。12月初,为企业市场提供Hadoop解决方案的创业公司Cloudera获得6500万美元融资,估值约为7亿美元。近期,高盛联席主席斯科特.斯坦福说,“投资大数据及其运用回报率最高”。大数据领域的企业并购热度也在上升,单笔平均并购
5
大数据行业分析报告
金额方面,大数据超过云计算位居IT领域榜首,在总并购额上也位居第二。
,3,、人才需求巨大
盖特纳咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万-49万,缺口14万-19万人,需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。
2、国内现状
目前,大数据在国内还处于初步阶段,尽管起步较晚,但发展迅速。2011年作为大数据在国内的元年,规模还只有2.6亿元,而到2013年就已达到11.2亿元,预计未来几年大数据市场将迎来高速增长期,有望突破40亿元。
2011年-2016年国内大数据市场规模
2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。其中工信部发布的《物联网“十二五”发展规划》,把信息处理技术作为四项
6
大数据行业分析报告
关键技术创新工程之一被提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外三项关键技术创新工程,包括信息感知技术、信息传输技术和信息安全技术,也都与“大数据”密切相关。
应用方面,中国三大通信运营商都在结合自身业务情况,积极推进大数据应用工作,并取得了较好的进展。电子商务企业阿里巴巴提出要做中国数据分析第一平台,通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。
企业方面,我国能够处理大数据的企业并不是很多,这主要是因为国内企业在数据库、数据仓库和商业智能等领域基础比较薄弱。但作为国内走在大数据行业前列的一些企业,技术水平也能达到较高水平,比如永洪科技在大数据、分布式计算、数据分析等领域具备核心竞争力、自主创新并拥有多项发明专利。推出的Z系列产品在大数据的应用分析中在国际上也是领先的。
另外,还有其他的一些“大数据”相关的上市公司,
数据处理、分析环节、综合处理,拓尔思、美亚柏科,
语音识别,科大讯飞,
视频识别,海康威视、大华股份、华平股份、中威电子、国腾电子,
商业智能软件,久其软件、用友软件,
数据中心建设与维护,天玑科技、银信科技、荣之联,
IT咨询、方案实施,汉得信息,
信息安全,卫士通、启明星辰。
数据处理、分析环节、综合处理,拓尔思、美亚柏科
7
大数据行业分析报告
大数据的热潮也触发了一场思想启蒙运动,使得“大数据是资产,不是包袱”、“要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累,不相信数据分析等认识。有了这种思维模式的改变,大数据的应用就有了希望。 3、发展趋势分析
据统计2011年全球被创建和被复制的数据总量达1.8ZB;预计2020年全球电子设备存储的数据将增至35.2ZB。人类社会继蒸汽时代、电气时代和网络时代后,正在加速跨进大数据时代。
大数据的发展阶段及预测
,1,、开源软件和产业垂直整合
大数据时代开源技术的发展已经可以和商用软件分庭抗礼,传统的操作系统、中间体、数据库等平台级软件的同质化趋势已经渐趋明显。最终用户的关注焦点集中如何解决企业的业务问题,而不是购买谁的数据库或者操作系统。因此,越靠近最终用户的企业,将在产业链中拥有越大的发言权。
开源软件加剧了基础软件的同质化趋势,而软、硬件一体化的趋势,进一步弱化了产业链上游的发言权。垂直整合推动大数据产业集约化的发展道路,从而
8
大数据行业分析报告
最大限度的获得商业利润。
,2,、非结构化大数据处理分析成为难点和重点
随着互联网和通信技术的迅猛发展,数据类型早已不是单一的结构化数据,还充斥着广泛存在于社交网络、物联网、电子商务等之中网络日志、音频、视频、图片、地理位置信息等等多类型的数据。这些数据被命名为非结构化数据。据统计,85%的数据都属于非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。但是现有的数据处理方法仅适用于结构化数据,无法将大量的非结构化数据与结构化数据进行统一、整合,从而就无法发掘数据中的价值。
目前国内在非结构化大数据挖掘分析方面,在社会化计算领域,针对于微博数据取得一定的实用性进展,并形成了一定的市场规模。如社会化媒体云服务平台,它是建立在TRS大数据分析挖掘系统基础上的大型在线服务平台,该服务面向政府、企事业单位和个人,以在线云服务的方式提供信息监测、统计分析、关系挖掘、传播效果评估等一系列服务。
,3,、机器数据挖掘成为一个重要的发展方向
大数据中,机器数据是最大且增长最快的一部分。每个现代企业机构,无论规模大小,都会产生海量的机器数据,利用这些数据是目前机构或企业的关键任务。
目前国外有代表性机器数据挖掘厂商为Splunk,Splunk针对IT运维、信息安全、交易分析等方面提供业界领先解决方案与产品。通过运用专利数据分析技术,提供多种产品以满足各行各业用户在关键业务的运营保障、安全确保及业务分析方面的需求。如今,国内一些厂商也在开发类似的机器挖掘产品,希望填补
9
大数据行业分析报告
国内空白。
,4,、大企业的定制化解决方案
大数据软件技术起源于以国外Google、Yahoo等巨头公司的分布式计算平台,并随着这些技术的开源基础架构,在国内互联网公司中得到广泛定制化应用。所以目前大数据软件和应用的特点体现出开源和多样性的特点。一些拥有海量数据的大企业,并没有互联网公司那样的大数据系统部署能力,因此这一需求推动了大数据标准化和产品化解决方案市场的发展。
在国外市场,已经出现了以提供企业级大数据软件产品的公司,如Cloudera公司提供基于Hadoop企业版大数据解决方案。在国内,一些厂商也把海量非结构化信息处理技术和Hadoop架构进行有效结合集成,并结合企业在大数据采集、存储、分析挖掘、可视化方面的具体需求,开发企业级大数据分析挖掘系统。推动大数据分析系统在企业的落地。
三、重点应用领域及行业企业分析
大数据技术的创新与应用,不仅能够应对数据爆炸带来的挑战,还能够创造出巨大的价值、提升社会生产率,因此大数据必将发展成为重要的新兴产业。在整个大数据的发展过程中,不但在各个应用领域有大数据手段的涉入,在大数据产业链中的各段都涌现出大批的大数据企业。
大数据产业链全景图
10
大数据行业分析报告
分布式文件系统:Hadoop数据租售:中国电信,百度数据挖掘:SPSS,SAS,NCR分布式计算系统:MapReduce分析与预测服务:SAS,IBM数据统计:Excel,SPSS数据库:Oracle,Sybase,人大金仓决策支持服务:SAP,金蝶数据检BI:IBM,Oracle,和勤软件AI:IBM,Google,TCL数据仓库:Oracle,SAS,明天高软索,用友模型计算内容/知识管理:Vignette,Eprise数据转换工具:ADI,Chrontel数据分享平台:阿里巴巴数据可视化:Style Scope,Space数据安全:Symantec,Macfee数据分析平台:Amazon,Google
组织与管理层分析与发现层应用与服务层
IT基础设施
存储设备运算设备一体机基础软件IT服务
虚拟化PC服务器DAS专家系统规划咨询NAS中间体小型机大数据一体机系统集成SAN并行运算大型机集装箱数据中心云存储磁带库HPC数据安全 1、重点应用领域
,1,、公共领域
据《证劵日报》市场研究中心统计分析发现,目前我国在公共领域对大数据的运用主要集中在电力行业、智能交通、电子政务和司法系统四个方面。
电力行业,大数据对该行业的应用主要体现在智能电网上,通过获取人们的用电行为信息,智能电网能实现优化电的生产、分配以及消耗,有利于电网安全监测与控制、客户用电行为分析与客户细分。
智能交通,交通运输部将对公共交通信息化应用系统建设、相关支撑系统建设、数据资源与交换系统建设提供资金支持。
电子政务,通过政府信息化,大数据能够提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,节约决策的成本。
司法系统,公安市场大规模的信息化和装备投资产生了海量的非结构化数据,公安的实战应用是大数据的重要应用领域。
公共领域行业大数据案例
11
大数据行业分析报告
案例名称 车队优化解决方案
随着车辆的保有量不断激增,对海量车辆数目与相关数据的管理和优项目背景 化提出了更高的要求。需要跟踪和监测车辆,保持与车队操作人员的
交流,利于灵活调度、提高利用率。
依靠优秀的WebShpere、Tivoli、Maximo技术和相关实施和应用,对项目内容 车辆本身和周边的各种仪器所采集的信号信息数据进行收集,在通过
大数据手段分析处理后,为车辆的管理者提供有价值的分析结果,帮
助他们做出决定,改善和提升业务。
项目成果 做到了快速实时的需求访问并获得准确数据,通过对大数据的分析可
做出车辆保修问题的早期洞察,提高维修效率。减少车辆停滞时间,
节省燃料成本。
总结 对车辆进行跟踪和管理,解决了智慧交通所存在的问题
,2,互联网
互联网作为一个数据平台、一个数据集散地,聚集了海量的数据,完全可以借助新的大数据理论和技术,分析其中蕴含的丰富内容、发现其中存在的统计规律,以便为互联网提供更好的服务和应用、为互联网行业今后实现更好更快的持续发展提供定量化的依据。
大数据在互联网领域的应用现状及未来发展,
电子商务
利用大数据理论和技术,对网络购物、网络消费、网络团购、网上支付等数据进行深度挖掘、深入分析,可以发现大量有价值的信息和统计规律,对布局和推动今后中国互联网经济的健康有序发展、对进一步规范经营者和消费者的电子
12
大数据行业分析报告
商务活动、加强国家对该领域的宏观调控和监管等,均将产生积极的影响。
网络广告
利用大数据理论和技术,可深入分析网络广告的效果及其对商品销售等的影响、广告“读者”对之的反应等。
网络新闻、搜索引擎
利用大数据理论和技术,通过对网民搜索内容、习惯、爱好、关键词等深入分析,可为新闻门户网站的建设、搜索引擎技术的改进、互联网舆情的监控与引导等提供依据。
旅行预订
利用大数据理论和技术可以对旅行预订数据进行深入、精细分析,为更好的布局和旅游经济发展、更好的为游客提供产品和服务等提供参考和依据。
社交网络
利用大数据进行深入分析,可更好的发现民众新的交往习惯与方式、民众关注的社会问题与社会热点、民情民意,为改善互联网时代的通信和社交服务提供参考。
网络视频、网络音乐和网络游戏
通过大数据平台收集用户的行为数据,通过分析理解每个用户的动机和潜在价值,来调整视频网站、音乐网站和游戏的设计,并对这些用户行为进行实时自动营销,以更好的满足用户需求。同时基于行为数据对用户细分后,还可以进行跨领域的用户营销,对不同用户类型推送不同类型的游戏、视频和音乐。
互联网行业大数据案例
案例名称 Facebook广告精准投放
13
大数据行业分析报告
项目背景 互联网公司收入主要来源依靠广告,要吸引更多厂商的广告,互联网
公司需要增加用户粘性,提高用户体验
1、Facebook通过追踪用户在线社交行为,包括用户的喜怒以及好友项目内容 信息,积累了海量用户行为和网络群组关系数据。
2、Facebook对数据进行分类,整理,分析,进而对用户归类,实时
发现用户群。
3、根据不同的群组,Facebook为用户推送他们可能潜在感兴趣的广
告。
1、2009年到2010年,Facebook在互联网广告市场中的份额翻了一
番,2011年又比2010年增长了95%。
项目成果 2、Facebook的广告业务增速是Google的3倍多。
3、2006年和2010年期间,Facebook是互联网广告市场上唯一一家
市场份额稳步增长的公司。
总结 大数据技术使Facebook对于用户理解越来越深入,广告投放也就越
精准,广告价值也就越高。
,3,、智慧城市
智慧城市要体现人类社会对现代城市和运营管理新的科技发展的水平,它必然来自于对大数据的充分分析和利用,大数据源于非结构数据的猛增包括互联网的发展,使得数据级不断提高。因此如何对数据进行分析和利用,促进人类智慧运用管理城市,这是面临的挑战。智慧城市建设迫切使用先进的技术包括数据挖掘和功能的强大的运算系统,从而来整合分析跨地域、跨行业、跨部门的海量数据的处理,将特定的知识应用于特定的行业和特定的解决方案中,来支持智慧城
14
大数据行业分析报告
市建设的决策和相关行动。
将大数据应用与智慧城市的建设中,将迎来五大转变,
化被动为主动,传统模式下人们往往是被动处理各类紧急事件,而大数据模式下将提供预测、预警机制,可主动部署人力,调动资源。
化僵化为灵活,传统统计报表多为一天一生成或一月一生成,程序僵化、变动不易,而大数据模式下用户可自由生成各种统计报表,而无需系统事先预制报表。
化低效为高效,传统模式下的海量数据模糊查询和统计分析无法达到用户的实时使用需求,而大数据模式则提供秒级响应的用户体验。
化单一为互动,传统的数据应用多为单表挖掘分析,一旦涉及跨表就会因效率问题而无能为力,而大数据模式则擅长复杂的跨表关联分析,推动数据串并关联,产生更大价值。
化粗放为精细,原来粗放的数据访问每次可查询的内容较少,为达到目的需多次操作,而精细化的数据访问可由系统自动关联并推送信息服务,用户一次查询可获得丰富的信息内容。
智慧城市行业大数据案例
案例名称 宝德大数据构建智慧城市
项目背景 智慧城市建设迫切使用先进的技术包括数据挖掘和功能的强大的运算
系统,从而来整合分析跨地域、跨行业、跨部门的海量数据的处理
1、通过大数据收集智慧城市相关信息,包括位置、客户需求、在线数
据等,从而实现基于位置的服务、社会化推荐、趋势分析、客户分析
等经数据挖掘与分析后的内容。
15
大数据行业分析报告
项目内容 2、使用大数据的手段,通过对机器生成数据进行分析,可是实现24
小时不间断运转达到实时分析,通过大量数据的收集实现模式挖掘,
通过快速反应实现流式分析。
1、实施方案后,在智慧城市的建设过程中,手段更加灵活,操作更加
便捷,环境更加安全。
项目成果 2、更利于实现多方广泛合作,使城市更加具有吸引力,污染更少,社
会服务更加完善。
总结 在智慧城市的建设过程中,会产生大量的非结构化数据,在大数据的
模式下,通过海量数据的挖掘和分析,可以使智慧城市建设更加具有
目的性。
,4,、金融行业
互联网金融是当下的一个热词,言下之意是指利用互联网技术、大数据思维进行的金融业务再造。总体而言体现在两个方面,一是金融机构依靠互联网技术和思维自我变革,二是互联网企业跨界开展金融服务。
目前,以大数据为代表的新型技术将在两个层面改造金融业。一是金融交易形式的电子化和数字化,具体表现为支付电子化、渠道网络化、信用数字化,是运营效率的提升,二是金融交易结构的变化,其中一个重要表现便是交易中介脱媒化,服务中介功能弱化,是结构效率的提升。伴随着大数据应用、技术革新及商业模式创新,金融业中的银行和卷商也迎来巨大的转变。此外,腾讯、阿里巴巴等互联网企业也在凭借其强大的数据积累和客户基础,进军金融业,开拓新的盈利点,这也成为金融产品在线销售的一大推动力。
金融行业大数据案例
16
大数据行业分析报告
案例名称 中信银行信用卡中心实现秒级营销
项目背景 如何有效管理和利用不断增长的客户数据,满足业务发展需求,提高
业务竞争力,是当前银行业数据库应用的最大挑战
3、某厂商为中信银行信用卡中心提供了统一的客户视图,借助客户统
一视图,中信银行信用卡中心可以更清楚的了解其客户价值体系,从
而开展更有针对性的营销活动。
项目内容 4、基于数据仓库,中信银行信用卡中心现在可以从交易、服务、风险、
权益等多个层面分析数据。
5、通过提供全面的客户数据,营销团队可以按照低、中、高价值对客
户进行分类,根据银行整体经营策略,积极的提供相应的个性化服务。
3、实施方案后,中信银行信用卡中心实现了近似实时的商业智能,BI,
和秒级营销,运营效率得到全面提升。
项目成果 4、中信银行信用卡中心通过其数据库营销平台全年进行了1286次宣
传活动,每次营销活动配置平均时间从以前的两周缩短到两天。 总结 通过提取分析信用卡中心的数据,中信银行实现了业务创新,同时提
高了运营效率,节省了成本。
2、重点企业
当前主要大数据厂商的收入情况
厂商 大数据收入(百万美元) 总收入(百万美元) 大数据收入占比
IBM 1100 106,000 1%
Intel 765 54,000 1.4%
HP 550 126,000 0.4%
17
大数据行业分析报告
Oracle 425 36,000 1.2% Teradate 220 2,200 10%
Dell 150 61,000 0.2% EMC 140 19,000 0.7%
SAP 85 17,000 0.5% 华为 73 21,800 0.3% 西门子 69 102,000 0.06% Splunk 45 63 68% 1010data 25 30 83% Cloudera 18 18 100% Total 5156 866,049 0.6%
从收入规模上来说,当前大数据市场的领导者是IBM、Intel以及HP,现对大数据市场中的部分重点企业进行分析。
(1)、IBM
2010年11月,斥资17亿美元收购数据分析公司Netezza,该企业的数据仓库产品有效的整合数据库内分析和并行网络架构。
2011年5月,发布专门针对大数据分析的平台产品。
2011年10月,在SPSS统计工具软件中增加视图和分析数据功能,从而帮助企业利用地理信息。
2012年2月,推出一体机分析工具IBM Netezza Customer Intelligence
Appliance,该工具可以进行快速复杂的实时分析。
2012年4月,收购Varicent Software,Varicent软件能够自动收集财务、销售、人力资源等部门的数据,并形成分析报告。
2012年4月,宣布收购Vivisimo公司,Vivisimo软件帮助客户搜索及深度挖掘大数据,且直观呈现数据。
18
大数据行业分析报告
2012年5月,收购Tealeaf Technology,该公司开发用于分析消费者网络数据的软件公司。
2013年4月,宣布和搜狗公司,以下简称“搜狗”,合作成立联合实验室,共享平台、技术资源和人才以研发基于 System x 的下一代数据中心和大数据运算平台。
2013年11月,展示了企业级大数据和分析基础架构平台——IBM Power Systems。
IBM
市场定位 提供服务器、数据库软件、专家系统等一体化解决方案,覆盖整个大数
据行业
1、Infosphere BigInsights和InfoSphere Stream
解决方案 2、信息管理产品
3、业务分析产品
给用户带在云计算架构上整合软、硬件技术,强大且全面的信息管理、数据分析来的价值 软件,及专业的咨询队伍,为客户提供更加简易、及时的数据分析、挖
掘和决策服务
分析 IBM的大数据战略布局全面,注重商业分析功能的提升,近几年收购
30多家商业分析领域的公司
,2,、Oracle
2010年12月,第二版Oracle Exadata数据库机更名为“Oracle Exadata数据库云服务器”,该系统集成数据库软件、硬件服务器及存储设备。
2011年10月,宣布推出Oracle Exalytics商务智能云服务器。
19
大数据行业分析报告
2012年1月,发布Oracle大数据机,包含Oracle NoSQL数据库、Cloudera的分布式Hadoop及开源R编程语言。
Oracle
市场定高度集成,为用户提供端对端的大数据解决方案。
位
1、大数据机、Oracle Exalogic中间件云服务器、Oracle Exadata数据解决方库云服务器及Oracle Exalytics商务智能云服务器构成一个高度集成化案 产品组合。
2、为以上系统提供一线支持。
给用户全面集成软硬件产品,帮助客户洞察数据及挖掘数据的商业价值。 带来的
价值
分析 Oracle大数据战略清晰明了,通过软硬一体化的集成设备为客户提供应
用最广泛、高度集成化的系统产品组合,为企业用户提供端到端的大数
据解决方案。
,3,、EMC
2010年7月,宣布收购数据仓储技术提供商Greenplum公司。
2011年5月,推出世界最大的单一文件系统,发布Isilon IQ 108NL硬件产品和SmartLock数据保留软件应用。
2011年12月,推出支持大数据分析的平台EMC Greenplum统一分析平台,UAP,。
2012年3月,收购软件开发公司Pivotal Labs。
20
大数据行业分析报告
2012年4月,发布数据科学的社交平台Greenplum Chorus。
2013年2月,推出RSA信息安全智能分析平台,该平台以RSA NetWitness技术架构为基础,将SIES、网络取证和大数据分析融合到一个平台之中。
EMC
市场定充分发挥存储、管理和保护方面的优势,利用云计算开放式、分布式和位 集群技术处理大数据
解决方统一的大数据分析平台UAP包括EMC Greenplum关系数据库、EMC 案 Greenplum HD Hadoop发行版和EMC Greenplum Chorus 给用户针对大数据提供分析工具、服务,及强大的扩展性和开源的生态系统 带来的
价值
分析 EMC在数据存储、管理和保护方面优势明显。此外,数据团队和分析团
队可以在统一的软件平台上共享信息、协作分析,无需在不同平台间转
移数据。
,4,、SAP
2010年12月,发布高性能分析应用软件SAP HANA。
2012年3月,推出全新升级的SAP Business One 8.82产品,该产品可部署在SAP HANA平台上,满足成长型企业数据分析需求。
2012年4月,公布关于HANA数据库平台及数据库提供商Sybase的近期及长期规划,重点关注大数据的处理。
2012年4月,推出预测性分析软件SAP Business Objects Predictive
Analysis帮助客户实现预测性建模和高级可视化。
21
大数据行业分析报告
SAP
市场定具有内存计算技术的HANA能够快速高效处理海量数据,满足不同行业位 大型和成长型企业的需求
解决方1、HANA能够快速处理大企业的海量数据
案 2、SAP Business One 8.82可部署在SAP HANA平台上满足成长型企
业数据分析需求
给用户帮助用户以简捷的方式快速获取实时信息,提高预测和规划的能力 带来的
价值
分析 HANA是一个开放性的开发合作平台,容易获得硬件系统厂商的支持
,5,、惠普
2010年9月,收购存储企业3PAR,成为增长最快的高端存储平台。
2011年2月,收购分析及数据管理软件公司Vertica,该公司主要开发用于存储和查询数据库的数据管理解决方案。
2011年8月,收购英国第二大软件厂商Autonomy,该公司擅长基于语义计算的数据处理和数据挖掘。
惠普
市场定通过将原有的技术能力和3Par、Autonomy、Vertica的技术能力技能融位 合创新,实现大数据价值链的全覆盖
1、HP Storeonce全新重复数据删除,实现高速备份和数据恢复能力。 解决方2、采用Autonomy Intelligent Data Operating Layer 10的HP Data 案 Protector 7,让企业使用网络点击流量、浏览及交易数据。
22
大数据行业分析报告
3、Vertica分析平台,让企业能在任何地点、使用任何接口分析和管理
各种信息
给用户帮助用户更短时间保护更多数据,从而在数据爆发式增长时更好的应对带来的风险
价值
分析 大数据布局全面,实现大数据价值链的全覆盖
,6,、淘宝
2008年9月,宣布开放平台计划,“淘园”,,第三方开发者可以通过开放接口访问淘宝数据。
2010年3月,宣布向全球分层次开放数据,向普通消费者免费提供涉及电子商务行业的宏观数据。
2011年8月,支持海量数据的数据库系统OceanBase遵照GPL2开源。
2011年9月,完全开放所有零售形态,连接外部B2C电商平台,该策略包括品牌商、供应商、零售商等。
淘宝
市场定掌握了大量的交易数据,为商家提供各类数据服务
位
1、数据魔方平台。商家可以利用该平台了解行业宏观情况、品牌的市场解决方状况、消费者行为等消息。
案 2、与第三方研究机构合作,研究机构直接向商家提供服务。 给用户商家能够以较低的成本及时获取可靠数据,并且利用这些数据服务了解市带来的场、顾客需求,从而改善自己的产品与运营策略
23
大数据行业分析报告
价值
分析 相比商家实地调研,数据产品成本较低、来源可靠、实时性强。拥有大量
数据资源,是天生优势
3、国内运营商分析
,1,、中国联通
2012年中国联通成功将大数据和Hadoop技术引入到“用户上网记录集中查询与分析支撑系统”,并已经部署了4.5PB的存储空间。系统已经具备了每天处理700亿条上网记录的能力,每天新增数据量达20多个TB,每年以70%的速度在递增。通过该大数据项目,联通在全球运营商中率先提供了用户上网记录的清单查询服务,为移动互联网时代移动上网流量的明明白白消费提供了技术上的保证。同时,也为中国联通的移动互联网业务精细化运营、流量提升、移动网络规划和优化提供了有效支撑。
,2,、中国移动
中国移动在大云1.5平台上部署了分析型PaaS产品,利用BC-Hadoop构建大数据处理平台,并在英特尔至强+Hadoop平台上运行,同时建设了并行数据挖掘系统以及商务智能平台等大数据应用平台,为将来在大数据应用和服务市场做了充分准备。
,3,、中国电信
从2009年开始中国电信成立的八大基地,在运营过程中都用到了大数据的概念。目前为止中国电信在全国拥有300座以上的机楼,计算能力已经超过了100万处理器核心,存储能力已经达到EB的级别。
24
大数据行业分析报告
中国电信提出了大数据发展思路,并以综合平台、智能管道为依托,以丰富大数据为基础,聚焦重点大数据应用,特别是聚合更有价值的四大大数据商业应用模式,依托自身核心业务,以实现利润最大化。中国电信最有价值的大数据应用表现在四方面,语音数据分析、视频数据分析、流量分析和位置数据分析。
四、存在问题及对策分析
大数据带来战略机遇的同时,也带来了不可忽视的一系列挑战。 1、数据量的成倍增长挑战数据存储能力
大数据及其潜在的商业价值要求使用专门的数据库技术和专用的数据存储设备,传统的数据库追求高度的数据一致性和容错性,缺乏较强的扩展性和较好的系统可用性,不能有效存储视频、音频等非结构化和半结构化的数据。目前,数据存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构成为信息系统的关键。
2、数据类型的多样性挑战数据挖掘能力
从数据库的观点看,挖掘算法的有效性和可伸缩性是实现数据挖掘的关键,而现有的算法往往适合常驻内存的小数据集,大型数据库中的数据可能无法同时导入内存,随着数据规模的不断增大,算法的效率逐渐成为数据分析流程的瓶颈。要想彻底改变被动局面,需要对现有架构、组织体系、资源配置和权力结构进行重组。
25
大数据行业分析报告
3、对大数据的处理速度挑战数据处理的时效性
随着数据规模的不断增大,分析处理的时间相应地越来越长,而大数据条件下对信息处理的时效性要求越来越高。传统的数据挖掘技术在数据维度和规模增大时,需要的资源呈指数增长,面对PB级以上的海量数据,处理大数据需要简单有效的人工智能算法和新问题求解方法。
4、数据跨越组织边界传播挑战信息安全
随着技术的发展,大量信息跨越组织边界传播,信息安全问题相伴而生,大量出现的数据不但有没有价值的,同时包括很多保密数据和隐私数据,国家安全、知识产权、个人信息等都面临着前所未有的安全挑战。在大数据时代,犯罪分子获取信息更加容易,人们防范、打击犯罪行为更加困难,这对数据存储的物理安全性以及数据的多副本与容灭机制提出了更高的要求。要想应对瞬息万变的安全问题,最关键的是算法和特征,如何建立相应的强大安全防御体系来发现和识别安全漏洞是保证信息安全的重要环节。
5、大数据时代的到来挑战人才资源
从大数据中获取价值至少需要三类关键人才队伍,一是进行大数据分析的资深分析性人才,二是精通如何申请、使用大数据分析的管理者和分析家,三是实现大数据的技术支持人才。此外,由于大数据涵盖内容广泛,所需的高端专业人才不仅包括程序员和数据库工程师,同时也需要天体物理学家、生态学家、数学和统计学家等。可以预测,在未来几年,资深数据分析人才短缺问题将越来越突显。同时,需要具有前瞻性思维的实干型领导者,能够基于从大数据中获得见解
26
大数据行业分析报告
和分析,制定相应策略并贯彻执行。
五、大数据方面的相关政策和法规
1、数据生产的相关政策和法规
在互联网数据生产上,主要遵循《互联网信息服务管理办法》,主要限制互联网信息服务提供者不得制作、复制、发布和传播危害国家、社会秩序、不健康信息或侵害他人权益的信息。
针对企业或机构自行采集或生产数据,在数据未公开或利用前,没有明确的政策及法规。相关政策法规主要集中在数据的利用上。当数据被公开、泄露或不正当利用时,需要符合相关的政策法规。
2、数据共享的相关政策与法规
在数据共享上,国外发达国家的各政府部门都制定了相应的“研究数据政策”,对科学数据的保存与管理等作了明确具体的规定。美国对政府拥有和政府资助生产的数据采用“完全与开放”的共享政策,《信息自由法》和《版权法》规定不允许联邦政府拥有版权,信息服务的收费最多不超过服务本身的成本,对信息的二次开发利用没有限制。欧洲国家主要采取“成本回收模式”发布共享数据,有关部门将持有的信息采取有偿共享或商业化运作方式,从市场上收回数据创建和收集的成本,相关法规有1995年的《数据库法律保护指令》。
我国政府也非常重视科学数据的管理与共享,编制了“科学数据共享工程建设规划”,制定了《科学数据共享条例》、《国家科技计划项目科学数据汇交办法》、
27
大数据行业分析报告
《科学数据共享工程管理办法》、《科学数据共享工程试点遴选和检查评估办法》和《科学数据分类分级共享及其发布策略》等一系列数据共享的政策法规。然而,与国外发达国家相比,我国科学数据共享的政策还不够完善,已制定的相关条例法规缺少相应的法律效力,限制了科学数据的广泛共享。
在数据的版权方面,根据《世界知识产权组织版权条约》及我国著作权法规定,数据内容不管是否受版权保护,只要其内容的选取或编排构成智力创造,便享有版权。但在大数据时代下,许多数据的版权鉴定依然模糊,缺乏清晰完善的法规作为指导。
3、隐私保护的相关政策和法规
Web技术的发展使得搜集各种用户个人信息变得更加容易,用户经常很难控制他们个人信息的收集、存储、利用甚至出售。隐私问题是大数据的主要挑战。
目前,国内没有个人数据保护方面的立法,也没有专门的个人隐私法。我国现行法律对隐私权的保护较为滞后,还没有形成完整的法律体系,仅在一些相关的法律中有些零散的规定。如《计算机信息网络国际联网管理暂行规定实施办法》、《计算机信息网络国际联网安全保护管理办法》、《中华人民共和国电信条例》。但从总体上看,隐私权还没有成为我国法律体系中一个独立的人格权,对隐私权的保护以及侵害隐私权的诉讼也没有形成专门的法律制度,在执行上经常难以具体操作。
28
范文三:大数据平台分析报告
密级:内部公开
环境数据中心
大数据平台分析
Big data platform analysis SOFTWARE PRODUCTFPI-Company
聚光科技(杭州)股份有限公司
目 录
1. 大数据背景............................................................................................................... 1
1.1. 什么是大数据................................................................................................ 1
1.2. 发展现状........................................................................................................ 1
1.3. 大数据的应用................................................................................................ 2
2. 大数据平台介绍....................................................................................................... 4
2.1. 定位................................................................................................................ 4
2.1.1. 产品概述............................................................................................ 4
2.2. 功能................................................................................................................ 4
2.3. 设计................................................................................................................ 4
2.4. 技术.............................................................................. 错误!未定义书签。
2.5. 总结................................................................................................................ 4
3. 环境数据中心........................................................................................................... 5
3.1. 背景定位........................................................................................................ 5
3.2. 功能................................................................................................................ 5
3.2.1. .............................................................................................................. 5
3.2.2. ............................................................................ 错误!未定义书签。
3.3. 设计................................................................................................................ 6
3.4. 技术.............................................................................. 错误!未定义书签。
4. 总结........................................................................................................................... 6
1. 大数据背景
1.1. 什么是大数据
大数据最早在上世纪90年代被提出,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
现在,业界普遍认同所谓“大数据”具有明显的“3V 特征”:量级(V olume ),速度(Velocity )和多样性(Variety )。大数据普遍具有量级大,要求处理速度快,数据本身具有丰富的多样性。在甲骨文公司和中国移动研究院的相关研究文档里,都追加了第四个V ——Value ,价值;而IBM 在其相关文档中给出的第四个“V ”则是真实性(Veracity) 。
大数据的价值:在海量的规则或不规则数据之中,用新的数据处理手段,以很快的速度计算或分析出潜在规律性、根本性的判断、趋势或预见。
1.2. 发展现状
随着移动互联网的带宽的增加和智能设备销售量的上升,互联网业迎来了“云计算”和“大数据”。世界经济论坛一份有关大数据的研究报告称,每天全球几十亿人使用计算机、GPS 设备、电话和医疗设备,产生海量的数据信息。这些用户大部分来自发展中国家,他们的需求和习惯尚未被真正理解,如果能够借助大数据相关技术分析和挖掘数据背后的信息,将有助于认识需求、提供预测和防范危机。
大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率。数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以AaaS (分析即服务)为主要标志的Cloud 2.0时代。
1.3. 大数据的应用
大数据的开发与应用有着三个特点:
1、数据样本,不再是抽样,而就是数据的总体。分析数据是把所有搜集到的数据包括在内。
2、数据不必百分之百地准确,不必剔除特例,而是从“海量”的数据中总结出绝大部分人的共同特性。用“绝大多数的特性”代表“总体的特性”。
3、不再注重数据之间的“因果性”,而只注重于它们之间的“相关性”。
在《大数据时代》中举了很多实例讲解以上的观点。
1、语言的翻译:
传统翻译软件是设定了很多的语法规则,用这些僵化的规则拆解每个句子,然后再逐字翻译生成不同语文的语句。但这往往使翻译出来的语句非常生硬拗口,甚至错误率极高。业界还盛传一个有关微软公司“机器翻译部门”的一个笑话:部门每有一个语言专家辞职,翻译质量就会提高一些。
谷歌的翻译软件却不是这么做,他们翻译团队的成员大多不但不是语文学家,甚至连翻译成的那种语言都一窍不通。他们都是一些统计学家,从大量的已存的翻译文章中对比,寻求规律,然后产生翻译的文字。事实证明虽然网上搜集来的翻译文章有不少是错误的,是低质量的,但由于数据量极大,这些错误自然就被忽略了,这种方法的确大大提高了翻译的质量和准确性。也就是说“不百分之百”精确的大数据用简单算法比精确的小数据用复杂算法要有效地多!
2、流感的预测
以前卫生单位发布流感成灾的信息,往往都是从各大医院和卫生所搜集来的数据,这个方法的最大缺点是“信息是滞后的”,但是“灾”已成事实了,卫生单位才警告社会,这时已经有很多人被感染。
又是谷歌提出了不同的预测办法。他们是以有多少人搜索“咳嗽怎么办? ”或“发烧怎么办? ”来警示流感可能发生了。但除了注意到搜索这些词语的频率大幅增高外,还可以锁定是哪个区域的人开始大量搜索这类问题的答案。于是谷歌就能提早告诉大众有流感开始盛行,而且传染区是向哪个方向迁移。这个
项目使得卫生单位及早研制预防疫苗,及早控制疫情的扩散,大幅降低了流感的传播。
3、飞机票价高低和多早预购的关系
也许大家会直觉地认为越早买机票就越可以买到较便宜的机票。一家叫Farecast 公司的创始人从他的亲身经验启发了一个新的服务。他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低。于是他搜集了所有航空公司的票价与提前订购时间的数据关系,并建立了数学模型。现在我们任何人可以上到他的网站:farecast.com ,输入你的出发地和目的地,加上你要出发的时间,马上这个网页能告诉你是现在就赶快买票还是再等几天才买。
2. 大数据平台介绍
由于互联网TO B的数据不外露,在网上的大数据
2.1. 背景定位
2.1.1. 产品概述
2.2. 功能
2.3. 设计
2.4. 总结
3. 环境数据中心
3.1. 背景定位
环境管理部门每天要面对大量的数据,如环境监测数据、排污收费数据、排污申报数据、环境统计数据、环保信访数据、行政处罚数据、总量减排数据等。这些数据,往往存在来源复杂、格式多样、不一致、不准确、不完整、存放分散等问题,给环境管理带来诸多困难。各业务系统也彼此独立,从而形成了一个个信息孤岛,数据难以共享,环境决策缺乏有效的数据支持,难以做到科学决策。因此,需要建立统一的环境数据中心,全面整合各类环境资源数据,实现数据的集中管理。使之成为环保各业务科室之间协同工作的数据中心,成为多媒体、文档资料和政策法规的存储中心,成为环保决策所需的数据仓库中心。
3.2. 功能
3.2.1. 数据的管理
数据中心的数据来源主要于:
1. 国家下发的软件系统,如污染源普查软件、环境统计软件;
2.已有的业务系统,如排污申报与收费管理系统、12369环保热线等。
3.Excel 表格、电子文档、图片、视频、扫描件等;
4.数据直报系统:系统提供定制的录入界面,用户手工填报。
对于这些来源复杂、格式多样、不一致、不准确、不完整、存放分散的数据进行统一的标准建立,实现信息共享,数据交互
3.2.2. 数据的管理
1. 文件的上传、修改、删除
2. 元数据的编辑
3.2.3. 资源的共享
3.3. 设计
4. 总结 内部资料 注意保密
范文四:大数据分析所必须注意的几个问题
http://www.lampbrother.net
大数据分析所必须注意的几个问题
兄弟连IT 教育作为国内领先的培训机构,迄今已有10年的教育历史。8大特色课程:PHP 培训、大数据培训、UI 设计、HTML5培训、云计算架构师,虚拟现实VR 培训,机器人教育培训,在目前IT 市场特别火,每门课程都由名师牵头,以认认真真的态度做教育。
大数据的重要性已是共识,而大数据在实际应用场景中的落地是大数据培训真正为人们所用的前提。因此需要大数据行业人才非常了解如何进行企业大数据的分析,
从公司管理的角度来看:
(1)公司应同时关注数据体量和数据质量;
(2)持续学习和培训能填平新分析技术和新商机之间的鸿沟;
(3)分析开发团队应该包括独立的模型开发团队和模型验证团队;
(4)分析并不仅仅是模型开发和验证,还包括模型的监测和回溯测试。
从技术的角度企业应该:
(1)考虑使用云服务来进行大数据分析;
(2)应该关注垂直式行业解决方案,谨慎选择开源软件;
对待外包分析要慎之又慎,最好能在企业内部建立分析环境,并置于高层的管理之下。 Java 大数据自学能学会吗? 学Java 大数据能拿多少薪资? 学Java 大数据好找工作吗? 企业需要什么样的Java 大数据工程师?
兄弟连IT 教育 版权所有
范文五:大数据分析过程遇到的13个问题
大数据分析遇到的 13个问题
1、最早的数据分析可能就报表
目前很多数据分析后的结果, 展示的形式很多, 有各种图形以及报表, 最早的应 该是简单的几条数据,然后搞个 web 页面,展示一下数据。早期可能数据量也 不大,随便搞个数据库,然后 SQL 搞一下,数据报表就出来了。但是数据量大
起来怎么分析呢?数据分析完了怎么做传输呢?这么大的数据量怎么做到实时 呢?分析的结果数据如果不是很大还行, 如果分析的结果数据还是很大改怎么办 呢?这些问题在这篇文章中都能找到答案,下面各个击破。
2、要做数据分析,首先要有数据
这个标题感觉有点废话, 不过要做饭需要食材一样。 有些数据时业务积累的, 像 交易订单的数据, 每一笔交易都会有一笔订单, 之后再对订单数据作分析。 但是 有些场景下, 数据没法考业务积累, 需要依赖于外部, 这个时候外部如果有现成 的数据最好了,直接 join 过来,但是有时候是需要自己获取的,例如搞个爬虫 爬取网页的数据, 有时候单台机器搞爬虫可能还爬不完, 这个时候可能就开始考 虑单机多线程爬取或者分布式多线程爬取数据, 中间涉及到一个步骤, 就是在线 的业务数据,需要每天晚上导入到离线的系统中,之后才可以进行分析。 3、有了数据,咋分析呢?
先将数据量小的情况下,可能一个复杂的 SQL 就可以搞出来,之后搞个 web 服务器,页面请求的时候,执行这个 SQL ,然后展示数据,好了,一个最简单 的数据分析,严格意义上讲是统计的分析。这种情况下,分析的数据源小,分析 的脚本就是在线执行的 SQL ,分析的结果不用传输,结果的展示就在页面上,
整个流程一条龙。
4、数据量大了,无法在线分析了,咋办呢?
这个时候,数据量已经大的无法用在线执行 SQL 的形式进行统计分析了。这个 时候顺应时代的东西产生了(当然还有其他的,我就知道这个呵呵),数据离线 数据工具 hadoop 出来了。这个时候,你的数据以文件的形式存在,可能各个 属性是逗号分隔的, 数据条数有十几个亿。 这时候你可能需要构建一个 hadoop
集群,然后把自己的文件导入到集群上面去,上了集群之后,文件就是 HDFS 的格式了,然后如果要做统计分析,需要写 mapreduce 程序,所谓的 mapreduce 程序,就是实现 map 和 reduce 的接口,按照自己的业务逻辑写 分析流程, 之后把程序打成 jar 包上传到集群, 之后开始执行。 分析后的结果还
是文件的形式产生。
5、分析个数据还要写 java 代码是不是效率低了点
这个确实是, mapreduce 的程序, 本身的可测性没有执行一个简单的单元测试 来的爽,所以效率确实不高。这个时候, hive 出现了, hive 是一个数据仓库分 析的语言,语法类似于数据库的 SQL ,但是有几个地方是不同的。有了 hive 之 后,数据分析就好之前写 SQL 一样了,按照逻辑编写 hive SQL,然后控制台 执行。可能最大的感觉是,数据库的 sql 很快就能有结果,但是 hive 的,即使 很小的一个数据分析,也需要几分钟时间。构建 hive ,需要在 hadoop 的集群 上, 原理很简单, 就是把文件构建成表的形式 (有一个数据库或者内存数据库维 护表的 schema 信息),之后提交写好的 hive sql的时候, hadoop 集群里面 的程序把 hive 脚本转换成对应的 mapreduce 程序执行。这个时候,做离线的 数据分析简单写脚本就行了,不用再搞 java 代码,然后上传执行了。
6、数据产生的结果,怎么搞到线上提供服务的数据库中呢?
这个时候分析的结果有了, 可能是一个很宽很长的 excel 表格, 需要导入到线上 的数据库中,可能你想到了,如果我的数据库是 mysql ,我直接执行 load 命
令就搞进去了,哪有那么麻烦。但是数据源可能有多了,
mysql/oracle/hbase/hdfs 按照笛卡尔积的形式, 这样搞要搞死程序员了。 这 个时候 datax (已经开源) 出现了,能够实现异构数据源的导入和导出, 采用插
件的形式设计,能够支持未来的数据源。如果需要导数据,配置一下 datax 的 xml 文件或者在 web 页面上点击下就可以实现了。
7、离线分析有时间差,实时的话怎么搞呢?
要构建实时的分析系统,其实在结果数据出来之前,架构和离线是截然不同的。 数据时流动的, 如果在大并发海量数据流动过程中, 进行自己的业务分析呢?这 里其实说简单也简单,说复杂也复杂。目前我接触过的,方案是这样的,业务数 据在写入数据库的时候,这里的数据库 mysql ,在数据库的机器上安装一个程
序,类似 JMS 的系统,用于监听 binlog 的变更,收到日志信息,将日志信息 转换为具体的数据, 然后以消息的形式发送出来。 这个时候实现了解耦, 这样的 处理并不影响正常的业务流程。 这个时候需要有个 Storm 集群, storm 集群干 啥事情呢?就一件事情,分析数据,这个集群来接收刚才提到的 JMS 系统发送
出来的消息, 然后按照指定的规则进行逻辑合并等计算, 把计算的结果保存在数 据库中,这样的话,流动的数据就可以过一遍筛子了。
8、分析的结果数据特别大,在线请求这些结果数据数据扛不住了,咋搞? 一般的结果数据,数据量没有那么大,也就几十万的样子,这样的数据级别,对 于 mysql 这样的数据库没有任何压力,但是这个数据量如果增加到千万或者亿 级别,同时有复杂的 SQL 查询,这个时候 mysql 肯定就扛不住了。这个时候, 可能需要构建索引(例如通过 lucene 来对于要检索的字段添加索引),或者用
分布式的内存服务器来完成查询。总之,两套思路,一个是用文件索引的形式, 说白来就是空间换时间,另外一种是用内存,就是用更快的存储来抗请求。 9、在线的数据库,除了 mysql 、 oracle 之外,还有其他选择不?
其实目前大家的思维定势,往往第一个选择就是 oracle 或者 mysql ,其实完全 可以根据场景来进行选择, mysql 和 oracle 是传统的关系型数据库 , 目前 nosql 类的数据库也很多,例如 HBase 就是其中一个重要的代表。如果数据离散分布 比较强,且根据特定的 key 来查询,这个时候 HBase 其实是一个不错的选择。
10、空间的数据怎么分析
上面的分析大都是统计维度的, 其实最简单的描述就是求和或者平均值等, 这个 时候问题来了, 大数据量的空间数据如何分析呢?对于我们电子商务而言, 空间 数据可能就是海量的收货地址数据了。 需要做分析, 第一步就是先要把经纬度添 加到数据中(如果添加经纬度,这个可以搞 http 的请求来通过地图服务提供商 来或者, 或者是根据测绘公司的基础数据来进行文本切割分析) , 之后空间数据 是二维的,但是我们常见的代数是一维的,这个时候一个重要的算法出现了, geohash 算法,一种将经纬度数据转换为一个可比较,可排序的字符串的算法。 然后, 这样就可以再空间距离方面进行分析了, 例如远近, 例如方圆周边等数据 的分析。
11、上面这些仅仅是统计,如果想搞算法或者挖掘之类的,怎么搞呢 上述的分析, 大多数是统计分析, 这个时候如果想高一点高级的, 例如添加一个 算法, 咋搞呢?其他复杂的算法我没咋接触过。 将拿一个我练过手的算法来讲吧。 逻辑回归,如果样本数据量不是很大,可以采用 weka 来做了个回归,获得一 个表达式, 然后在线上系统中应用这个表达式, 这种类似的表达式获取对于实时 性要求不是很高, 所以公式每天跑一次就行了。 如果数据量比较大, 单机的 weka 无法满足需求了,可以将 weka 的 jar 包集成在系统中分析,当然也可以通过 hadoop 中的 mahout 来进行离线分析,获取这个表达式。
12、我就是想离线分析数据,但是受不了 hive 或者 hadoop 的速度,咋搞 其实搞过一段时间 hadoop 的人肯定有一点不爽,就是离线分析的速度太慢了, 可能需要等很久,这个时候 spark 出现了,他和 hadoop 类似,不过由于是内 存中计算,所以速度快了很多,底层可以介入 HDFS 的文件系统,具体我没有 使用过,但是公司内部一个团队目前已经用 spark 来进行分析了。
13、这就是搞大数据了?
有了这些工具就是搞大数据了?答案肯定不是, 这个仅仅是工具罢了。 真正搞大 数据的可能在于思维的变化, 用数据来思考, 用数据来做决定 。 目前的无线和大
数据啥关系?我觉得 无线的终端是数据的来源和消费端,中间需要大数据的分 析,两者密不可分啊 。