范文一:大数据挖掘
信 息 工 程 学 院 本 科 生 课 程 考 核
题目:大数据的时代商业模式的创新分析
姓 名 : 韦 阳
学 号 : 2013110502
专 业 : 信息管理与信息系统
班 级 : 13 信管
指 导 教 师 : 谈成访
2016 年 6月 10
日
I 大数据的时代商业模式的创新分析
摘 要
大数据对商业模式具有创造性破坏的潜能。将大数据与商业模式有效结合,从商业 模式的经济、运营和战略 3个视角指出大数据能提升竞争优势。基于创新目标和机制分 析了大数据时代商业模式创新的框架, 围绕商业模式的 4个界面分析了大数据背景下商 业模式构成要素和构成结构的变革。
大数据的核心是建立在相关关系分析法基础上的预测。在诸多领域,大数据浪潮正 引致颠覆性创新,也必将带来制度变迁。供应商和自身运营状况数以亿计字节的信息。 大数 据大量可被获取、交流、集聚、存储和分析的数据,现在已是全球经济活动中每 个部门和每一功能的核心,已成为与实物资产人力资本同样重要的生产要素。
大数据作为一个很好的视角和工具。从资本角度来看,从其拥有的数据规模、数据 的活性和这家公司能运用、解释数据的能力,就可以看出这家公司的核心竞争力。而这 几个能力正是资本关注的点。移动互联网与社交网络兴起将大数据带入新的征程,互联 网营销将在行为分析的基础上向个性化时代过渡。
关键词 :大数据 商业模式 价值创造 创新机
I
II
目 录
1 大数据的概述 ................................................................................................................... - 1 - 1.1 大数据的概念 ........................................................................................................ - 1 - 1.1.1 大数据的发展 ............................................................................................. - 2 - 1.1.2 大数据的分类 ............................................................................................. - 3 - 1.2 大数据的四大特点 ................................................................................................ - 4 - 1.2.1 海量性 ......................................................................................................... - 4 - 1.2.2易变性 .......................................................................................................... - 5 - 1.2.3多样性 .......................................................................................................... - 5 - 1.2.4高速性 .......................................................................................................... - 5 - 1.3大数据时代对生活、工作的影响 ......................................................................... - 6 - 1.4大数据时代的发展方向、趋势 ............................................................................. - 6 - 1.4.1发展方向 ...................................................................................................... - 6 - 1.4.2发展趋势 ...................................................................................................... - 7 -
1.5企业应如何应对大数据时代 ................................................................................. - 8 -
2 我国外贸型企业发展所面临的困难 .................................................................................. 10 2.1我国外贸型企业面临的困境 .................................................................................... 10 2.1.1 外贸型企业发展历程 .................................................................................... 11 2.1.2 外贸型企业的困境 ........................................................................................ 12 2.2商业模式创新对我国外贸型企业发展的机遇 ........................................................ 14 2.2.1 商业模式的创新概念 .................................................................................... 14 2.2.2 商业模式的创新特点 .................................................................................... 14
2.2.3商业模式创新可以为外贸型企业带来什么 ................................................. 15
3 基于大数据的分析,商业模式创新 .................................................................................. 17 3.1 加大数据处理分析能力 ........................................................................................... 17 3.2 提高专业技术人员的技术水平 ............................................................................... 17 3.3 理论与实践相结合促进商业模式的创新 ............................................................... 18 结 论 ........................................................................................................................................ 25 致谢 .......................................................................................................................................... 26 参考文献 .................................................................................................................................. 26
II
1 绪论
进入 2012年以来,大数据(Big Date)一词越来越多地被提及与使用,它已经出 现过在《纽约时报》 、 《华尔街时报》的专栏封面,人们用他来描述和定义信息爆炸时代 产生的海量数据,进入美国白宫网的新闻,在国内一些网络主题的讲座沙龙中,被嗅觉 灵敏的银河证券、国军证券、国泰君安等写进了投资推荐报告,大数据时代来临。移动 互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。有人说 21世纪是数 据信息时代,我们在享受便利的同时,也无偿贡献了自己的“行踪” 。各种数据正在迅 速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性 增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重 要性。 现在互联网不但知道对面是一只狗, 还知道这只狗喜欢什么食物, 几点出去遛弯, 几点回窝睡觉。我们不得不接受这个现实,每个人在互联网进入到大数据时代,都将是 透明性存在。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深 刻、全面的洞察能力提供了前所未有的空间与潜力。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还 是政府,所有领域都将开始这种进程。 ”数据中隐藏着有价值的模式和信息,在以往需 要相当的时间和成本才能提取这些信息。 如沃尔玛或谷歌这类领先企业都要付高昂的代 价才能从大数据中挖掘信息。
1.1 大数据的概念
大数据(Big Data )是指那些超过传统数据库系统处理能力的数据。它的数据规模 和转输速度要求很高, 或者其结构不适合原本的数据库系统。 为了获取大数据中的价值, 我们必须选择另一种方式来处理它。 对于企业组织来讲, 大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。即使是在车库中创业 的公司也可以用较低的价格租用云服务时间了。例如零售业中对门店销售、地理和社会 信息的分析能提升对客户的理解。而当今的各种资源,如硬件、云架构和开源软件使得 大数据的处理更为方便和廉价。对大数据的二次开发则是那些成功的网络公司的长项。 - 1 -
1 大数据的概述
例如 Facebook 通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种 新的广告模式。 这种通过大数据创造出新产品和服务的商业行为并非巧合, 谷歌、 雅虎、 亚马逊和 Facebook 它们都是大数据时代的创新者。
举一个有趣的例子。人品与删除浏览记录,就是一个典型的曾经看似风马牛不相及 的关联体。但来自以色列西南财经大学天府学院大数据时代的信息分析实训报告的 Shvat Shaked 却通过努力告诉人们,如此寻常的行为中同样蕴含着道理,也许还蕴含着 无限商机。很多人喜欢上网后删除浏览记录。在保护隐私的旗帜下,这种行为很少受到 关注,也很少激起人们的兴趣,自然也就不能调动人们深入思考和仔细研究的积极性。 Shvat 有一个坚定的信念:一个人的品行与其不经意间的行为密切相关,那些“坏人” 为防被人追踪一定会不断删除自己在互联网上的踪迹,而“好人”则一般不介意在互联 网上留下自己的印记。基于这个信念, Shvat 通过对海量数据的分析研究出了一款独特 的欺诈系统。这一防欺诈系统受到了 ebay 的关注。后者的 paypal 系统允许两个通户通 过电邮地址在线交易,这微钓鱼式攻击提供了可乘之机:一些欺诈网站伪装成真实网站 以获得用户的登录信息。 paypal 近年来不断加强在线安全却一直收获不大, Shvat 的创 意及其防欺诈系统出色的性能就在此时吸引了 ebay 。 2008年, ebay 以 1.69亿美元将 Shvat 及其公司 Fraud Sciences收入囊中。
1.1.1 大数据的发展
最早提出大数据时代已经到来的机构是全球知名咨询公司麦肯锡。 麦肯锡在研究报 告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。而 人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。 大数据 迅速成为了计算机行业争相传诵的热门概念,也引起了行业内的高度关战略
虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。未来,数据 可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、 数据种类多、非标准化数据的价值最大化。大数据的整体态势和发展趋势,主要体现在 几个方面:大数据与学术、大数据与人类的活动,大数据的安全隐私、关键应用、系统 处理和整个产业的影响。大数据整体态势上,数据的规模将变得更大,数据资源化、数 据的价值凸显、数据私有化出现和联盟共享。因此,大数据的价值是通过数据共享、交 - 2 -
叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提 供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。随着大数据的共享越 来越大,隐私问题也随之而来,比如说每天手机产生的通话、位置等等。但这给带来了 便利的同时也给带来了个人隐私的问题。大数据的发展会催生许多新兴新职业,会产生 数据分析师、 数据科学家、 数据工程师, 有非常丰富的数据经验的人才会成为稀缺人才。 随着社会的不断发展,大数据对 IT 技术架构的挑战,大数据的生态环境问题,大数据 的应用及产业链将日益突出。随着大数据的发展,数据共享联盟将逐渐壮大成为产业的 核心一环。数据资源化,大数据在国家和企业和社会层面成为重要的战略资源,成为新 的战略制高点和抢购的新焦点。
虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。未来,大数 据的整体态势和发展趋势, 只要体现在几个方面:大数据与学术、 大数据与人类的活动, 大数据的安全隐私、关键应用、系统处理和整个产业的影响。大数据整体态势上,数据 的规模将变得更大,数据资源化、数据的价值凸显、数据私有化出现和联盟共享。随着 大数据的发展,数据共享联盟将逐渐壮大成为产业的核心一环。大数据的发展会催生许 多新兴职业,会产生数据分析师、数据科学家、数据工程师,有非常丰富的数据经验的 人才会成为稀缺人才。随着大数据的共享越来越大,隐私问题也随之而来,比如说每天 产生的通话、位置等等,但这给带来了便利的同时也给带来了个人隐私的问题。数据资 源化,大数据在国家各企业和社会层面成为最重要的战略资源,成为新的战略制高点和 抢购的新焦点。
1.1.2 大数据的分类
(1) 、按照数据分析的实时性,分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网 B2C 等产品,往往要求在数秒内返回 上亿行数据的分析,从而达到不影响用户体验的目的。目前比较新的海量数据实时分析 工具有 EMC 的 Greenplum 、 SAP 的 HANA 等。要满足这样的需求,可以采用精心设计 的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用 HDD 的架构,这些无疑都需要比较高的软硬件成本。互联网企业的海量数据采集工具,有 Facebook 开源的 Scribe 、 LinkedIn 开源的 Kafka 、淘宝开源的 Timetunnel 、 Hadoop 的 - 3 -
1 大数据的概述
Chukwa 等,均可以满足每秒数百 MB 的日志数据采集和传输需求,并将这些数据上载 到 Hadoop 中央系统上。对于大多数反馈时间要求不是那么严苛的应用,比如离线统计 分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方 式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的 ETL 工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据 的采集需求。
(2)、按照大数据的数据量,分为内存级别、海量级别三种、 BI 级别。
这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容 量, Facebook 缓存在内存的 Memcached 中的数据高达 320TB , 而目前的 PC 服务器, 内 存也可以超过百 GB 。因此可以采用一些内存数据库,将热点数据常驻内存之中,从而 取得非常快速的分析能力,非常适合实时分析业务。
海量级别指的是对于数据库和 BI 产品已经完全失效或者成本过高的数据量。海量 数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企 业采用 Hadoop 的 HDFS 分布式文件系统来存储数据, 并使用 MapReduce 进行分析。 本 文稍后将主要介绍 Hadoop 上基于 MapReduce 的一个多维数据分析平台。
BI 级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的 BI 产 品和专门设计的 BI 数据库之中进行分析。目前主流的 BI 产品都有支持 TB 级以上的数 据分析方案。种类繁多,就不具体列举了。
1.2 大数据的特点
1.2.1 海量性
企业面临着数据量的大规模增长。例如, IDC 最近的报告预测称,到 2020年,全 球数据量将扩大 50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的 规模范围从几十 TB 到数 PB 不等。简而言之,存储 1PB 数据将需要两万台配备 50GB 硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。
上图是上海双击信息科技有限公司的数据, 这个是美国进口 LED 灯的部分数据, 它记录了日期、 采购商、供应商、原产国、产品描述、和重量等,这样的数据是非常庞大的,如果这样的话数据给 - 4 -
到中国出口型企业是没有用的,所以要进行专业的数据分析,让数据产生价值。
1.2.2易变性
大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统 的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用 软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软 件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。 1.2.3多样性
一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法 部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、 社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感 器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。
1.2.4高速性
高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能 优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解 如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时 需求。 根据 IMS Research关于数据创建速度的调查, 据预测, 到 2020年全球将拥有 220亿部互联网连接设备。
- 5 -
1 大数据的概述
2大数据的影响
在数字时代,人们的生活方式和思考方式在发生一系列的变化,这种变化同样也使 得人们的消费观念发生较大的转变。大数据时代对生活、工作的影响 大数据,其影响 除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人 们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数 据, 得数据者得天下。 它赋予消费者更广阔的视野, 同时也在提高着消费者的自主意识。 这些影响足够消费者不再完全相信传统营销“轰炸式”的传播和灌输,他们更加倾向于 受到质疑的品牌和产品,他们能够在基础上发表自己的观点,影响到其他的人群。 “大 数据”的影响,增加了对信息管理专家的需求。事实上,大数据的影响并不仅仅限于信 息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优 化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的 位置都是建立在数据分析基础之上的精准选址。
在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过 数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的 掌握和分析,为用户提供更加专业化和个性化的服务。在这种时代环境下,如果企业和 厂商对他们的观点是漠视的态度,那么他们将会失去大量的关注人群,也使得传统的营 销模式传播的影响力大打折扣。大数据在个人隐私的方面,大量数据经常含有一些详细 的潜在的能够展示有关我们的信息,逐渐引起了我们对个人隐私的担忧。一些处理大数 据公司需要认真的对待这个问题。 例如美国天睿资讯给人留下比较深刻印象的是他的一 个科学家提出,我们不应该简单地服从法律方面的隐私保护问题,这些远远不够的,公 司都应该遵从谷歌不作恶的原则,甚至更应该做出更积极的努力。
2.1 大数据的趋势
2.1.1发展方向
20年后互联网发生的巨大的变化, 移动互联、 社交网络、 电子商务大大拓展了互联 网的疆界和应用领域。我们在享受便利的同时,也无偿贡献了自己的“行踪” 。在物理
- 6 -
世界中,许多行为是“人似秋鸿有来信,事如春梦了无痕” 。但在互联网上却是“处处 行迹处处痕” 。任何行为,皆有前兆。要买商品,必先浏览,对比,询价;要搞活动, 必先征集、讨论、策划;互联网上恰恰保留了大量的前兆性的数据,通过对这些数据的 收集和分析,互联网企业具备了预判物理世界中,人类未来行为的能力。收集分析海量 的各种类型的数据,并快速获取影响未来的信息的能力,这就是大数据技术的魅力。事 实上大数据的来源非常广泛,天上的卫星、地上汽车、埋在土壤里面的各类传感器,无 时无刻不在生成大量的数据。这些数据如果综合利用,产生的社会价值和经济价值将是 难以估量的。
围绕数据和最终用户,我们观察到计算机行业的发展有三大方向:第一应用软件一 定会泛互联网化。第二,行业会垂直整合。越靠近终端用户的公司,在产业链上将拥有 更大的发言权。第三,数据将成为资产。泛互联网化是收集数据的重要渠道,没有泛互 联网化的应用软件,公司就难以获得用户的行为数据;行业垂直整合趋势在数据运用层 面,通过搜集大量的用户数据,更贴近用户,更理解用户,为其提供更适当的服务;数 据成为资产更强调数据的战略意义。三大趋势的提出,拓展大数据主题的研究范围,开 辟了新的视角和逻辑来观察软件公司成长路径和投资价值。 成为我们分析研究 TMT 公司 的顶层逻辑的要素之一。
2.1.2发展趋势
趋势一:成为重要战略资源。在未来一段时间内,大数据将成为企业、社会和国家 层面重要的战略资源。大数据将不断成为各类机构,尤其是企业的重要资产,成为提升 机构和公司竞争力的有力武器。企业将更加钟情于用户数据,充分利用客户与其在线产 品或服务交互产生的数据,并从中获取价值。此外,在市场影响方面,大数据也将扮演 重要角色——影响着广告、产品推销和消费者行为。
趋势二:数据隐私标准将出台。大数据将面临隐私保护的重大挑战,现有的隐私保 护法规和技术手段难以适应大数据环境,个人隐私越来越难以保护,有可能会出现有偿 隐私服务,数据“面罩”将会流行。预计各国都将会有一系列关于数据隐私的标准和条 例出台。
趋势三:分析方法发生变革。大数据分析将出现一系列重大变革。就像计算机和互 - 7 -
1 大数据的概述
联网一样,大数据可能是新一波的技术革命。基于大数据的数据挖掘、机器学习和人工 智能可能会改变小数据里的很多算法和基础理论,这方面很可能会产生理论级别的突 破。
趋势四:与云计算深度融合。大数据处理离不开云计算技术,云计算为大数据提供 弹性可扩展的基础设施支撑环境以及数据服务的高效模式, 大数据则为云计算提供了新 的商业价值,因此,从 2013年开始,大数据技术与云计算技术必然进入更完美的结合 期。 总体而言, 云计算、 物联网、 移动互联网等新兴计算形态, 既是产生大数据的地方, 也是需要大数据分析方法的领域。
趋势五:网络安全问题凸显。大数据的安全令人担忧,大数据的保护越来越重要。 大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与 容灾机制提出更高的要求。网络和数字化生活使得犯罪分子更容易获得关于人的信息, 也有了更多不易被追踪和防范的犯罪手段,可能会出现更高明的骗局。
趋势六:大数据学科诞生。数据科学将作为一个与大数据相关的新兴学科出现。同 时,大量的数据科学类专著将出版。
趋势七:催生数据分析师等职业。 大数据将催生一批新的就业岗位, 如数据分析师、 数据科学家等。具有丰富经验的数据分析人才成为稀缺资源,数据驱动型工作机会将呈 现出爆炸式的增长。
2.2 大数据的应对
企业应如何应对大数据时代 近些年, 大数据已经和云计算一样, 成为时代的话题。 大数据是怎么产生的,商业机会在哪?研究机会在哪?这个概念孕育着一个怎样的未 来?企业如何应对?一个好的企业应该未雨绸缪,从现在开始就应该着手准备,为企业 的后期的数据收集和分析做好准备,企业可以从下面五个方面着手,这样当面临铺天盖 地的大数据的时候,以确保企业能够快速发展,具体为下面五点。
(1) 、以企业的数据为目标。几乎每个组织都可能有源源不断的数据需要收集,无 论是社交网络还是车间传感器设备, 而且每个组织都有大量的数据需要处理, IT 人员需 要了解自己企业运营过程中都产生了什么数据, 以自己的数据为基准, 确定数据的范围。 (2) 、以业务需求为准则。虽然每个企业都会产生大量数据,而且互不相同、多种 - 8 -
多样的,这就需要企业 IT 人员在现在开始收集确认什么数据是企业业务需要的,找到 最能反映企业业务情况的数据。
(3) 、重新评估企业基础设施 。大数据需要在服务器和存储设施中进行收集,并 且大多数的企业信息管理体系结构将会发生重要大变化, IT 经理则需要准备扩大他们的 系统,以解决数据的不断扩大, IT 经理要了解公司现有 IT 设施的情况,以组建处理大 数据的设施为导向,避免一些不必要的设备的购买。
(4) 、重视大数据技术。大数据是最近几年才兴起的词语,而并不是所有的 IT 人 员对大数据都非常了解,例如如今的 Hadoop , MapReduce , NoSQL 等技术都是近年刚兴 起的技术,企业 IT 人员要多关注这方面的技术和工具,以确保将来能够面对大数据的 时候做出正确的决定。
(5) 、培训企业的员工 。大多数企业最缺乏的是人才,而当大数据到临的时候, 企业将会缺少这方面的采集收集分析方面的人才,对于一些公司,特别是那种人比较少 的公司,工作人员面临大数据将是一种挑战,企业要在平时的时候多对员工进行这方面 的培训,以确保在大数据到来时,员工也能适应相关的工作。做到上面的几点,当大数 据时代来临的时候,面临大量数据将不是束手无策,而是成竹在胸,而从数据中得到的 好处也将促进企业快速发展。
- 9 -
2 我国外贸型企业发展所面临的困难
10 10
3 我国外贸型企业发展所面临的困难
3.1我国外贸型企业面临的困境
(1) 、贸易增长势头大幅减弱。改革开放以来,我国对外贸易经历了长足发展,尤 其是加入 WTO 后的 10年, 我国对外贸易进出口实现前所未有的增长水平, 年均增速达 到 22.6%。 2009年,受国际金融危机冲击,我国对外贸易进出口总额同比下降 13.9%, 为 30年来首次负增长。 2010年,我国对外贸易进出口总额同比增长 34.7%,实现强劲 反弹。但受世界经济复苏乏力、欧债危机持续发酵、国际市场需求低迷及国内企业经营 成本上升等因素制约,我国对外贸易进出口自 2011年下半年以来再次出现增速放缓迹 象,全年同比增长 22.5%,比 2010年减少 12.2个百分点(见图 3) 。进入 2012年,我 国对外贸易进出口增速放缓趋势更加明显,上半年同比增长 8.0%, 1-11月份累计增幅 进一步放缓至 6.3%。
(2) 、 欧美仍是我国贸易顺差的主要来源。 2008年, 来自美国和欧盟的贸易顺差合 计 3310.4亿美元,是当年我国对外贸易顺差总额的 1.12倍。从 2001年至 2011年,我 国对欧盟贸易顺差增长了 27倍,对美贸易顺差增长了 6倍。 2009年,由于美、欧市场 需求骤减,来自两地的贸易顺差合计为 2518.5亿美元,较上年减少 23.9%,是我国当年 对外贸易顺差总额的 1.28倍。但自 2010年以来,我国对欧美顺差呈反弹趋势, 2010年 和 2011年对两地顺差合计分别为 3240.3亿美元和 3471.7亿美元, 分别是我国当年对外 贸易顺差总额的 1.77倍和 2.24倍(见表 3) 。如果考虑香港地区转口因素,我国对欧美 贸易顺差规模可能还要大得多。 贸易顺差的大幅增加客观上也为欧美频频对我国挥舞贸 易保护大棒提供了口实。
(3) 、对外贸易结构转型尚未完成。近年来,我国要素成本上升较快,在一定程度 上削弱了制造业的成本竞争力。据国家统计局统计, 2008-2011年,我国制造业城镇单 位就业人员平均工资年均增长 14.5%,制造业农民工月收入年均增长 15%。随着周边国 家工业化发展加快,部分对成本较为敏感的产业和产品订单出现向周边国家转移迹象。 2012年前 7个月, 我国七大类劳动密集型产品在美、 欧、 日市场份额比上年同期分别下
降 2.1、 1.4和 2.7个百分点, 流失份额主要被周边低成本国家挤占。 在外需下滑的同时, 我国劳动密集型产品面临的国际竞争加剧,出口企业迫切需要加快培育技术、质量、品 牌、服务等综合竞争优势。
(4) 、贸易保护主义威胁严重 。我国是世界上出口产品遭遇贸易保护措施最多的 经济体。据 WTO 统计,截至 2011年底,全球 21.3%的反倾销立案和 24.2%的反倾销措 施针对我国产品。 2011年,我国出口产品共遭受贸易伙伴国 69起贸易救济调查,涉案 总金额约为 59亿美元。其中遭受反倾销调查 49起、反补贴调查 9起,分别占全球反倾 销立案总数的 31.6%和反补贴立案总数的 36%。随着我国出口产业转型升级的加快,以 及高端制造业竞争力的提升,我国高新技术等产品出口所受的限制明显增多。如欧盟对 我国无线通讯产品发起“双反”调查,美国、欧盟、印度等对我国光伏电池发起贸易救 济调查,这显示出我国新兴产业产品已成为各经济体贸易限制的重要对象。据商务部数 据, 2012年前三季度, 中国出口产品遭遇国外贸易救济调查涉案金额达 243亿美元, 增 长 7倍多。
3.1.1 我国外贸型企业的发展历程
中小企业的成长和创新对于经济的发展有重要作用。 中小企业的创业成长和对于一 个国家和地区经济的增长有着重要的作用,这已经成为世界的共识。 我国的中小企业 的成长和创新正在成为推动经济增长、缓解就业压力、保持社会稳定的基本力量 , 以及 市场经济体制改革的推动者。 近年来 , 以中小企业为主体的非公有制经济发展迅速 , 中小 企业已经成为推动区域经济发展的一支重要力量。 我国经济发展的实践也证明了中小企 业正处于良好的、积极向上的发展态势中 , 并成为推动我国经济发展、增加财政收入、 推动产业化创新的一支重要力量。 随着世界经济一体化进程和社会主义市场经济的发 展, 中小企业如何增强自身的成长创新机制已成为促进经济发展并成为社会关注的热点 话题。然而,中小企业不合理的创业成长和发展机制已经成为制约中小企业自身发展的 瓶颈。 由于其规模小、 资本和技术构成较低、 受传统体制和外部宏观经济影响大等因素, 使得中小企业在财务管理方面存在与自身发展和市场经济均不适应的情况, 导致其应对 激烈的市场竞争面临巨大的困难。如何克服中小企业自身发展的缺点和不足。直接关系 到地方区域经济的发展和社会的和谐稳定。
11
2 我国外贸型企业发展所面临的困难
12 12
截止到 2001年底,我国共有中小企业 2930万户,从业人员 1.74亿人。我国中小 企业在国民经济发展中的作用可以归纳为:一是我国中小企业以其不到全部企业 1∕ 2的资产创造了 70%以上就业机会的突出表现,成为促进国民经济健康协调发展和维护社 会稳定的重要保障; 二是我国中小企业通过创造社会就业机会相应地减少国家社会保障 等方面的财政支出的同时,还为国家创造了 43%的税收收入,成为稳定国家财政收支平 衡的重要保障;三是我国中小企业经过改革开放 20年的不断发展壮大,经历了激烈的 优胜劣汰竞争,冲破了传统的计划经济体制束缚,成为发展和完善有中国特色的社会主 义市场经济的重要保障; 四是我国中小企业在创造就业岗位和为大企业提供配套服务的 同时,成为各级政府集中精力进行国企改制、改组的重要保障;五是我国中小企业大多 设在中小城镇,吸收了民间投资大量,带动了中小城镇的发展,已经成为促进积极财政 政策顺利实施和缩小城乡收入差别的重要保障。 从企业规模上看, 与世界其他国家相比, 我国的中小企业在资产、资本金和营业额规模等方面相对偏低,而人数规模偏高,反映 了我国中小企业多为劳动密集型企业的基本国情。从社会贡献上看,中小企业创造的最 终产品和服务的价值已占到我国 GDP 的一半, 中小企业解决就业占我国城镇总就业量的 75%以上, 所提供的产品、 技术和服务出口约占出口总量的 60%, 所完成的税收占全部税 收收入的 43.2%。并且,我国中小企业已日益成为新兴高科技和服务产业的主力军(在 北京高科技集中地区中关村的 900家企业中, 95%以上是中小企业) 。
3.1.2 我国外贸型企业面临的困境
对国际贸易环境的近年来随着市场竞争的加剧,以及缺少必要的政策扶持,中小企 业由于其规模小、技术水平低,在竞争中开始处于相对不利的地位,已经出现了发展速 度缓慢、 效益状况恶化的现象。 2008年上半年, 全国 6.7万家规模以上的中小企业倒闭。 导致外贸型企业倒闭有很多原因。
(1) 、认识不够。古人云:知彼知己,百战不殆。分析国际市场营销环境,了解环 境威胁,把握市场机会,是任何企业进入国际市场,开展国际市场营销活动的前提。尤 其对于规模小、资源有限及实力较弱的中小企业更显重要。我国不少中小企业对贸易伙 伴国现任政府的经济发展政策以及对某行业国际贸易的关注度不够, 给国家和企业造成 经济损失的事例不胜枚举。一个从事国际贸易经营的中小企业,需要对贸易伙伴国的商 务法律、贸易政策、政府干预措施、经济和人文等各方面,借助国际商务咨询公司的力 量,进行细致入微的全面了解。然后制定本企业的对策。
(2) 、对贸易信息渠道不畅。当今我国中小企业获取信息的渠道单一,主动独立与 国外 I 客户联系的能力较弱,往往被动地等待外商或代理商上门联系。虽然大部分中小 企业具备了上网条件,理论上具备了拓展全球业务的条件,但是对于如何能够在浩如烟 海的网络资源中快速寻找到本企业所需要的有效的客户信息,还存在很大的盲区。因为 企业独立开展国际贸易的时间较短,业务信息网络资源缺乏,在与外商的联系上,存在 一定的盲目性,不能及时掌握对方的需求,也就不能作出相应的回应。
(3) 、企业自身资源有限。不少中小企业受自身能资源条件闲着,在从事国际贸易 方面,有一定的局限。主要体现在①企业管理体制不合理。大多中小企业都是家族式的 民营管理模式,缺少科学规范的管理制度,市场运行机制效率低能,生产对国际市场的 变化反应不灵,对环境风险承受能力较差;②缺乏国际贸易法规与国际贸易惯例,如何 选择和使用国际计算方式,出现贸易纠纷后,如何合理保障自身您的权利,如何正确选 择就嗯的解决渠道等,其结果经常造成严重的经济损失。
(4) 、缺少专业外贸人才。对于中小企业来说,开展国际贸易最缺乏的还是人才。 我们知道要想做好外贸业务,往往需要大量相关人员的配合,比如报关员、翻译、外贸 谈判人员、涉外法律、财会等,这些人员在外贸活动中都是必不可少的。然而对于大部 分中小企业来讲,要配备上述人员显然力不从心,毕竟企业要考虑经营成本的问题。现 实的状况是,企业聘用专门负责进出口贸易的人员,希望你既是翻译又是报关员,同事 也是谈判人员和法律方面的能手,当然了,首先你一定是一名出色的营销专家。但一向 商务活动不是个人单独所能完成了的,况且一名外贸人员,又不可能全面掌握上述业务 内容 。因此,往往会因准备不足出现一些不可预见的情况发生。
(5) 、出口产品结构雷同。我国中小企业出口的产品多为档次低、品种单一雷同的 产品,竞相压价,造成了出口市场的混乱,有时甚至不惜低价倾销,招致国外对中国出 口产品展开反倾销调查,继而进一步恶化中国出口贸易的国际市场环境。
另外,目前部分中小企业对保护知识产权还不是很重视,看到同行生产的产品性能 款式等优于自身,就会马上组织力量去研究,进行技术嫁接改进,模仿生产加工,毫无 申请专利保护市场的意识。可以想象,一个没有专利的成品,极有可能是外商陷入法律 纠纷,外行也很难感兴趣。这也是我国中小企业很难进入国际市场的重要原因。 (6) 、缺少和国际大客户的交往。一般来说,在市场经济较为发达的国家,消费呈 现个性化和多元化。大企业在追求规模经济效益的同时对小批量、多种产品不愿顾及或 由于种种原因无法涉足,相对留下了一些市场空隙,这就为中小企业实施跨国经营提供 了基本条件。譬如,我国的民族工艺品和中小企业老总,想获得客户又不想投入过多, 他们总是喊着资金回报率,担心过多投入没有高回报,影响业务的开拓。譬如,企业在 搜狐网站做了一周的旗帜广告,当你的顾客第一次浏览了你的广告后,她会自然的继续 寻找其他同利产品进行比较,当这个过程结束后,他决定购买你的产品,但他再次来到
13
2 我国外贸型企业发展所面临的困难
14 14
搜狐网站时,却发现你的产品不见了,原因是你的广告投入期已经结束。你投入了单密 有收获,反而是你竞争会对手的产品得到了推广。所以,很多的企业因资金投入不足, 白白浪费了金钱,也就失去了让顾客了解公司的机会,当然也就缺少与国际大客户的交 往。
3.2商业模式创新对企业的机遇
3.2.1 商业模式的创新概念
泰莫斯定义商业模式是指一个完整的产品、服务和信息流体系,包括每一个参与者 和其在其中起到的作用,以及每一个参与者的潜在利益和相应的收益来源和方式。
商业模式创新作为一种新的创新形态,其重要性已经不亚于技术创新等。近几年, 商业模式创新在我国商业界也成为流行词汇。 商业模式创新是指企业价值创造提供基本 逻辑的创新变化,它既可能包括多个商业模式构成要素的变化,也可能包括要素间关系 或者动力机制的变化 [1]。通俗地说,商业模式创新就是指企业以新的有效方式赚钱。
3.2.2 商业模式的创新特点
商业模式创新企业几个共同特征,或者说构成商业模式创新的特点:
(1) 、商业模式创新更注重从客户的角度,从根本上思考设计企业的行为,视角 更为外向和开放,更多注重和涉及企业经济方面的因素。商业模式创新的出发点,是如 何从根本上为客户创造增加的价值。因此,它逻辑思考的起点是客户的需求,根据客户 需求考虑如何有效满足它, 这点明显不同于许多技术创新。 用一种技术可能有多种用途, 技术创新的视角,常是从技术特性与功能出发,看它能用来干什么,去找它潜在的市场 用途。商业模式创新即使涉及技术,也多是和技术的经济方面因素,与技术所蕴涵的经 济价值及经济可行性有关,而不是纯粹的技术特性。
(2) 、商业模式创新表现的更为系统和根本,它不是单一因素的变化。它常常涉及 商业模式多个要素同时大的变化,需要企业组织的较大战略调整,是一种集成创新。商 业模式创新往往伴随产品、 工艺或者组织的创新, 反之, 则未必足以构成商业模式创新。 如开发出新产品或者新的生产工艺,就是通常认为的技术创新。技术创新,通常是对有 形实物产品的生产来说的。但如今是服务为主导的时代,如美国 2006年服务业比重高 达 68.1%,对传统制造企业来说,服务也远比以前重要。因此,商业模式创新也常体现 为服务创新,表现为服务内容及方式,及组织形态等多方面的创新变化。
(3) 、从绩效表现看,商业模式创新如果提供全新的产品或服务,那么它可能开创 了一个全新的可赢利产业领域,即便提供已有的产品或服务,也更能给企业带来更持久 的赢利能力与更大的竞争优势。传统的创新形态,能带来企业局部内部效率的提高、成 本降低,而且它容易被其他企业在较短期时期模仿。商业模式创新,虽然也表现为企业
效率提高、成本降低,由于它更为系统和根本,涉及多个要素的同时变化,因此,它也 更难以被竞争者模仿,常给企业带来战略性的竞争优势,而且优势常可以持续数年。
3.2.3商业模式创新可以为外贸型企业带来什么
(1) 、战略定位创新。主要是围绕企业的价值主张、目标客户及顾客关系方面的创 新,具体指企业选择什么样的顾客、为顾客提供什么样的产品或服务、希望与顾客建立 什么样的关系,其产品和服务能向顾客提供什么样的价值等方面的创新。在激烈的市场 竞争中,没有哪一种产品或服务能够满足所有的消费者,战略定位创新可以帮助我们发 现有效的市场机会,提高企业的竞争力。在战略定位创新中,企业首先要明白自己的目 标客户是谁,其次是如何让企业提供的产品或服务在更大程度上满足目标客户的需求, 在前两者都确定的基础上,再分析选择何种客户关系。合适的客户关系也可以使企业的 价值主张更好地满足目标客户。
(2) 、资源能力创新。资源能力创新是指企业对其所拥有的资源进行整合和运用能 力的创新,主要是围绕企业的关键活动,建立和运转商业模式所需要的关键资源的开发 和配置、成本及收入源方面的创新。所谓关键活动是指影响其核心竞争力的企业行为; 关键资源指能够让企业创造并提供价值的资源, 主要指那些其他企业不能够代替的物质 资产、无形资产、人力资本等。在确定了企业的目标客户、价值主张及顾客关系之后, 企业可以进一步进行资源能力的创新。战略定位是企业进行资源能力创新的基础,而且 资源能力创新的四个方面也是相互影响的。一方面,企业要分析在价值链条上自己拥有 或希望拥有哪些别人不能代替的关键能力,根据这些能力进行资源的开发与配置;另一 方面,如果企业拥有某项关键资源如专利权,也可以针对其关键资源制定相关的活动; 对关键能力和关键资源的创新也必将引起收入源及成本的变化。
(3) 、商业生态环境创新。商业生态环境创新是指企业将其周围的环境看作一个整 体,打造出一个可持续发展的共赢的商业环境。商业生态环境创新主要围绕企业的合作 伙伴进行创新,包括供应商、经销商及其他市场中介,在必要的情况下,还包括其竞争 对手。 市场是千变万化的, 顾客的需求也在不断变化, 单个企业无法完全完成这一任务, 企业需要联盟,需要合作来达到共赢。企业战略定位及内部资源能力都是企业建立商业 生态环境的基础。没有良好的战略定位及内部资源能力,企业将失去挑选优秀外部合作 者的机会以及与他们议价的筹码。 一个可持续发展的共赢的商业环境也将为企业未来发 展及运营能力提供保证。
(4) 、混合商业模式创新。混合商业模式创新是一种战略定位创新、资源能力创新 和商业生态环境创新相互结合的方式。根据笔者的研究,企业的商业模式创新一般都是 混合式的,因为企业商业模式的构成要素战略定位、内部资源、外部资源环境之间是相 互依赖、相互作用的,每一部分的创新都会引起另一部分相应的变化。而且,这种由战
15
2 我国外贸型企业发展所面临的困难
16 16 略定位创新、资源能力创新和商业能力创新两两相结合甚至同时进行的创新方式,都会 为企业经营业绩带来巨大的改善。
4 基于大数据的分析,商业模式创新
4.1 加大数据处理分析能力
所谓大数据,最为核心的就要看对于大量数据的核心分析能力。但是,大数据核心 分析能力的影响不仅存在于数据管理策略、数据可视化与分析能力等方面,从根本上也 对数据中心 IT 基础设施架构甚至机房设计原则等提出了更高的要求。为了达到快速高 效的处理大量数据的能力,整个 IT 基础设施需要进行整体优化设计,应充分考量后台 数据中心的高节能性、高稳定性、高安全性、高可扩展性、高度冗余,基础设施建设这 五个方面,同时更需要解决大规模节点数的数据中心的部署、高速内部网络的构建、机 房散热以及强大的数据备份等问题。
4.2 提高专业技术人员的技术水平
有这样一则故事,讲的是福特爱“才” ,取之有道的故事,我觉得生产者简直是太 精彩了,故事是这样的:有一次福特公司的一台马达坏了,公司出动所有的工程技术人 员,但是没有一个人能修复,福特公司只得另请高明。几经寻找,找到了坦因曼思,他 原是德国工程技术人员,流落到美国后,被一家小工厂的老板看中并雇佣了他。 他到了现场后,在马达旁听了听,要了把梯子,一会儿爬上一会爬下,最后在马达的一 个部位用粉笔画一道线, 写上几个字 “这儿的线圈多了 16圈” 。 果然把多余的线圈去掉, 马达立即恢复正常。亨利.福特非常赏识坦因曼思的才华,就邀请他来福特公司工作, 但坦因曼思却说:“我现在的公司对我很好,我不能忘恩负义” 。福特马上说:“我把你 供职的公司买下来,你就可以来工作了” 。福特为了得到一个人才不惜买下一个公司。 中小企业内部管理创新是企业生存与发展的根源,动力,增强企业活力。通过内部 管理管理创新,在企业内部建立健全各项企业管理制度,培育和实施先进的企业文化, 形成企业人员的共同利益和共同目标, 使各种生产要素有机结合, 资源实现了优化配置, 生产效率提高,从而保证企业产品的质量和竞争力,企业得以生存与发展。企业管理创 新事关企业的生死存亡,对企业的总体面貌最终起着决定性作用。在加强企业管理的创 新基础上, 企业的管理者还要高瞻远瞩, 立足企业的长远发展。 坚持走和持续发展道路。 在企业的生产经营活动中,既要考虑市场的扩大和利润的增长,又要注重建立良好的内 部管理系统,使得企业能够实现长期稳定健康的成长,与外部环境和谐发展。
由此可见人才的重要性,因此企业要采取多种形式引进优秀人才。在注重优秀人才 引进的同时加强对人才的教育和培养。建立合理的人力资源管理体制。建立起合理的薪 酬制度和员工激励制度。中小企业可以积极满足员工丰富需要,促进组织目标实现的福
17
3 基于大数据的分析,商业模式创新
18 18
利项目。比如医疗福利等,为员工提供一个自我发展的舞台、自我价值实现的桥梁。同 时,还可以借鉴在西方国家盛行的“弹性福利计划” ,由员工在企业规定的时间和金额 范围内,按照自己的意愿搭建自己的福利项目组合,满足员工对福利灵活机动的要求, 提高员工的满意度,最终实现留住优秀人才的长远发展
4.3 理论与实践相结合促进商业模式的创新
阿里巴巴是全球企业界电子商务的著名品牌, 是目前全球最大的网上交易市场和商 务交流社区。良好的定位、稳固的结构、优秀的服务使阿里巴巴为全球首家拥有 600余 万商人的电子商务网站,成为全球商人网络推广的首选网站,被商人们评委“最受欢迎 的 B2B 网站” 。阿里巴巴商业模式创新的成功主要可归功于其相对完善的网上诚信保障 机制的建立。
(1) 、精准的市场定位。阿里巴巴清晰地为业界定他的目标客户——众多的中小企 业。阿里巴巴相关人士认为:在全球化日益发展的今天,中小企业无疑将拥有更多的介 入机会和发展动力,依靠自身激动灵活的优势获得更大的成长空间。
(2) 、关键资源能力的构建。一是团队智慧。阿里巴巴团队认为,帮助客户合同是 成功,才是自己成功的最好体现。二是文化资源。阿里巴巴共享价值观体系的强大企业 文化可归纳为六个核心价值观, 即客户第一、团队合作、 拥抱变化、诚信、激情、 敬业。
(3) 、成功的盈利模式阿里巴巴的利润主要来源于注册会员缴纳的会员费。其付费 会员有两种类型:国际交易平台的会员和国内交易平台的会员。
19
5 基于大数据商业模式创新实例
5.1 上海双击公司简介
双击科技(DOUBLE CLICK)是中国首家的国际贸易推广专家和国际贸易情报专家。 依靠强大的资源优势和专业的技术团队, 双击科技系统整合了全球五大洲近 200个国家 和地区的进出口贸易情报和采购商情报,于 2011年 1月重磅推出以贸易情报为核心, 集外贸营销网站建设、外贸推广、电子商务平台推广、企业邮箱、 CRM 系统搭建等为一 体的国际贸易一站式解决方案——
2012年 12月, 双击科技采用 ORACLE 数据库和分布式服务器于行业内率先推出基于 云计算技术的全球领先的贸易情报服务平台——“国际贸易商业智能服务平台(GBI ) ” , 并获得了上海信息化支持项目。
双击科技 2006年 7月成立于上海浦东,至今在环渤海、长三角、珠三角地区成功 开设了 25家分公司。目前中国运营中心位于上海张江高科技园区内的国家信息安全产 业基地,并成功在北美、南美、欧洲等地区开设海外机构。
5.2 双击 GBI
Global Business Intelligence 采用 Oracle 数据库、 Lucene
全文检索工具、 Hadoop 系 统架构、分布式服务器??实现了国际贸易过程中分散、繁多的数据资源有效整合;基 于云计算的系统架构提高了平台大数据的处理能力,让用户在“云端”体验“大数据” 的飞速运行;基于用户业务开发过程中的环节衔接、流程再造需求,平台嵌入外贸管理 功能,实现了用户定制和服务推送功能,真正的成为企业外贸业务开拓和业务管理的全 程化解决方案。
图 1 双击基于数据、 CRM 、 ERP 、 SRM 的开发流程图
3 基于大数据的分析,商业模式创新 20
20
21
5.3 全球市场分析
首先我们应该通过全球的市场分析, 找到适合中国供应商的而且利润相对比较高的 市场。
以 led light为例 , HS编码:
94054090
(1)
中国出口 led light(94054090)全球市场分析:数量,单价,总价周期变化 情况,帮助用户掌握市场淡旺季,把握最佳出口时机;分析行业发展趋势,避免贸易危 机。
图 2 2012年 1月 -2012年 12月中国出口市场分析报告统计
(2)中国出口 led lighting (94054090)目的市场的情况,如果我们以 2年或者季度对 比就可看到每个市场的增减情况,从而帮助中国供应商挑选快速增长的好市场
3 基于大数据的分析,商业模式创新
22 22
图 3 2012年 1月 -2012年 12月中国出口目的国
TOP10
5.4贸易情报分析,主动出击,精准营销
5.4.1 宏观市场分析
单国数据库系统分析
通过对 led light 进行交易记录搜索,形成产品供求趋势分析报表,分析美国采购这个 产品的趋势图,帮助判断美国市场的需求量,需求周期,客户习惯,精准的把握进入市 场时间 , 低谷联系,高峰合作。
图 4 2012年 1月 -2012年 12月产品趋势图
5.4.2 原产国分析
美国采购 led light 产品,所有的采购中都是从哪些国家采购,从而去判断同行 的竞争情况。从图中可以看出,中国是其第一大供应国家。
23
图 5 原产国分析图
5.5 精准开发客户
客户全面扫描把控 , 精准开发
通过产品关键词搜索,查询某个时间段美国市场采购 led light的所有采购商, 以及采购的交易记录,对整个市场的采购量及客户群有一个深刻的认识和了解 , 以对这 个市场的开发前 , 做一个全面的认识。
图 7 美国采购商列表
通过产品报表,对市场上所有的采购商和供应商进行一个分析了解,根据其供需量 进行排序,同时分析本身的情况,针对自身情况来选择一些合适的客户,分析目前市场 有意向的客户进行重点分析和跟进。
3 基于大数据的分析,商业模式创新
24 24
图 8 美国十大采购商
6 结 论
在大数据的时代,在信息爆炸的时代,创造商业价值的源泉来自于社会,以共享为 核心,三大运营商都不在把管道作为价值的唯一来源。他们认为除了做管道之外,还要 做流量价值。整个时代的应用创新模式,这就要求企业要注重信息的价值,更加重视商 业创新,商业模式创新,包括像 DOUBLE-CLICK 的方式,从传统的贸易方式包括展会、 B2B 平台和贸易情报的创新。商业模式创新的目的是抓住企业用户需求的痛点,挖掘用 户内心真实的需求。企业要摆脱困境或打破发展瓶颈,实现快速增长,就必须进行商业 模式创新。
商业模式创新的灵魂就是文化因素, 商业模式创新的目的是为了增强企业的盈利能 力,增强企业的抗风险能力,降低企业营运成本和难度,给竞争对手设置门槛,超常规 快速发展,这些只是商业企业发展过程中的技术问题。而文化的建设则体现出企业的素 质问题。提升企业的自身形象和社会形象。所以从这个角度来说,企业也必须进行商业 模式的创新。
25
致 谢
26 26 致 谢
毕业论文暂告收尾,我要感谢陕西科技大学镐京学院能给我一个施展自己的平台, 同样感谢班主任李苏军老师四年对我的帮住,在此次毕业论文准备过程中,我得到了论 文指导老师鹿龙老师的悉心指导,在此谨向指导老师表示衷心的感谢!还有四年来陪伴 我的同学们以及给予我帮助的家人,谢谢你们四年来的相伴,让我在一个充满温馨的环 境中度过我的大学生活。
参 考 文 献
[1]<大数据时代下的大数据到底有多大?>> 中国大数据 [引用日期 2014-03-6] [2]<带您了解大数据>>.中国大数据 .2014-02-26 [引用日期 2014-03-25]
[3]<大数据时代>>([英 ]维克托·迈尔 -舍恩伯格) . 大数据交流中心 [引用日期 2014-04-11]
[4]<删除>>. [引用日期 2012-12-4]
[5]作者:彭虎锋 黄漫宇 新技术环境下零售商业模式创新及其路径分析——以苏宁 云商为例
[6]作者:丁伟国 丁俊武 王晓梅 基于 TRIZ 与 CBR 的商业模式创新方法研究
[7]《商情》 2014年 第 3期 作者:魏洪
[8]《中国科技信息》 2014年 第 3期 作者:丁伟国 丁俊武 王晓梅
互联网思维在传统产品设计中的应用
[9]《什么是大数据时代的思维 ? 》蓝调(2013)
[10]《大数据时代来临的思考 ----- 机遇与挑战并存》涉惠杰
[11]王珊等.《架构大数据:挑战、现状与展望》 . 计算机学报, 2011
[12]马帅,李建新,胡春明.《大数据科学与工程的挑战与思考》 . 中国计算机学会 通讯
[13]《大数据:互联网大规模数据挖掘与分布式处理》[M]. 王斌,译.人民邮电 出版社
27
范文二:大数据挖掘的算法有什么
大数据挖掘的算法有什么?
大数据时代,中国IT 环境也将面临重新洗牌,不仅仅是企业,更是程序员们转型可遇而不可求的机遇。小编就是抓住了大数据的大好前景,在千锋教育培训学习了20周,收获满满。下面是在千锋教育学习大数据时整理的大数据挖掘的算法,分享给大家。
分类和预测是两种分析数据的方法,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。目前数据挖掘方 法都要求,目前的数据挖掘研究已经在这些工作基础之上得到了很大的改进,开发了具有基于外存以处理大规模数据集合能力的分类和预测技术,这些技术结合了并行和分布处理的思想。
1、数据变小——分类算法
分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类 模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据 情况向用户推荐关联类的商品,从而增加商铺的销售量。 空间覆盖算法-基于球邻域的空间划分 空间覆盖算法-仿生模式识别 空间覆盖算法-视觉分类方法
做真实的自己-用良心做教育
2、极小覆盖子集
覆盖型分类算法的极小覆盖子集——对特定的训练样本集,若其子样本集训练后得到的分类模型与与原样本集训练后得到的分类模型相同,则称子样本集是原样本集的一个覆盖。在一个样本集的所有覆盖中,包含样本个数最少的覆盖称为样本集的极小覆盖子集。
3、回归分析
回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关 系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售 趋势作出预测并做出针对性的营销改变。
4、 聚类
聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。
5、关联规则
关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出 现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组; 第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术 已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。
6、神经网络方法。
做真实的自己-用良心做教育
神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非 线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。
小编知道,对于大数据课程知识体系来说这只是皮毛,更多知识都在千锋教育,小编也非常感谢千锋教育能够教授自己那么多受用的知识,当然更应该感谢小编的好哥们,正是因为他,才让我找到这么一个靠谱的培训机构,没花冤枉钱!
做真实的自己-用良心做教育
范文三:数据挖掘大作业
深圳大学研究生课程论文
题目
数据挖掘作业
成绩
专业
软件工程
课程名称、代码
161023050015
年级
2015 级
姓名
文 成
学
号
2150230509
时间
2015 年
12
月
任课教师
黄哲学 、王熙照
一、期末课程试题
针对一个离散属性二分类问题,表 1 给出了包含 15 个样本的训练集,其输 入特征为 A1,A2,A3,A4,A5,类标签为{1,2}。表 2 给出了包含 2 个测试样 本的测试集,其分类未知。请回答下述问题: 表 1. 训练样本 A3 A4 2 2 2 2 2 1 2 2 1 2 2 1 2 2 1 1 2 2 2 1 2 2 2 1 2 1 1 2 2 1 表 2. 测试样本 A3 A4 1 1 1 2
Samples 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A1 1 2 1 2 1 2 1 2 1 1 1 2 2 1 2
A2 3 1 3 1 3 1 2 1 2 3 1 2 3 2 3
A5 2 1 1 3 2 1 2 1 3 3 3 1 1 2 3
Class 2 2 1 1 2 1 2 1 2 2 1 1 1 2 1
Smaples 1 2
A1 2 1
A2 2 1
A5 1 1
Class ? ?
问题 1. 基于表 1 中给出的训练集,给出分别使用极小熵和极大熵选择扩展属性 所生成的两棵决策树。然后给出你对树的大小的理解,并比较两种方法生成的决 策树那个小,那个大。 问题 2. 分别将两个决策树转换成两组 IF-THEN 规则。 问题 3.分别给出此两组规则对表 2 给出的两个测试样本的预测类别。 问题 4. 那组结果你认为更可信?阐述你的理由。 问题 5. 利用极小熵生成的决策树是否是“最小决策树”?给出你的证明或反例
问题 6. 如果第一个属性 A1 为数值属性,其取值为 [0,1]区间的实数,如表 3、 表 4 所示。 此时如何处理?进一步请按你的方法基于表 3 给出的训练集产生一棵 决策树(用极小熵选择扩展属性),并给出表 4 中的测试样本的预测类别。 表 3. 训练样本 A3 A4 2 2 2 2 2 1 2 2 1 2 2 1 2 2 1 1 2 2 2 1 2 2 2 1 2 1 1 2 2 1 表 4. 测试样本 A3 A4 1 1 1 2
Samples 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A1 0.60 0.90 0.35 0.15 0.50 0.95 0.20 0.12 0.68 0.95 0.05 0.02 0.08 0.45 0.14
A2 3 1 3 1 3 1 2 1 2 3 1 2 3 2 3
A5 2 1 1 3 2 1 2 1 3 3 3 1 1 2 3
Class 2 2 1 1 2 1 2 1 2 2 1 1 1 2 1
Smaples 1 2
A1 0.10 0.98
A2 2 1
A5 1 1
Class ? ?
二、解答
问题 1 基于表 1 中给出的训练集, 给出分别使用极小熵和极大熵选择扩展属性所 生成的两棵决策树。然后给出你对树的大小的理解,并比较两种方法生成的决策 树那个小,那个大。 答 几个概念和求熵的方法: 熵是数据中的不确定性、突发性或随机性的程度的度量。 决策树是一个树结构。其每个非叶节点表示一个特征属性上的测试,每个分 支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。 设数据集为 D, 类标号属性”Class”有两个属性: 1 和 2,因此有不同的两类, 令 C1 对应“1”,C2 对应“2”,那么 C1 有 8 个样本,C2 有 7 个样本,所以数 据集 D 的熵为:
下面分别计算按各个属性分裂后所得的诸子集的熵。 1.若以“A1”作为分裂属值,则产生两个子集(因为该属性有两个不同的取值), 所以 D 按照属性“A1”划分的 2 个子集的熵的加权和为
0.4327+0.2139=0.6466
2.如果用“A2”为分裂属性
类似的:如果用“A2”为分裂属性
0.2406+0.2163+0.4=0.8569
3.如果用“A3”为分裂属性
0.1057+0.7839=0.8896
4.如果用“A4”为分裂属性
0.4339+0.4652=0.8991
5.如果用“A5”为分裂属性
0.2600+0+0.3237= 0.5837
根据以上结果得到使用极小熵生成的决策树:
那么用 A5 作为分裂属性,所得信息增益最大。
15 个训练集
A5=1 A5=2 A5=3
6
A4=1 A4=2
4
Class2 A2=1 A2=2
5
A2=3
5
Class1
1
Class2
2
Class1
1
A1=1 Class2
2
A1=2
1
Class2
1
Class1
使用极大熵生成的决策树: 那么用 A4 作为分裂属性,所得信息增益最小
15 个训练集
A4=1 A4=2
7
A1=1 A3=1 A1=2
8
A3=2
2
A5=3 A5=1
5
Class1
2
A2=1 Class2 A2=2
6
A2=3
1
Class1
1
Class2 A1=1
3
A1=2
2
Class2
1
Class2
1
Class1 A5=1
2
A5=3
1
Class2
1
Class1
从信息论知识中我们知道,期望信息越小,信息增益越大,从而纯度越高。 构造决策树的核心思想就是以信息增益度量属性选择, 选择分裂后信息增益最大 的属性进行分裂。所以树的大小跟期望信息和信息增益有关。另一方面,构造决 策树的关键步骤是分裂属性。分裂次数越多,树深度会变大,从而树就会更大。 所以极大熵生成的决策树明显要比极小熵生成的决策树要高, 树枝也比极小熵生 成的决策树要多,但生成过程也更繁琐。
问题 2. 分别将两个决策树转换成两组 IF-THEN 规则 答 使用极小熵生成的决策树转换成IF-THEN 规则: 规则1:IF A5=1 and A4=1 THEN Class为1; 规则2:IF A5=1 and A4=2 THEN Class为2; 规则3:IF A5=2 THEN Class为2; 规则4:IF A5=3 and A2=1 THEN Class为1; 规则5:IF A5=3 and A2=2 THEN Class为2; 规则6:IF A5=3 and A2=3 and A1=2 THEN Class为1; 规则7:IF A5=3 and A2=3 and A1=1 THEN Class为2; 使用极大熵生成的决策树转换成IF-THEN 规则: 规则1:IF 规则2:IF 规则3:IF 规则4:IF 规则5:IF 规则6:IF 规则7:IF 规则8:IF 规则9:IF A4=1 A4=1 A4=1 A4=2 A4=2 A4=2 A4=2 A4=2 A4=2 and and and and and and and and and A1=2 A1=1 A1=1 A3=1 A3=2 A3=2 A3=2 A3=2 A3=2 THEN Class为1; and A5=1 THEN Class为1; and A5=3 THEN Class为2; THEN Class为2; and A2=2 THEN Class为2; and A2=3 THEN Class为2; and A2=1 and A1=1 THEN Class为1; and A2=1 and A1=2 and A5=1 THEN Class为2; and A2=1 and A1=2 and A5=3 THEN Class为1;
问题 3.分别给出此两组规则对表 2 给出的两个测试样本的预测类别 答 极小熵构造的决策树对表2预测类别: Smaples A1 A2 A3 A4 A5 Class 1 2 2 1 1 1 1 2 1 1 1 2 1 2 极大熵构造的决策树对表2预测类别: Smaples A1 A2 A3 1 2 2 1 2 1 1 1
A4 1 2
A5 1 1
Class 1 2
问题 4. 那组结果你认为更可信?阐述你的理由。 答 当然,两组结果都一样的话最可信。 极小熵生成的决策树更可信。因为变量的不确定性越大,熵也就越大,一个 系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高,所以 每次采用极小熵进行划分等同于按照不确定性最小划分,划分的过程更加准确, 可靠。反之,采用极大熵划分所得到的决策树会比较高,不够直观。 问题 5. 利用极小熵生成的决策树是否是“最小决策树”?给出你的证明或反例 答 猜想:利用极小熵生成的决策树是“最小决策树”。 反证法:假设利用极小熵生成的不是最小决策树,那么一定存在一个更小的 决策树,如果存在,那么极小熵生成的就不是最小决策树。反之,找不出比这个 更小的树,那么利用极小熵生成的决策树就是“最小决策树”。证不出来。 如果属性比较少可以用穷举法列举决策树,可以观察一下极小熵生成的是不 是最小决策树。但属性多的话是一个 NP hard 问题,暂时不确定 问题 6. 如果第一个属性 A1 为数值属性,其取值为 [0,1]区间的实数,如表 3、 表 4 所示。 此时如何处理?进一步请按你的方法基于表 3 给出的训练集产生一棵 决策树(用极小熵选择扩展属性),并给出表 4 中的测试样本的预测类别。 表 3. 训练样本 A3 A4 2 2 2 2 2 1 2 2 1 2 2 1 2 2 1 1 2 2 2 1 2 2 2 1 2 1 1 2 2 1
Samples 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A1 0.60 0.90 0.35 0.15 0.50 0.95 0.20 0.12 0.68 0.95 0.05 0.02 0.08 0.45 0.14
A2 3 1 3 1 3 1 2 1 2 3 1 2 3 2 3
A5 2 1 1 3 2 1 2 1 3 3 3 1 1 2 3
Class 2 2 1 1 2 1 2 1 2 2 1 1 1 2 1
Smaples 1 2
A1 0.10 0.98
A2 2 1
表 4. 测试样本 A3 A4 1 1 1 2
A5 1 1
Class ? ?
答 将 A1 的概率值化成为在两个区间范围内[0-0.5]和 [0.5-1],也就是在 [0-0.5]为 1,(0.5-1]为 2,则训练样本就化为了表(1)
表(1)
Samples 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A1 2 2 1 1 1 2 1 1 2 2 1 1 1 1 1 A2 3 1 3 1 3 1 2 1 2 3 1 2 3 2 3 A3 2 2 2 2 1 2 2 1 2 2 2 2 2 1 2 A4 2 2 1 2 2 1 2 1 2 1 2 1 1 2 1 A5 2 1 1 3 2 1 2 1 3 3 3 1 1 2 3 Class 2 2 1 1 2 1 2 1 2 2 1 1 1 2 1
接下来就是和上述一样的画出决策树了
0.5875+0.2406=0.8281 参考上面的结果 得:
0.8569 0.8991
0.8896 0.5837
用极小熵选择扩展属性得到决策树: 初始一用15个训练集。
15 个训练样本 A5=1 A5=2 A5=3
6
A1=1 A1=2
4
Class2 A1=1
5
A1=2
4
Class1 A4=1
2
A4=2
2
Class1
3
Class2
1
Class1
1
Class2
决策树转换成IF-THEN 规则: 规则1:IF 规则2:IF 规则3:IF 规则4:IF 规则5:IF 规则6:IF A5=1 A5=1 A5=1 A5=2 A5=3 A5=3 and A1=1 THEN Class为1; and A1=2 and A4=1 THEN Class为1; and A1=2 and A4=2 THEN Class为2; THEN Class为2; and A1=1 THEN Class为1; and A1=2 THEN Class为2;
根据决策树表4的测试样本的预测类别为: Smaples 1 2 A1 0.10 0.98 A2 2 1 A3 1 1 A4 1 2 A5 1 1 Class 1 2
范文四:大数据挖掘分析
大数据挖掘分析
程陈
(中国地震局第二监测中心,西安 710054)
同“互联网”、“云计算机技术”相比,大数据的发展更为迅速,它被用于社会的各个方面,例如交通、企业管理、安摘要: 全监测以及我们的生活。相关人员声明,全球的数据量将在 2020 年达到 35ZB,因而,大数据的涵义以及数据挖掘带给社会经济的 挑战成为了人们关注的要点。
大数据;数据挖掘;挑战关键词:
TP311中图分类号: 文献标识码:A DOI:10.3969/j.issn.1003-6970.2014.04.038
[1] 程陈 . 大数据挖掘分析 [J]. 软件,2014,35(4):130-131本文著录格式:
Analysis of data mining
CHENG Chen
(China Earthquake Administration second monitoring center, Xi’an 710054.China)
AbstractWith the Internet, cloud computer technology, development of large data more quickly, it is used in all aspects【】“”“” of society, such as transportation, enterprise management,security monitoring and our life. Relevant staff statement, global data volume will reach 35ZB in 2020, therefore, the meaning of data and data mining to bring social and economic challengesbecome points of attention.
Keywordslarge data;data mining;challenge【】
0 引言 2 大数据的特征
人类自 2010 年便跨入了大数据时代许多同我们生活息息数据无处不在且大数据能够超越物联网云计算, ,“”、“”
开创自己的时代这与其自身的特征密不可分第一种类多,。,。 相关的仪器都步入了智能化而在数据中生活的我们在制造数 。
随着社会进步传感器的种类与日增多且社交网络智能设备 ,、据的同时也在通过数据加快经济发展速度提高社会文明因此,。,
被更多人认可数据类型也相对增多目前数据除去传统的 ,。,数据的战略意义已经同人力资源自然资源相同所以正确 、。,
关系数据还包括视频网页文档音频以及邮件等尚未处理、、、、 理解大数据的涵义及其发展前景将对社会发展具有极大的裨益。
[2]不具备结构模式或者半结构模式的数据 第二高速流动传 。,。1 大数据的概念 统的数据流动速度是指对数据撷取存数及分析具有价值信息的 、
大数据并非产品也不是技术只是数字化时代的一种现象,。 速度然而大数据因为其数据量的巨大快速变动的数据形成 。,,而且以战略眼光分析大数据可得出大数据不单指其底大的 ,,数据流的特点传统的处理方式已经无法处理这样高速流动的数 ,
数据量还包括如何用专业化方式处理这些数据关于大数据 ,。据进而数据处理已经由 TB 级上升到 PB 级第三数据量巨大,。,。 的概念有不同的定义基维百科将大数据定义为规模巨大到无 ,一般大数据指的是超过 10TB 规模的数据量而导致这种结果 ,。法用目前的软件工具处理的资料量在相应时间内完成撷取,、 的原因有三一是我们为能够了解更多事物而不断使用各类仪 ,
管理处理后利于企业完成经营目标的资讯研究机构将大数 、;器并存储这些事物部分或者全部的数据二是集成电路的成 ,;据定义为必须用新型的处理模式才更好地洞察决策并优化流 、本降低使得很多仪器智能化发展自行存储数据三是我们为 ,;程的巨量多样化且高速增长的信息资产而麦肯锡的定义为 、;能够随时传递信息而使用各类的通信工具尤其是机器到机器 ,大数据是一种数据集合且在一定时间内无法利用传统的数据 ,传递方式的诞生更是导致了交流数据激增第四低价值密度。,。 [1]软件对其进行数据采集存数管理及分析 无论是那种定义 、、。虽然数据量不断增长但是这些数据中具有意义的信息却没有 ,
都有一定的狭义性依据广义的定义大数据不但包括大数据 ,,以相应比例进行增长这会加大我们获得需要信息的难度例如,。, 技术应用还包括大数据科学以及大数据工程在大数据时代、。, 4V不仅代表数据量巨大同时也代表数据分析将会更加复杂“”,, 如何深层次开发大数据并提供相关服务能力将成为竞争的关键。 更难达到要求的效率。
作者简介:程陈(1987-),男,助理工程师,主要研究大数据挖掘分析方向
130 软件杂志欢迎推荐投稿:cosoft@163.com
程陈:大数据挖掘分析
步成为了社会发展的重要力量然而随处可见的数据降低了。, 3 数据挖掘的功能及应用
自身信息的安全性一般大量数据会存储于云端无法集中 。,,数据挖掘是大数据时代的关键技术是指从非完整的海,、 管理从而无法单独管理用户信息并分别其是否合法这就导 ,,量的有噪音的模糊且随机的数据中挖掘隐含在内且人们未 、、致非法入侵或者窃取篡改数据信息的危险性提高所以对 、。,提前得知的有用信息的过程一般数据挖掘的功能有两类。,, 于信息安全领域而言如何保证信息安全成为了首要问题对此。, [3]即描述和预测 描述性挖掘用于展现集体数据的一般特性而 。,大数据领域研发出了各种为信息安全服务的技术和产品保证 ,预测性挖掘用于推算处理数据完成预测目的数据玩具功能 ,。各大数据产业链的数据安全所以大数据挖掘对信息安全发 。,同目标数据的类型有关有些功能适用于不同类型的数据有 ,,展而言具有极大的意义。 些功能则只适用于某种特定数据数据挖掘功能能够让人得知 。
4.2 大数据挖掘将成为企业及教育机构转折点 未知信息提升数据价值从而应用到了不同领域,,。
随着大数据挖掘技术在企业管理中的应用以及其带来的经 3.1 数据挖掘在金融业的应用 济效益企业若想在新的时代中继续保持自身利益就必须重 ,,金融业因其业务特性需要搜集大量数据一般这些数据 。,新制定管理模式将大数据挖掘运用到企业管理当中这样才 ,,比较真实完整分析之后便能够发觉其中隐含的模式和特点、,, 能紧随时代发展的脚步同时大数据时代的到来也给人才资 。,掌握目标客户或者组织的信息进而洞察到金融市场的动态,。 源带来一定的挑战因为企业必须拥有三类人才才能够从大 。,数据挖掘在金融业中主要被用于市场分析预测数据清理、、、 数据中获得关键信息即分析人才管理人才以及技术型人才,、。 分类账号评估信誉等、。 相关人才的匮乏和需求对教育机构而言也是一项冲击如何调整 ,3.2 数据挖掘在市场业的应用 自身教育内容为社会提供相应的人才是教育机构面临的问题,。
市场业主要通过数据挖掘技术分析市场定位以及消费者的 4.3 大数据挖掘将成为创造价值的核心 行为通过集中分析消费者的信息从而得出某些消费群体的规 ,同传统数据相比大数据将数据挖掘以及应用作为数据的 ,律需求并根据这些信息确定相应的市场定位和营销计划、,。 中心这对企业商业模式有着极大的影响麦肯锡曾预测欧 ,。,同传统营销模式相比大数据挖掘功能能够降低企业的成本,, 洲政府以及美国医疗业可通过运用大数据而分别节省 1000 亿欧 使其获得更高的利益。 元和 3000 亿美元此外大数据中潜在个人信息价值高达 6000,, 3.3 大数据挖掘在医学中的应用 多亿美元可见大数据挖掘及应用能够从不同方面为社会创造 ,人类的某些疾病同人类的基因相关有些是单个基因造成 ,价值。 的有些则是多种基因共同影响的为找到治疗这些疾病的方法,。,
5 结束语 必须进行基因研究而基因研究是建立在区分编码序列和非编 ,
码序列上区分这两种序列必须经过大量实验以及演算其实,。, 大数据发展的时间虽然短却打开了一个新的时代引领全, 区分这两种序列就相当于分类而分类问题在数据挖掘中已经 ,球进入新的竞争我国也应当洞悉大数据时代发展的核心及 。,有了一定的发展因此可将数据挖掘分类问题的某些研究运 。,时调整发展政策开展人才培训研究大数据挖掘技术信息 ,、、用到基因序列分类上有利于人类医疗事业的发展,。 安全系统研究等工作通过对大数据以及数据挖掘的研究及合 ,
理利用让我国经济快速发展。 4 大数据挖掘的发展前景
参考文献 数据库因为大数据时代的来临而突破了传统模式转变成, [1] 葛春燕 . 数据挖掘技术在保险公司客户评估中的应用研究 [J]. 软件, [4]可进行数据变换连接及共享的数据库 因此我们可借助大 、。,2013,34(1):116-118
数据挖掘技术利用曾无论利用的多类数据抓住机会让数据为 ,杨泽民 . 数据挖掘中关联规则算法的研究 [J]. 软件,2013,34(11): [2] 自己服务可见大数据挖掘基于其数据的特征和数据挖掘的 。,71-72
韩少锋 , 陈立潮 . 数据挖掘技术及应用综述 [J]. 机械管理开发 . 作用而拥有良好的发展趋势。 [3]
2006(02) 4.1 大数据挖掘将成为信息安全发展的契机 钟瑛 , 张恒山 . 大数据的缘起、冲击及其应对 [J]. 现代传播 ( 中国传 [4] 如今互联网云计算等新兴技术提升了数据的价值逐,、, 媒大学学报 ). 2013(07)
131 软件杂志欢迎推荐投稿:cosoft@163.com
范文五:大数据挖掘——数据挖掘的方法
大数据挖掘——数据挖掘的方法
来源:扣丁学堂
大数据挖掘——数据挖掘的方法一直是人们津津乐道的话题,今天小编废话就不多说了,我们一起来看一下大数据挖掘——数据挖掘的方法吧:
一、神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP 反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型; 以Hopfield 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型; 以ART 模型、Koholon 模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是" 黑箱" 性,人们难以理解网络的学习和决策过程。
二、遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
Sunil 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一[4]。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元; 用遗传算法和BP 算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。
三、决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan 提出的著名的基于信息熵的ID3算法。它的主要问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难; 同性间的相互关系强调不够; 抗噪性差。针对上述问题,出现了许多较好的改进算法,如 Schlimmer和Fisher 设计了ID4递增式学习算法; 钟鸣,陈文伟等提出了IBLE 算法等。
四、粗集方法
粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息; 简化输入信息的表达空间; 算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大Regina 大学开发的KDD-R; 美国Kansas 大学开发的LERS 等。
五、覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式) 。比较典型的算法有Michalski 的AQ11方法、洪家荣改进的AQ15方法以及他的AE5方法。
六、统计分析方法
在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系) 和相关关系(不能用函数公式表示,但仍是相关确定性关系) ,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等) 、回归分析(用回归方程来表示变量间的数量关系) 、相关分析(用相关系数来度量变量间的相关程度) 、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异) 等。
七、模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型--云模型,并形成了云理论。
扣丁学堂大数据视频教程讲师:关于大数据挖掘——数据挖掘的方法就先为大家分享到这,感谢大家阅读由扣丁学堂分享的“大数据挖掘——数据挖掘的方法”我们会不定期的分享更多关于大数据的文章,供广大大数据学员进行学习,更多精彩内容请关注扣丁学堂官网。
删除>大数据时代>带您了解大数据>大数据时代下的大数据到底有多大?>