范文一:大数据时代的发展趋势
大数据时代的发展趋势
——中国工程院院士邬贺铨
尊敬的北大的各位老师、各位专家、各位CIO~很高兴来参加这次论坛。最近这几天好像有点“CIO热”~上个礼拜Gartner在北京有CIO论坛~明天在上海也有CIO论坛~大数据论坛也是到处在开。今天的标题是“大数据应用”~我知道今天后面的几位报告人会讲到大数据在教育、医疗、商业等等方面的应用~所以我这里就只讲一下大数据时代的ICT趋势~会讲到四个方面的问题:大数据浪潮的到来、大带宽发展的趋势、大网络布局的演变、大数据挖掘的挑战。
第一~大数据浪潮的到来。绿色图表示每个网民人均每个月下载流量~1998年每个网民一个月只需要一兆流量~2003年就需要一百兆~2008年就是1G~到2014年每个月要10个G的下载量。右边的图是讲全世界互联网流量累计达到1EB所需要的时间~2001年需要一年~2004年需要一个月~而今年只需要一天。2012年去年全世界互联网一天的信息量大概是1EB~可以刻满1.68亿张DVD~。现在全世界新产生的数据量每年增加40%~每两年数据翻一番。2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和~两年的数据量等于一万年的总和~这个数据规模为1.8ZB~假如把这个数据装在32G的IPad上~要装575亿个~把这些iPad摞起来~可以摞起两座中国的长城。2020年全球数据将达到40ZB~如果将数据装在光盘上~这些光盘总重量等于424艘尼米兹号航母。所以说~大数据时代到来了。
大数据有网络数据、企事业单位数据、政府数据~网络数据自媒体数据(比如社交网络、博客、微博等)~有日志数据(比如搜索引擎~大家上网等等都会留下很多足迹)~还有富媒体数据(视频、音频等等)~每天的数据量很大。比如淘宝每天数据量就超过50个TB;新浪微博晚上高峰的时候一秒钟就要接收100万以上的响应请求;百度每天大概处理60亿次搜索请求~几十PB;中国联通每天记录用户上网条数~一秒钟记录83万条~一个月大概是300TB;国家电网信息中心目前累计收集了2PB的数据;北京公交一卡通~每天用公交一卡通的旅客有4000万刷卡记录~而北京地铁每天乘客1000万~把这些数据每天收集起来分析数据可以用于改善北京的交通状况~优化北京的公交线路。
最大的流量是视频。美国TouTube网站一分钟有72小时的视频上载~到2016年互联网上的忙时流量是720Tbps~相当于全世界有6亿人同时看不一样的高清电影。到2016年每3分钟互联网传送360万小时视频~相当于全球已经生产的全部电影。这个电影用什么量衡量呢?如果一个人要看3分钟所传送的电影~需要34年不吃饭、不睡觉才能看完。最近两个月在TouTube上载的视频量是美国三大电视台--ABC、NBC、CBS自1948年以来24/7/365连续播出的内容~可以看到视频流量非常大。
大数据无所不在。图中是美国的一家医院(UPMC)~一年能收500TB数据;伦敦有200个交通摄像头~每天是8TB数据;伦敦才200个~北京有八十万个摄像头~数据量要比伦敦大得多了。还有其他方面的数据量~大数据无所不在。就监控而言~很多城市的摄像头多达几十万个~一个月的数据就达到数十个PB。北京公安局规定~所有超市~只要有开放食品架的~全
都要装高清摄像头~能清晰的拍摄到走在架前人的脸部~以防投毒~防用针管装艾滋病毒、传染病毒打到液体里等~那么产生的数据就更大了。飞机的汽轮机产生的数据是Twitter的七倍~例如波音787~它每一个飞行来回可产生TB级的数据~美国每个月收集360万次飞行记录;监视机队25000个引擎~每个引擎的数据一天产生588GB;空客380软件有10亿行~每30分钟产生10TB的数据;风力发电机装有测量风速、螺距、油温等多种传感器~每隔几毫秒测一次~用于检测叶片、变速箱、变频器等的磨损程度;一个具有500个风机的风场一年会产生2PB的数据。这些数据用于预防性维护~可使风机寿命延长3年即达到18年~每年每风机的成本将降低17%。根据上面监测的统计~今天所有企业的信息存储总量已达2.2ZB~未来几年将年增67%。
大数据的应用很多~比如淘宝~通过采集淘宝网上成交额比较高的390个类目的商品价格来搞出淘宝的CPI~比国家统计局公布的CPI更早的预测到经济状况。为什么?国家统计局统计的CPI主要根据是刚性的物品;比如食品~经济好、经济不好~人们都要吃饭~因此差别不大。可是淘宝上都是买化妆品、电子产品、服装~经济不好就会少买~因此淘宝CPI更能反映价格走势~一般来讲比我们国家统计局公布的CPI~能提前一个月到半个月预测到走势。中央首长到了淘宝看了以后就说“你们每天把淘宝的CPI送到中南海”。最近经济情况的下行压力很大~很多中小企业贷款很难~因为他们没用担保。阿里公司根据在淘宝网上中小公司遭遇的状况~筛选出财务健康、诚信企业~不要他们担保~阿里放贷300多亿元~坏账率仅0.3%。去年公布的四大商业银行坏账率是这个数字的13倍。商业银行是有担保的~而阿里没有担保。
Google把5000万美国人频繁的搜索跟美国疾控中心流感数据进行比较~一个地方发生流感肯定有很多人在网上搜索这些词汇~因此根据这些词汇出现频率可以判断这个地方出现流感~Google在2009年的甲型H1N1流感出现时~它比美国疾控中心提前几个月发布公告。Google前雇员创办了Climate公司~从美国气象局获得几十年的天气数据~并与各地的农业状况、土壤状况关联起来~尚有需求的农场主说“谁问我明天种什么能赚钱~我告诉你~如果我说错了~我的赔偿要比保险公司还要更高。”到现在为止~据说他们从来还没赔过~不像我们国家的农民只是根据简单的判断~今年猪肉贵了~明年大量养猪~明年猪肉就便宜了~然后年猪肉又贵了。所以农业上的大数据应用是很有帮助的。
第二~大带宽发展趋势。大数据必然驱动大带宽~这是全世界国际互联网干线的流量状况~根据美国的预测显示~2010年比2009年全世界的数据量增长了62%~按这个推断~10年国际互联网流量要增长1000倍~美国自身的互联网流量也是10年增长1000倍。这个曲线是全世界骨干网的流量~无论亚洲金融危机还是其他危机互联网~流量都不受影响~依旧保持高速增长。首先是光纤浏览~早年的是模拟的频分复用~90年代开启了光纤复用~当时叫数字的时分~TDM~当时一对光纤传2.5GB的三万电话电路;波分复用~一对光纤不仅仅可以传一个波长~可以同时传输多个波长~叫做波分复用。一对光纤在工程上已经传送1.6TB~相当于2000万电话电路。光纤通信虽然还可以采用更多的光纤技术~做到一对光纤传输16个TB~两亿电话电路。当然随着干线容量增加~我们希望系统更灵活~所以光互联网就出来
了。总之~光纤传输能力十年扩大1000倍~目前来看还有很大发展空间~而且现在光纤光缆成本很低~中国生产世界一半的光纤光缆~同时也消耗了世界一半的光纤光缆~10年前中国的翻新光纤一公里卖到两千多人民币~去年报价是53元一公里光纤~现在光纤比面条便宜~极大地支撑了宽带化发展。可以看到~95年的时候数据总容量比较小~只有2.5G到10GB~波分数量也只有8到40个。到2010年可以看到~信道单波长已经做到100G~信道容量做到15个、50个波长。到2020年单波长要做到1T~总容量还会增大。右下角的图是中国联通169的网络~可以看到它每年都在扩容、增长。随着大数据时代来临~运营商还要大量的增加光纤容量。
另外~不单是干线容量增加~我们也希望用户节路带宽增加~所以新的运营商会推动“光纤到户”~实际上“光纤到户”是广义的~并不真正是’光纤到户”~而是光纤到大区、光纤到大楼。在中国光纤到了一个大楼之后剩下的路线很短了~也可以传高比特率。现在光纤传输用的是无源光网络~从局域端到用户端是一个光纤~快到用户家门口进行分支~这里面向行叫10分~下行是广播式的。这样用户的带宽能做到~现在可以上到100兆。说了光纤~除了有线~我们希望无线也是宽带的。第一代移动中国通信在90年代的时候中国就退网了~那个时候是模一的电路交换~带宽比较差~现在大家比较多用的是第二代移动通信~它是GSM CDMA~带宽当时只有几百K~3G带宽是Mbps~现在中国基本上都是增强型3G~几十M。前年上海世博会上周围搞了眼镜型的3G~也叫LTE实验~现在在全国已经有16个城市在开展实验了。最近~工信部预计今年年底可能要发4G牌照~4G是在LTE基础上有进一步的改进~高速移动时就可以支持100M~低速在家里可以不要网线1G下载(这是峰值)~在中国4G牌照没有发放的时候国际上已经开始第五代移动通信标准的研究了~第五代移动通信希望能够使用户享受到在运动状态下也能享受到1G峰值速率。当然每一代移动通信都是革命的~第一代移动通信蜂窝小区靠频率不同区分用户~叫做FDMA频分多址。第二代移动通信GSM是靠时分区分用户~叫TDMA时分多址~从第二代开始~第三代移动通信有CDMA的是码分多址~现在到第四代移动通信叫OFDMA~是正交频分多址~把频率的时间的、空间的因素都利用起来~使得移动通信的峰值速率平均每年加倍~10年1000倍。提高移动通信的峰值速率~当然这里面要付出很大的代价。你们可以看到~早年GSM只有kbps~后来到100k~到3G是Mbps甚至是10M量级~现在到LTE开始是百兆量级~随着移动通信峰值速率越来越高~我们的终端能力也越来越强~来不断提升终端的宽带化的能力。当然了~要提升这个能力现在面临很多挑战~比如说当手机离基站很近的时候~它可以直接从基站获得信号~当手机回到家里~可能楼的墙壁钢筋水泥太厉害了~这个时候穿不过去了~就要加上室内中继来接力~如果你在马路上当然你很靠近天线时没问题~当远离天线时要发展终端到终端~也就是你拿着手机走在路上~你没打电话、上网~但是不知不觉当了第三者~当了别人的二传手。回到家里~最好转到WIFI上~节省带宽和频率。总体来说~未来我们需要通过多点协作、多个基站服务一个用户~通过中继、各种天线以及终端的接力以及异构的网络来支撑移动通信的宽带化。比如说这个基站是回龙观~很多人晚上会住在那~晚上基站会很忙。而白天这些人都上班了~回龙观那边用手机打电话、上网的人少了~基站忙闲不均~有潮汐效应~怎么办呢?把每个小
区基带处理部分集中起来~成为一个基带池~每个蜂窝小区只剩下射频~如果某个蜂窝小区的资源富裕可以调整给另外一个小区用~当然了形成基带池的好处不仅仅实现忙闲调配~而且有利于运营商集中调控~节省能源~也有利于基站选址。现在老百姓环保意识比较强~不希望自己的楼顶放基站天线~一方面大家抱怨信号不好、希望基站加密~另一方面老百姓又抱怨这个可能会对身体有影响。但实际上~中国移动通信环保标准是全球最高的。
第三~大网络布局的演变。从图上可以看到~这是数据中心~整个高度是数据中心的总量~绿色部分是数据中心使用云计算的比例。我们可以看到~到2015年一般以上的数据中心都会用到云计算~连增22%。过去没有人谈云计算~80年代谈数据库、90年代谈IBC~现在谈云计算。实际上云计算应该更准确的是云服务~当然未来会发展成什么?不知道。云计算底层有一个基础设施~像我们很多企业把它的数据库托管到运营商那里~这就使用了云计算~使用了IaaS系统。IaaS里头有数据中心、存储器、服务器~如果仅仅这样还不够~对运营商来讲~无非是“数字房地产”。运营商希望进一步在上面增加开发工具~叫PaaS~可以提供JAVA、Web2.0一些开发工具、中间件等等~企业可以租用这些开发工具~开发企业要的一些软件~比如说数据挖掘等等。对于一些小企业而言~根本没有开发能力~因此干脆直接租用你的软件~这是SaaS。比如说现在谈大数据分析~哪个企业都希望大数据分析~但是每个企业去买这些数据分析软件是很不划算的~因此租用第三方的分析软件可能是一个方向。当然更进一步的有Business~有能力的企业可以在上面更多的开发。所以云计算并不是为大数据而诞生的~但云计算正好适应了大数据的需要。
另外一点~网络节点位置要从信源中心向能源中心扩展。我国有20个省市制定云计算规划~大规模数据中心建设成为各地发展热点~11个省市云计算投资均超过100亿元。内蒙要建云计算中心、他说他那里有煤、能源~而且气侯比较好;重庆市长说~别看我这里热~但是长江水比较冷~可以拿来降温~而且这里没有地震~我这里要尽云计算中心。按照工信部等八部委2013年1月14日发布的《关于数据中心建设布局的指导意见》~中国的数据中心要考虑气候环境、能源供应~建议我们国家的云计算中心向高纬度地区集中~也就是内蒙、西北这些地区。过去的数据中心放在上海、北京、广州这些地方~而将来数据中心一半是云计算中心~而它们更多要放到内蒙、西北~也就是说网络结点位置会从信源中心往能源中心拓展~实际上云计算会改变互联网的流量和流向。
另外~由于数据量非常大~过去运营商并不是每个省线路都互相直联的~往往通过北京互联~有些通过上海、广州。现在中国电信ChinaNet网络每个省之间都直联了。为什么?因为数据量太大了~所以希望网络要扁平化。过去我们都说什么东西都到IP层做交换~随着数据发展以后我们希望的路由器容量会很大~一个纯IP电的Tpbs的路由器~一个端口就一千瓦~功耗很大~如果光的类型的交换~一个端口才25瓦~而且大数据里面大量的数据是过路的~而不是落地的~因此现在改变了互联网的格局~凡是能在光层上做的交换绝不在电层上做~凡是能在MPI(层上做的交换绝不在IP层上做。过去我们常说什么东西都在要IP上交换~现在IP要变成包装~能不在IP上交换的绝不在IP上交换。你可以看到~这是大数据的发展。
另外~过去的路由器本身具有转发和控制功能~也有节点控制功能、业务控制功能~每个路由器都是独立的~也是自我的~它根据来的数据来选路~但是这样的方式很难适应大数据时空动态性~大数据产生的位置、发生时间可能是不均的~也不平衡~如果动态需求希望我们的网络也是动态的~那么传统路由器刚性的设计很难适应动态需求~因此现在提出SDN(软件定义网)~希望把路由器里头操作系统提起来~然后把路由器控制集中~这样造成网络操作系统~而路由器就剩下传输与转发功能~这是执行机构~可以根据网络需求来集中调用配置~可以使网络变的更柔性化~这是软件定义网~能实现转发与控制分离。
大数据推动城域网体系的演变~早年我们都是大计算机连大服务器~后来常常很多时间提的是客户服务器~计算机连到服务器。当一个热门的节目所有终端都希望下载的时候~这个服务器就是瓶颈。因此就出来了P2P~也就是说~各个终端能力都很强~每个终端没必要全部下载下来~每个终端只下载其中一部分~各个终端下载不同的部分然后相互交换~我们叫做Peer-to-Peer~现在很多发现这个体系架构也需要改变了~因为大数据的出现~一个终端到一个服务器之间很多数据不是一个服务器能装得下的~当一个终端接入到一个服务器的时候~可能需要调用其他服务器存储数据来支持~因此最近五年我们国家接入网流量带宽增长了6倍~而城域网流量增长了22倍~有更大流量在服务器之间交换。也就是说~网络的体系会从客户服务器的垂直架构向服务器之间的水平架构优化。大数据推动了城域网体系的演变。
另外~由于数据量很大~所以现在Google、雅虎、亚马逊、腾讯、新浪、百度都纷纷的把它的数据通过CDN写到不同地方。腾讯总部在深圳~可是它把很多服务器放在北京、广州、上海等等~甚至分散到很多省~目的是缩短用户接入到服务器的距离~所以内容分配网应用而生~最近发展得很快~内容分配网会对整个互联网流量流向产生重大的影响。走了捷径~那么省间长途流量就可以下来。所以内容分配网拉近了信源和用户的距离。全球互联网去中心化~这个图是全世界用户互联网带宽~国际互联网带宽是增加的~但是比例是下降的。左上角的图就是美国全球各个州到美国的国际互联网的流量~除了上面的线是拉丁美洲~下来之后略有回升~其他的亚洲、欧洲、美国互联网国际流量比例是下降的~也就是说绝对值增加、相对值下降~这是因为很多东西只需要就近访问~并不需要跨洋越境了。
第四~大数据挖掘的挑战。大数据技术涉及到数据采集、数据存储、数据计算、数据挖掘、数据呈现、数据安全等~涉及到很多环节。比如说挖掘就需要对数据进行清洗~进行合并、压缩~要转换格式~然后进行统计分析~知识发现以及可视化处理。然后找出它的关联规则~分类、聚类~排序列~优化路径。这里涉及到一大批的数据挖掘的软件~简单来说~首先是MapReducers~左边的图上很多数据~不同颜色表示不同类型~首先通过Map把这些数据进行分类~不同业务类型的数据分到不同的存储服务器里头~这样就是为了简化运算~在分类过程当中数据是要加标签的~同时要把重复的去掉~这是进行大数据的预分析前的一些操作。另外~大数据需要有很多服务器。曾经有人认为买高端服务器才可靠~后来Google首创利用低端的服务器~它认为没必要用高端~只要用低端服务器就够了~而低端服务器可
靠性不好~怎么办呢?冗余配置。就是把一个数据拷到三个服务器里头~三个低端服务器的价格仍然比一个高端的服务器便宜~这样一来既提高可靠性又降低了成本。所以大数据的分析需要分布存储和冗余备份。还有Map Reducers要通过映射、调度~最后把结果归纳起来得出我们要得结果。大数据跟过去的分析不一样~过去的数据都是存下来~存到静止的数据库里头~然后再分析。而大数据每时每刻都有~比如说几毫秒就要送一个数据出来~飞机引擎也是不断的送数据出来~数据根本没有停止的时候~我们不可能等数据停下来再来分析~我们必须一边走一边分析~怎么办呢?过去的分析是静止的~叫做“带数据进程序”~现在的分析是在活动的~也就是“带程序进数据”。所以大数据分析也会带来很大的挑战。
另外~更难的挑战是非结构化的数据。所谓结构化就是说可以用文本表格等方式来表达~即便文本表格表达从语意理解还是比较难的。比如地震的时候~网络上为了监控舆情~看看究竟是正面的评论多还是负面的评论多~有一条信息说“当他发现他儿子还活着的时候~他抱头痛哭。”按照分析~“痛哭”肯定是负面的。但实际上这是正面的。这是因为什么呢?要让计算机懂得人的感情~这就难了。文字的分析况且这么难~那么对照片的分析就更难了~要通过OCR扫描出里面的文字~把文字作为标签加到照片上。照片还好说一点~而视频分析就更难了~你怎么找这个人?去年1月份周克华在南京杀了人~当时摄像头把他拍下来的~南京市调出几十万个摄像头视频~拍多长就要看多长~没有分析的办法就靠人看~所以这是很慢的。因此大数据互换智能化的处理、智能化的分析。
另外~大数据需要虚拟化和可视化。举个例子~上海江苏路~路上有很多摄像头~每个摄像头背后连一个电视屏幕~在交通管理中心的一面墙上放了很多屏。当然了~再大的墙壁也放不下全上海这么多交通摄像头~所以只能10秒钟显示一条马路的摄像头~这些都是分离的~一个一个看很难看出问题。我们希望通过软件把这条马路的摄像头合成一个视频~只要看这个视频就知道全马路摄像头的状况了。当然只有一条马路还不够~我们还要把它合成全上海一幅图~就像上海市领导坐着直升机俯视上海一样~看到上海市整个城市里头~在东京北纬某个纬度~在某个时刻段~哪段路交通堵塞。大数据~无论数据有多大~无论是PB还是TB~最重要结果都应该非常直观的一幅图。
Gartner公司在发布2012-2016的IT发展趋势~有五点:大数据、云存储、移动应用、社交网络、网络安全。我们可以看到其中最主要的是大数据。大数据推动ICT发展的时代~云计算、移动互联网、下一代互联网、大数据、物联网、社交网络~我叫做“大智移云”~你可以看到这些新的信息技术适应大数据新一代发展。
最后~宽带化、移动互联网、物联网、社交网络等催生大数据~大数据预示信息化发展进入新阶段~大数据是信息化新浪潮的结晶。为适应大数据的需求~光纤通信和移动通信加速宽带化。大数据加快了云计算、CDN和对等直联(或NAP)节点的部署~网络节点位置从信源中心向能源中心转移~信源中心向用户靠拢~互联网显现去中心化。大数据挖掘对数据采集、存储、分析、决策、呈现和安全等技术带来大挑战。谢谢大家!
范文二:大数据时代的会计审计发展趋势
大数据时代的会计、审计发展趋势
当今,大数据伴随着云计算、移动互联网的发展,正在对全球经济社会产生巨大的影响。大数据给现代会计、审计提供了新的技术和方法,要求人们把握大数据的特点,变革现代会计、审计的思维与技术和方法,推动大数据时代会计、审计的发展。
大数据的涵义与特征
“数据”(data )这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。2009年,“大数据”这个概念才逐渐开始在社会上传播。“大数据”概念真正变得火爆,却是因为美国奥巴马政府在2012年高调宣布了其“大数据研究和开发计划”。这标志着“大数据”时代真正开始进入社会经济生活。
互联网数据中心(IDC )为“大数据”下的定义:“大数据”是指为了更经济更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。大数据具有4V 特点:第一,数据体量巨大(Volume ),从TB 级别跃升到PB 级别。第二,处理速度快(Velocity ),1秒定律,这一点也是和传统的数据挖掘技术有着本质的不同。第三,数据类型繁多(Variety ),有网络日志、视频、图片、地理位置信息等多种形式。第四,价值密度低,商业价值高(Value )。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
大数据的精髓在于促使人们在采集、处理和使用数据时思维的转变,这些转变将改变我们理解和研究社会经济现象的技术和方法。
1、在大数据时代,不再依赖抽样分析,可以收集和处理整体的所有数据。19世纪以来,当面临大的样本量时,人们都依赖于抽样分析。但是,抽样分析是由于信息缺乏和取得信息受限制的条件下采用的一种方法,这其实是一种人为的限制。如今,科学技术条件已经有了很大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大量增加,而且未来会越来越多。
统计抽样其实只是为了在条件和技术受限制的特定时期,是在不可能收集和分析全部数据的情况下的选择。统计抽样本身存在许多固有的缺陷,它的效果依赖于抽样的绝对随机性。但是,实现抽样的绝对随机性非常困难,一旦抽样过程中存在任何偏见,分析结果就会相距甚远。随着大数据分析取代了抽样分析,社会科学不再单纯依赖于抽样调查和分析实证数据,现在可以收集过去无法收集到的数据,更重要的是,现在可以不再依赖抽样分析。
2、在大数据时代,不再热衷于追求数据的精确度,而是追求利用数据的效率。当测量事物的能力受限制时,关注的是获取最精确的结果。但是,在大数据时代,当拥有海量数据时,大数据纷繁多样,优劣掺杂,绝对的精准不再是人们追求的主要目标,更重要的追求数据的及时性和使用效率。
现在,人们能够容忍模糊和不确定性出现在一些过去依赖于清晰和精确的领域,当然过去可能也只是有清晰的假象和不完全的精确,只要人们能够得到对一个事物更完整的概念,人们就能接受模糊和不确定性的存在。相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助人们进一步接近事情的真相。
3、在大数据时代,人们不再热衷于寻找事物的因果关系,而是充分利用事物的相关关系。寻找因果关系,是人类长期发展过程中形成的习惯。相关关系也许不能准确地告知某件事情为何会发生,但是它会提醒人们这件事情正在发生,在许多情况下,这种提醒的帮助作用已经足够大了。
在大数据时代,人们可不必非得知道现象背后的原因,而是要让数据自己“发声”。知道“是什么”就够了,没必要知道“为什么”。通过找到一个事物的良好的相关关系,就可以帮助
人们捕捉到事物的现在和预测未来。如果A 和B 经常一起发生,人们只需要注意到B 发生了,就可以预测A 也会发生了。
大数据时代会计、审计的发展趋势
面对大数据所带来的新思维、新技术和方法的变革,会计、审计人员需要应时而变来适应思维模式及数据处理模式的变化。大数据对会计、审计发展的影响,主要表现在以下几个方面:
1、从事后的财务报告向实时财务报告发展
传统会计中,会计人员只是在企业生产经营业务发生后才编制财务报告,而且财务报告编制过程漫长,年度财务报告一般用三至四个月时间才能完成编制,严重影响了会计信息的及时性和利用效率。随着信息技术迅速发展,越来越多的人意识到实时财务报告的重要性,而大数据技术使实时财务报告成为可能。实时财务报告是信息技术与大数据技术较好交叉融合的产物,是信息化条件下会计技术和方法发展的必然产物,尤其对业务数据和风险控制“实时性”要求较高的特定行业,如银行、证券、保险等行业,在这些行业中实施实时财务报告迫在眉睫。
在大数据时代,企业要实现实时财务报告,首先要在企业内部局域网中实现企业的会计信息系统和管理信息系统的数据集成,这可以通过建立企业的中心数据库来实现;其次是将企业内部局域网与国际互联网相连,实时财务报告系统中所用到数据则来源于外部国际互联网和企业内部局域网的中心数据库。实时财务报告由会计人员对数据库信息进行网页化处理后供用户浏览,同时用户也可根据需求自己定制所需信息,通过ASP 等动态页面生成技术即时生成所需的财务信息页面,为财务报告使用者提供实时的财务会计信息。
2、从会计的反映过去向预测未来发展
在大数据时代,会计人员需要更多地探寻如何利用大数据资源帮助企业预测或防范风险,并确保绩效和实现价值的持续增长。大数据能够让会计人员进行彻底革新,并有机会在企业中发挥更具战略性和“前瞻性”的作用。会计人员通过各种技术不断收集、储存和传递的海量数据会改变会计工作的工作重心,从数据分析和挖掘过程中向企业领导提出预测性的重要趋势,并为股东和利益相关方创造新的财富。
会计人员要实现从反映过去向预测未来发展,将需要做到以下三方面的工作:首先,要制定数据评估的方法和服务,在符合法规且有效管理数据资产方面,发挥其对合规与内控方面的作用。其次,利用大数据提供更具针对性的决策支持,可以是通过实时方式,并决定何时与内部和外部利益相关方分享数据最有效,或何时将数据“兑现”为新产品。最后,利用大数据及其相关工具并不只是为了实时识别风险和提高会计服务能力,而是为了评估生产经营活动中所面临的短期和长期风险和规避。
3、从财务管理理念向综合管理理念发展
大数据的出现将颠覆现行财务管理的理念和模式,财务管理将不再局限于传统的财务领域,而是向销售、研发、人力资源等多个领域延伸和渗透,对于跟企业业务有关的一切数据的收集、处理和分析将成为财务管理的主要定位和主导任务。大数据时代的财务管理拓展了传统财务管理的领域和范围,一些原本不属于传统财务管理范畴的业务会进入大数据时代的财务管理视野,可以将其称之为“综合财务管理”。
综合财务管理因为大数据技术的支撑,能在企业决策时通过数据挖掘掌握大量的有用信息,这些信息有助于企业减少常规错误,有利于企业减少系统性风险,可以使企业对未来发展的预测更加准确。另外,大数据使得财务人员在进行相关数据分析时,及早觉察到异常情况,这样企业就可以提前采取措施,减少可能的损失或免受潜在的风险。综合财务管理极大地扩展了财务管理的领域和深度,从企业所处的行业背景分析、企业的竞争能力估计、企业无形资产评估、产品价值分析和自身财务状况出发,做到不仅“知己”,而且“知彼”。从这个意义上说,大数据时代,综合财务管理将成为企业的核心资源与核心竞争力。
4、从抽样审计模式向总体审计模式发展
抽样审计模式,由于抽取样本的有限性,而忽视了大量的业务活动,无法完全发现和揭示被审计单位的重大舞弊行为,隐藏着严重的审计风险。在大数据时代,数据的跨行业、跨企业搜集和分析,可以不用随机抽样方法,而采用搜集和分析被审计单位所有数据的总体审计模式。大数据环境下的总体审计模式是要分析与审计对象相关的所有数据,使得审计人员可以建立总体审计的思维模式。
审计人员实施总体审计模式,可以规避抽样审计风险。审计人员能够收集总体的所有数据,就能看到更细微、深入的信息,就可对数据进行多角度的深层次分析,从而发现隐藏在细节数据中的对审计问题更具价值的信息。审计人员实施总体审计模式,能发现从抽样审计模式所不能发现的问题。总体具有局部根本没有的功能,当各个局部以合理的结构形成总体时,总体就具有全新的功能,总体的功能就会大于各个局部功能之和。大数据技术给审计人员提供了一种能够从总体把握审计对象的技术手段,从而帮助审计人员能从总体的视角发现以前难以发现的问题。
5、从单一审计报告向综合审计成果应用发展
目前,审计人员的审计成果主要是提供给被审计单位的审计报告,其格式固定,内容单一,包含的信息较少。随着大数据技术在审计中广泛应用,审计人员的审计成果除了审计报告外,还有在审计过程中采集、挖掘、分析和处理的大量的资料和数据,可以提供给被审计单位用于改进经营管理,促进审计成果的综合应用,提高综合审计成果的应用效果。
审计人员对大数据技术的应用,促进了审计成果的进一步综合应用。首先,审计人员通过对审计中获取的大量数据的汇总、归纳,从中找出内在规律、共性问题和发展趋向,为被审计单位投资者和其他利益相关者提供数据证明、关联分析和决策建议。其次,审计人员通过应用大数据技术,从不同的角度、不同的层面整合提炼以满足不同层次的需求。再次,审计人员将审计成果进行智能化留存,通过大数据技术,将问题规则化并固化到系统中,以便于计算或判断问题发展趋势。最后。审计人员将审计成果与被审计单位进行关联,可以减少实地审计的时间和工作量,提高审计工作的效率。
6、从精确的数字审计向高效的数据审计发展
直到今天,审计人员的数字审计技术依然建立在精准的基础上。这种思维方式适用于掌握“小数据量’的情况,因为需要分析的数据很少,所以审计人员必须尽可能精准地量化被审计单位的业务。相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助审计人员进一步接近事情的真相,“局部”和“精确”的将不再是审计人员追求的目标,审计人员追求的是事物的“全貌”和“高效”。
在大数据环境下,传统的很多审计技术和方法显得效率低下和无法实施,大数据时代的超大数据体量和占相当比例的半结构化和非结构化数据的存在,已经超越了传统数据库的管理能力,必须使用新的大数据存储、处理和检索方法。围绕大数据,一批新兴的数据挖掘、数据存储、数据处理与分析技术将不断涌现。在实施审计时,审计人员应使用分布式拓朴结构、云数据库、联网审计、数据挖掘等新型的技术手段和工具,以提高审计的效率。 电商新动力会计来护航
核心提示:随着电子商务浪潮的来临,会计的信息化发展路径应当及时跟进,才能够保障电子商务更好发展。
作为一种新的经济形态,“互联网+”为“大众创业、万众创新”提供了前所未有的良好发展环境。在这一浪潮中,电子商务的发展迎来了崭新的契机。
日前,国务院出台《关于大力发展电子商务加快培育经济新动力的意见》,将电子商务的地位提升到“培育经济新动力”的层面,给电子商务的发展注入了强心针,一股新的更大的电子商务浪潮已然可期。
而会计将在这一电子浪潮中大有可为。随着近年来会计信息化程度的逐步加深,会计与电商实现无缝对接成为可能。会计在中小电商代理记账、报税服务,大型电商的审计服务等领域将护航电商发展,而另一方面,管理会计热潮也将成为电商发展的有效工具。
会计服务电商面临挑战
互联网技术的高速发展使得电商的发展轨迹与传统行业有所差别,这些差别所产生的特点给传统的财务会计带来了诸多挑战。
北京国家会计学院副教授刘霄仑对电子商务有着长期的观察,他认为,相较于传统行业,电子商务一方面历史较短,没有轨迹可供参考,另一方面资产较轻。更重要的是,目前业内对电子商务企业主流的价值判断,均采用现金流折现的方法,这种方法主观判断因素占据了一定的比重,对企业未来风险的波动很难估计。
电子商务的特点加大了会计核算的难度。华财会计在线董事长王久立告诉记者,电商本身经营场所的虚拟化,使得会计核算的主体难以确认,同时电商的交易都在网络上进行,对于交易的真实性、完整性及其他相关认定难度的增加。
王久立的担心不无道理。记者了解到,电商企业在经营过程中的交易凭证,多以数字信息的形式存在,该类数字信息虽然便于存储、传递和取用,但由于容易被修改而无法成为有效地纳税凭据。近年来,电子发票的合法地位虽然得到确认,但由于其无形性、不稳定性和易改动性使电子发票暂还不能成为报销凭据,这使得企业在会计处理中对于电子发票的处理难以依据普通发票程序进行处理。
在审计方面,电商同样面临着新难题。“大型电商的审计难点包括:资金的盘点,存货的盘点,收入确定和应付账款统计等方面。比如存货的盘点,大型电商的存货流动性相当大,并且仓库可能存在遍布全国各地,货物不断的从一个仓库转移到另一个仓库,甚至存在很多在途物资,要盘点某个时点的存货难度就非常大。”王久立告诉记者。
实际上,随着电子商务浪潮的来临,会计的信息化发展路径应当及时跟进,才能够保障电子商务更好发展。王久立认为,会计信息化系统与电子商务平台需要进行有效对接。会计信息化系统与电子商务系统两者的交易数据、库存、资金余额一旦出现不一致的情况,就不足以支撑企业对采购、销售、物流以及库存的管理,影响会计报表的准确性。
他同时表示,包括会计SAAS 平台、会计核算工具、在线会计、在线记账、在线报税等新兴的会计技术需要进一步快速发展,进而在促进电商企业在国家政策法规下更加健康合规地运行。
管理会计提升电商企业发展内动力
会计核算技术的及时跟进,将从外部环境方面促进电商行业有序发展,而管理会计在电商企业自身的成长过程中,将提供更加有效的内动力。
刘霄仑总结后认为,实际上,管理会计在传统行业中的诸多工具,比如全面预算、绩效管理等,在电商企业中仍然可以发挥出重要作用,而且针对电商行业的特点,管理会计在某些方面能够产生更大的价值。
“管理会计首先能够较为准确地评估客户价值,就是如何了解、确认和计量客户的价值需求,并以此作为制订战略目标的指导。随后,管理会计能够在股东价值和股东期望的管理方面产生价值,最后是商业模式的管理。”刘霄仑告诉记者。
首先,管理会计能够有效地估计电商企业的客户价值,这决定了一家电商企业的投资价值。电商企业的价值模型需要更加成熟,不仅需要包括能够客观把握的数据,如市场增长率、人口变化等,同时也要考虑文化以及消费者心理的影响。
其次,从企业控制人的角度而言,管理会计对未来期望的管理将影响股东对电商企业未来价值的判断,进而对资金、股份、变现价值、控制权的分配产生影响。国内成熟的大型电商,像阿里巴巴,主要的工作就是正确地引导了股东对价值的认识。这一方面保证了资金的供应,
另一方面也保证了企业未来有相当程度的影响力和控制力。
范文三:大数据时代的五大商业分析技术趋势
大数据时代的五大商业分析技术趋势
数据分析微信公众号datadw 整理,分享。
目前,趋势中心对如何应对分析挑战的关注力度并不亚于他们考虑在新商业视角中如何充分利用机遇的力度。例如,随着越来越多的公司开始不得不面对海量数据以及考虑如何利用这些数据,管理与分析大型不同数据集的技术开始出现。提前分析成本与性能趋势意味着公司能够提出比以前更为复杂的问题,提供更为有用的信息以 帮助他们运营业务。
在采访中,首席信息官们总结出了5大影响他们进行分析的IT 趋势。它们分别为:大数据的增长、快速处理技术、IT 商品的成本下降、移动设备的普及和社交媒体的增长。
1. 大数据
大数据指非常庞大的数据集,尤其是那些没有被整齐的组织起来无法适应传统数据仓库的数据集。网络蜘蛛数据、社交媒体反馈和服务器日志,以及来自供应链、行业、周边环境与监视传感器的数据都使得公司的数据变得比以往越来越复杂。
尽管并不是每个公司都需要处理大型、非结构型数据集的技术。VeriskAnalytics 公司首席信息官PerryRotella 认为所有的首席信息 官都应当关注大数据分析工具。Verisk 帮助金融公司评估风险,与保险公司共同防范保险诈骗,其在2010年的营收超过了10亿美元。
Rotella 认为,技术领导者对此应当采取的态度是,数据越多越好,欢迎数
据的大幅增长。Rotella 的工作是预先寻找事物间的联系与模型。
HMS 公司首席信息官CynthiaNustad 认为,大数据呈现为一种“爆炸性”增长趋势。HMS 公司的业务包括帮助控制联邦医疗保险 (Medicare )和医疗补助(Medicaid )项目成本和私有云服务。其客户包括40多个州的健康与人类服务项目和130多个医疗补助管理计划。 HMS 通过阻止错误支付在2010年帮助其客户挽回了18亿美元的损失,节约了数十亿美元。Nustad 称:“我们正在收集并追踪大量素材,包括结构性与 非结构性数据,因为你并不是总是知道你将在其中寻找什么东西。”
大数据技术中谈论最多的一项技术是Hadoop 。该技术为开源分布式数据处理平台,最初是为编辑网络搜索索引等任务开发的。Hadoop 为多个“非关系型(NoSQL )”技术(其包括CouchDB 和MongoDB )中的一种,其通过特殊的方式组织网络级数据。
Hadoop 可将数据的子集合分配给成百上千台服务器的处理,每台服务器汇报的结果都将被一个主作业调度程序整理,因此其具有处理拍字节级数据的能力。 Hadoop 既能够用于分析前的数据准备,也能够作为一种分析工具。没有数千台空闲服务器的公司可以从亚马逊等云厂商那里购买Hadoop 实例的按需访 问。
Nustad 称,尽管并不是为了其大型的联邦医疗保险和医疗补助索赔数据库,但是HMS 正在探索NoSQL 技术的使用。其包括了结构性数据,并且能够被 传统的数据仓库技术所处理。她称,在回答什么样的关系型技术是经实践证明最好用的解决方案时,从传统关系型数据库管理出发是并不明智。不过,Nustad 认为Hadoop 正在防止欺诈与浪费分析上发挥着重要作用,并且具备分析以各种格式上报的病人看病记录的潜力。
在采访中,那些体验过Hadoop 的受访首席信息官们,包括Rotella 和Shopzilla 公司首席信息官JodyMulkey 在内都在将数据服务作为公司一项业务的公司中任职。
Mulkey 称:“我们正在使用Hadoop 做那些以往使用数据仓库做的事情。更重要的是,我们获得了以前从未用过的切实有用的分析技术。”例如,作为 一家比较购买网站,Shopzilla 每天会积累数太字节的数据。他称:“以前,我们必须要对数据进行采样并对数据进行归类。在处理海量数据时,这一工作 量非常繁重。”自从采用了Hadoop ,Shopzilla 能够分析原始数据,跳过许多中间环节。
GoodSamaritan 医院是一家位于印第安纳州西南的社区医院,其处于另一种类型。该医院的首席信息官ChuckChristian 称:“我们并 没有我认为是大数据的东西。”尽管如此,管理规定要求促使其存储整如庞大的电子医疗记录等全新的数据类型。他称,这无疑要求他们要能够从数据中收集医疗保 健品质信息。不过,这可能将在地区或国家医疗保健协会中实现,而不是在他们这种单个医院中实现。因此,Christian 未必会对这种新技术进行投资。
IslandOneResorts 公司首席信息官JohnTernent 称,其所面临的分析挑战取决于大数据中的“大”还是“数据”。不过,目前他正在 谨慎地考虑在云上使用Hadoop 实例,以作为一种经济的方式分析复杂的抵押贷款组合。目前公司正在管理着佛罗里达州内的8处分时度假村。他称:“这种解 决方案有可能解决我们目前正遇到的实际问题。”
2. 商业分析速度加快
肯塔基大学首席信息官VinceKellen 认为,大数据技术只是快速分析这一
大趋势中的一个元素。他称:“我们期待的是一种更为先进的海量数据分析方法。”与更为快速地分析数据相比,数据的大小并不重要,“因为你想让这一过程快速完成”。
由于目前的计算能够在内存中处理更多的数据,因此与在硬盘中搜索数据相比,其计算出结果的速度要更快。即使你仅处理数G 数据,但情况依然与此。
尽管经过数十年的发展,通过缓存频繁访问的数据,数据库性能提升了许多。在加载整个大型数据集至服务器或服务器集群的内存时,这一技术变得更加实用,此时硬盘只是作为备份。由于从旋转的磁盘中检索数据是一个机械过程,因此与在内存中处理数据相比,其速度要慢许多。
Rotella 称,他现在几秒中进行的分析在五年前需要花上一个晚上。Rotella 的公司主要是对大型数据集进行前瞻性分析,这经常涉及查询、寻找模 型、下次查询前的调整。在分析速度方面,查询完成时间非常重要。他称:“以前,运行时间比建模时间要长,但是现在建模时间要比运行时间长。”
列式数据库服务器改变了关系型数据库的传统行与列结构,解决了另一些性能需求。查询仅访问有用的列,而不是读取整个记录和选取可选列,这极大地提高了组织或测量关键列的应用的性能。
Ternent 警告称,列式数据库的性能优势需要配合正确的应用和查询设计。他称:“为了进行区别,你必须以适当的方式问它适当的问题。”此此同时,他 还指出,列式数据库实际上仅对处理超过500G 字节数据的应用有意义。他称:“在让列式数据库发挥作用之前,你必须收集一规模的数据,因为它依赖一定水平 的重复提升效率。”
保险与金融服务巨头JohnHancock 公司的首席信息官AllanHackney 称,
为了提高分析性能,硬件也需要进行提升,如增加GPU 芯片,其 与游戏系统中用到的图形处理器相同。他称:“可视化需用到的计算方法与统计分析中用到的计算方法非常相似。与普通的PC 和服务器处理器相比,图形处理器的 计算速度要快数百倍。我们的分析人员非常喜欢这一设备。”
3. 技术成本下降
随着计算能力的增长,分析技术开始从内存与存储价格的下降中获益。同时,随着开源软件逐渐成为商业产品的备选产品,竞争压力也导致商业产品价格进一步下降。
Ternent 为开源软件的支持者。在加入IslandOne 公司之前,Ternent 为开源商业智能公司Pentaho 的工程副总裁。他称:“对于我来说,开源决定着涉足领域。因为像IslandOne 这样的中等规模公司能够用开源应用R 替代SAS 进行统计分析。”
以前开源工具仅拥有基本的报告功能,但是现在它们能够提供最为先进的预测分析。他称:“目前开源参与者能够横跨整个连续统一体,这意味着任何人都能够使用它们。”
HMS 公司的Nustad 认为,计算成本的变化正在改变着一些基础性架构的选择。例如,创建数据仓库的一个传统因素是让数据一起进入拥有强大计算能力的 服务器中以处理它们。当计算能力不足时,从操作系统中分离分析工作负载可以避免日常工作负载的性能出现下降。Nustad 称,目前这已经不再是一个合适的 选择了。
她称:“随着硬件与存储越来越便宜,你能够让这些操作系统处理一个商业智能层。”通过重定数据格式和将数据装载至仓库中,直接建立在操作应用上的
分析能够更为迅速地提供答案。
Hackney 观察认为,尽管性价比趋势有利于管理成本,但是这些潜在的节约优势将被日益增长的能力需求所抵消。尽管JohnHancock 每台设备的存储成本在今年下降了2至3%,但是消耗却增长了20%。
4. 移动设备的普及
与所有的应用一样,商业智能正日益移动化。对于Nustad 来说,移动商业智能具有优先权,因为每个人都希望Nustad 能够随时随地亲自访问关于她的 公司是否达到了服务级协议的报告。她还希望为公司的客户提供数据的移动访问,帮助客户监控和管理医疗保健开销。她称:“这是一个客户非常喜欢的功能。在
五 年前,客户不需要这一功能,但是现在他们需要这一功能了。”
对于首席信息官来说,要迎合这一趋势更多的是为智能手机、平板电脑和触摸屏设备创建适用的用户界面,而不是更为复杂的分析能力。或许是出于这方面的原因,Kellen 认为这相对容易。他称:“对于我来说,这只是小事情。”
Rotella 并不认为这很简单。他称:“移动计算影响着每一个人。许多人开始使用iPad 工作,同时其它的移动设备正在呈现爆炸式增长。这一趋势正在 加速并改变我们与公司内部计算资源交互的方式。”例如,Verisk 已经开发了能够让理赔人在现场快速进行分析的产品,因此他们能够进行重臵成本评估。他 称:“这种方式对我们的分析产生了影响,同时也让每一个需要它的人随手就能使用。”
Rotella 称:“引发这种挑战的因素在于技术的更新速度。两年前,我们没有iPad ,而现在许多人都在使用iPad 。随着多种操作系统的出现,我们正力争搞清楚其是如何影响我们的研发的,这样一来我们就不必一而再、再而三的编写
这些应用。”
IslandOne 的Ternent 指出,另一方面,为每一种移动平台创建原生应用的需求可能正在消退,因为目前手机和平板电脑上的浏览器拥有了更为强 大的功能。Ternent 称:“如果我能够使用一款专门针对移动设备的基于web 的应用,那么我并不能肯定我将会对定制的移动设备应用进行投资。”
5. 社交媒体的加入
随着脸谱、推特等社交媒体的兴起,越来越多的公司希望分析这些由网站产生的数据。新推出的分析应用支持人类语言处理、情感分析和网络分析等统计技术,这些并不是典型商业智能工具套件的组成部分。
由于它们都是新的,许多社交媒体分析工具可以作用服务获得。其中一个典型范例是Radian6。Radian6为软件即服务(SaaS )产品,近期已经 被Salesforce.com 所收购。Radian6是一种社交媒体仪表盘,为TwITter 的留言、脸谱上的帖子、博客与讨论版上的帖子与评论中提及 的特定术语以正负数显示,尤其是为商标名提供生动的直观推断。当营销与客户服务部门购买后,这类工具不再对IT 部门有很严重的依赖性。目前,肯塔基大学的 Kellen 仍然相信他需要对它们高度关注。他称:“我的工作是识别这些技术,根据竞争力评估哪些算法适合公司,然后开始培训合适的人员。”
与其他公司一样,大学也对监督他们大学的声誉十分感兴趣。与此同时,Kellen 表示,他可能还将寻找机会以开发专门用于解决学校所关注问题的应用,如 监督学生入学率等问题。例如,监控学生在社交媒体上的帖子能够有帮于学校与管理人员尽早了解学生在大学里遇到的麻烦。Kellen 称,目前戴尔已经做了这 些工作,其产品支持公司探测人们关于故障笔记本电脑的推文。他称,IT
开发人员还应当寻找一些办法将社交媒体分析得出的报警信息推送至应用中,以便于公司 对相关事件快速做出反应。
Hackney 称:“我们没有诀窍,也没有工具处理和挖掘海量社交媒体帖子的价值。不过,一旦你收集了数据,你需要有能力获取公司事件的充足信息,以将 它们关联起来。”虽然Hackney 称JohnHancock 在这一领域内的努力还处于“起步阶段”,但是他认为IT 部门将在公司数据的社交分析服务所提 供的数据关联中发挥重要作用。例如,如果社交媒体数据显示公司在中西部地区的社会评论越来越负面,那么他将希望看一下如果公司在该地区就价格或策略进行调 整是否会扭转这一负面发展趋势。
Hackney 称,发现这类关联的意义在于让公司领导相信对社交媒体的投资具有高回报。他称:“在我所从事的行业中,每个人都是精算师,每个人都在计算,他们不会将任何东西建立在想当然之上。”
范文四:大数据时代金融专业数学的发展趋势
UniversityEducation
August
,2014大数据时代金融专业数学的发展趋势
张瑞亭
(北京工商大学嘉华学院,北京
101118)
[摘要]随着科学技术的飞速发展和人们获取数据的多样化,人类拥有的数据急剧增加。在大数据时代,数据已成为新型战略资源,是驱动创新的重要因素。如何获取隐藏在数据背后的潜在的规律备受研究人员关注。数据挖掘是一门边缘应用学科,它的蓬勃发展是由于它在各个领域的广泛应用。结合金融数据的特点以及目前数据挖掘、机器学习存在的问题,研究未来金融专业数学的发展方向和动态趋势,对于大数据时代下培养金融专业学生具有十分重要的意义。
[关键词]数据挖掘[中图分类号]F83
机器学习支持向量机金融数据[文献标识码]A
[文章编号]2095-3437(2014)14-0029-02
一、背景
数据是与自然资源、人力资源一样重要的战略资源,其背后隐含着巨大的经济价值。近年来,“大数据”研美国政府在国内发布究已经备受关注。[1]例如,2012年,了“大数据”研究和《发展倡议》,投资约两亿美元发展大数据研究,用以强化国土安全、转变教育学习模式和进一步加速科学和工程领域的创新速度和水平。继1993年美国宣布“信息高速公路”计划后,这项决定标志着美国的又一次重大科技发展部署。美国政府认为“大数据”研究势必对未来的科技、经济等各领域的发展带来深远影响。在大数据应用的技术需求牵引下,数据科学研究和人才培养引起了各国的重视。美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学、日本名古屋大学、韩国釜山国立大学等纷纷成立数据科学研究机构;美国加州大学伯克利分校和伊利诺伊大学香槟分校、英国邓迪大学等一大批高校开设了数据科学课程。
二、机器学习理论
机器学习(machine learning )是继专家系统之后人工智能应用的又一重要研究内容,在某种意义上,机器学习或将认为是数据挖掘的同义词。数据挖掘是指有组织、有目的地收集数据、分析数据,从海量数据中寻找潜在规律,并使之为决策规划提供有价值信息的技术。机器学习是人工智能的核心部分,在金融、工业、商业、互联网以及航天等各个领域均发挥着重要的作用。对机器学习研究的进展,必将对人工智能、数据挖掘领域的发展具有深远影响。
机器学习方法主要包括:Exper System (专家系统)、K-Nearest Neighbor (K 近邻算法)、Decision Tree (决策树)、Neural Net (神经网络)、Support Vector Machine (支
持向量机)、Cluster Analysis (聚类分析)等。近几年,研究人员将遗传算法、神经网络、系统理论以及当代数学研究的最新进展,应用于金融领域。这使得金融领域数据挖掘在金融管理中备受青睐。例如,产品定价、金融风险管理、投资决策甚至金融监管都越来越重视金融数据挖掘,通过数据挖掘发现金融市场发展的潜在规律与发展动态。机器学习理论及其在金融领域的应用成为了一个比较热的研究领域。[2][3]
三、金融数据的特点
基于Logistic 回归、判别分在众多机器学习方法中,
析等传统的统计方法,对金融模型假定条件非常严格,在实际应用中很难达到理想效果。其原因在于对金融数据的非线性和非平稳性的操作具有片面局限性,在实际处理金融数据时,既定假设与金融市场发展实际并不完全一致,这样可能会影响模型的推广能力和泛化能力。
基于分类树方法、K-近邻判别分析、遗传算法等传统的非参数统计方法,其预测能力较好,但不能量化解释指标的程度。例如,K-近邻判别分析是一种非参数距离学习方法,通常按照数据样本之间的距离或相关系数进行度量,这样会受到少数异常数据点的影响。但是,在相同样本容量下,如果对于具体问题确实存在特定参数模型可以应用时,非参数方法效率相对较低。以神经网络、支持向量机等为典型的机器学习方法,优点在于可以有效处理金融数据的非线性特性,并且不需要事先严格的统计假设,这样会表现出较强的适应效果,充分体现人工智能、机器学习等方法的魅力。神经网络预测精度是各种机器学习方法中相对较好的,因为在一定程度上,神经网络可以按照任意精度近似非线性函数,为高度非线性问题的建模和算法提供相应支持。尽管神经网
[收稿时间]2014-03-05
[基金项目]北京市民办教育发展促进项目(YETP1949)。[作者简介]张瑞亭(1981-),男,河北曲周人,讲师,硕士,研究方向:数据挖掘、运筹优化。
29
但仍然存在一些难题。例如,通常络技术进步有目共睹,
难以确定隐层节点数,并会存在“过学习”现象和局部极小值等问题。
四、支持向量机
传统的统计模式识别方法是在样本数目足够多的情况下进行的,但是样本数目足够多在实际问题里面往往难以保证。1968年Vapnik 等人首次提出了统计学习理论,专门从事有限样本情况下机器学习规律的研究。在此基础上,1995年Vapnik 等人首先提出支持向量机(Support Vector Machine ,简称SVM )的学习方法,它是数据挖掘中的一项新的技术。SVM 是机器学习研究领域的一项重大成果,主要研究如何根据有限学习样本进行模式识别和回归预测,使在对未知样本的估计过程中,期望风险最小。近年来,它被广泛地应用于统计分类以及回归分析中。近几年的研究成果表明,SVM 在实用算法研究、设计和实现方面已取得丰硕的成果, 其在理论研究和算法实现方面都有突破性进展,逐渐开始成为克服维数灾难和过学习等传统问题的有力手段。支持向量机可以成功处理回归分析和模式识别等诸多问题,并可推广于预测和综合评价等领域,因此可应用于管理、经济等多种学科。支持向量机属于一般化线性分类器,可以认为是提克洛夫规则化(Tikhonov Regularization )方法的一个特例,其特点是他们能够同时最小化经验误差与最大化几何边缘区。支持向量机的优点表现在:1. 它通过使用结构风险最小化代替传统的经验风险最小化,使用满足Mercer 条件的核函数,把输入空间的数据变换到高维的Hilbert 空间,将向量映射到一个更高维的空间里。在这个空间里建立有一个最大间隔超平面,实现了由输入空间中的非线性分析到Hilbert 空间中的线性分析。2. 训练的复杂度与输入空间的维数无关,只与训练的样本数目有关。3. 稀疏性。决定最大间隔超平面的只是少数向量———支持向量,就推广能力方面而言, 较少的支持向量数在统计意义上对应好的推广能力。4. 本质上,SVM 算法是一个二次优化问题,能保证所得到的解是全局最优的解。综上所述,SVM 在一定程度上解决了以往困扰机器学习方法的很多问题,例如,模型选择与“过学习”问题、非线性和高维小样本等维数灾难问题、局部极小问题等。[4]正是由于SVM 具有完备的理论基础和出色的应用表现,使其在解决高维小样本、非线性、压缩感知以及高维模式识别问题中表现出独特的优势,正成为自神经网络之后,机器学习领域中新的研究热点之一。
[5][6]
型的推广泛化能力和应用领域。同时计算方面,训练时间过长、核参数的确定,在大训练样本情况下, SVM 面临着维数灾难,甚至会由于内存的限制导致无法训练。目前支持向量机在金融数据挖掘方面也存在一定的局限性,主要表现以下几方面:动态适应性、鲁棒性、特征变量异质性调整、模型推广精度等不尽如人意;建模方法与技术还有待进一步完善;支持向量机研究金融数据挖掘和金融问题的成果虽然不少,但大多集中在股票价格和股票市场走势预测方面,关于公司财务危机预测、套期保值分析、金融市场连接机制分析及其创新成果方面有待加强。
五、结论
大数据时代下金融专业的数学重在以下方面的应用:深度学习(Deep Learning )、机器学习和数据挖掘、分布式计算,如MR 、Hadoop 等,在大数据中预测最先取得突破的技术环节将会是分析中的大数据挖掘与关联分析、存储结构和系统、数据采集和数据化。目前金融问题的研究方向和发展趋势,主要集中在计量经济方法,例如,格兰杰因果分析、向量自回归、条件异方差、随机波动分析等。这些计量经济方法和技术大部分使用了线性技术,以及与金融市场不太吻合的理论假设,基于这些方法的结果,例如,资产预测价格、发展动态以及风险评估结果和实际出入较大,影响了金融管理的效率。对于我们大学教师来说,如何将已有分析数据算法整合,让学生抓住重点, 挖掘到比较可靠的信息或知识,都将成为金融专业数学研究的方向和目标。
[注
释]
[1]Anand Rajaraman Jeffrey David Ullman. 大数据———互联
网大规模数据挖掘与分布式处理[M ]. 北京:人民邮电出版社,2012.
[2]Kumar, P.R. and Ravi, V. 2007. Bankruptcy prediction in
banks and firms via statistical and intelligent techniques-a review. European Journal of Operational Research, 180(1):1-28. [3]
M. Oet, R. Eiben, T. Bianco,D.Gramlich, S. Ong, and J. Wang, “SAFE:an early warning system for systemic banking risk, ”in Proceedings of the 24th Australasian Finance and BankingConference, SSRN, 2011.
[4]沈传河. 金融问题中的支持向量机应用研究[D ]. 山东科
技大学博士论文,2011. [5][6]
Chang C.C. and Lin, C.J., 2001. LIBSVM:A library for support vector machines.
邓乃扬,田英杰.数据挖掘中的新方法———支持向量机[M ].北京:科学出版社,2004.
同其他机器学习方法比较,支持向量机更具严密的理论基础,因而在模型表现上也略胜一筹,被成功应用于模式分类、非线性回归,从使用效果来看,其结果较为理想。但从实践角度分析来看,模型参数的选择过度依赖人们的实验方法和实践技能,在一定程度上降低了模
[责任编辑:陈明]
30
范文五:大数据时代下人类思维方式变革的趋势
龙源期刊网 http://www.qikan.com.cn
大数据时代下人类思维方式变革的趋势 作者:王浩 张怡
来源:《新西部下半月》 2015年第 01期
【摘 要】 本文认为,随着大数据时代的到来,必将对于人类的思维方式产生极其重大的 影响。其表现为三大变革趋势:预测性趋势 —— 用数据看未来;模糊性趋势 —— 用概率来表 达;复杂性趋势 —— 用数据来跨界。
【关键词】 大数据;人类思维方式;变革趋势
互联网已经渗透入了千家万户、各行各业,数据也就随着这无处不在的网络畅通无阻的传 输,大数据时代就在这不断传输中孕育、破壳、成长。时至今日,大数据已经在各个方面显露 出它先进的、超前的作用,许多行业、企业、政府或个人,都开始有意识地利用大数据,发掘 大数据中的价值,从中获得以往难以得到的财富。大数据科技的发展,使许多难以解决的难题 迎刃而解,使许多模棱两可的问题逐渐变得清晰,也使得扑朔迷离的未来变得有一丝线索可 循。从自然科学学科到社会科学学科,从政府决策到个人生活,大数据已经悄无声息地渗透进 了各个领域,并发挥着极其重要且不可替代的作用。大数据技术带来了一场科技革命,带来人 类社会的整体变革,也迎来了一个新时代的到来。对于大数据这个新技术、新时代的到来,研 究其科技发展对人类思维方式变革的影响,把握这种影响,预见其变化趋势,便可以让我们更 从容地迎接大数据时代的到来。
一、预测性趋势 —— 用数据看未来
大数据时代带给我们巨量的数据和先进的数据分析技术,以及二者的结合带来的我们最为 关心的一项能力 —— 预测。不管是总统大选还是汽车零件的更换时间,大数据带给我们最为重 要,也是我们最想得到的就是它无与伦比的预测能力。大量的传感器将我们身边的一切物体纳 入物联网,使一切事物的动态、变化都变成大量的数据流不断进入负责监控的计算机。基于云 计算技术的强大数据分析能力则将这些数据进行分析处理,得出的结果则可以对事物现时的情 况进行把握,同时对其下一步的发展进行预测。在大数据时代,我们已经可以说能够对事物的 进一步发展进行预测,虽然我们还做不到百分之百地掌控。苹果教父乔布斯(Jobs )在与癌症 做斗争时,运用了大数据对自身的 DNA 和肿瘤 DNA 进行排序,医生根据乔布斯的特定基因 组成,按所需要的效果进行用药,一旦监测发现药物失效,就立即更换另一种药物,虽然这种 治疗方法并没有能够克服癌症,但是,也给乔布斯延寿了数年。由此可见,大数据的预测能力 已经在各行各业崭露头角,并且很快地被大家所运用起来。而这种预测能力带给我们的就是思 维上的前瞻性和预测性的变化趋势。
大数据不但可以预测事物的发展状况,甚至连人类行为也可以进行预测。美国的艾伯特 -拉斯洛 ·巴拉巴西教授在他的《爆发》一书中表示,人类行为的 93%是可以预测的。在之前的 研究中,科学家们认为人类的行为是随机的,偶然的,毫无规律的,是根本无法预测的。法国
转载请注明出处范文大全网 » 大数据时代的发展趋势