范文一:美国金融银行业的大数据算法:随机森林模型+综合模型 | 36大数据
大数据的概念这两年非常火,对它的解读也是见仁见智。其实不管大数据也好,还是数据挖掘,或者机器智能,都只是个名词,代表了最先进的计算机数据存储和分析算法。它们的核心都是通过在看似变化莫测的数据中寻找规律来帮助解决实际问题,尤其是对未来的一些精准到个体的预测。比如如何最有效的寻找新客户,提高对现有客户的交叉销售以及防止客户流失,都是大数据的具有普遍性的典型应用。具体到银行业,就涉及到信用审批,额度确定,以及反欺诈等专业的应用。
我所就职的美国运通公司是全球知名的信用卡企业,道琼斯三十种工业股票之一。大数据技术被广泛应用于公司的各个部门,取得了令人瞩目的效果。公司的客户群信用非常好,坏账率只有1-2%,远远低于同行业中的其他企业。反欺诈也做得相当成功,在每年八千亿美元的刷卡量中仅造成一个亿左右的损失,占总量的约0.02%。此外公司通过细致分析持卡人的消费记录,并结合移动互联网,实时向用户推荐商家信息,进一步增加了公司的营收和客户忠诚度。
要做到这些好的业绩,仅靠个人经验和一些简单的规定是远远不够的,而必须依靠专业人员采用最先进和有效的数据挖掘算法。下面我就谈谈其中一些最主要的方法,希望对国内的同行能有所借鉴。
回归分析是数据挖掘中最常见和基本的算法,包括简单线性回归,逻辑回归以及其他的广义线性或非线性模型。它们在过去虽然被广泛使用,但存在明显的不足,尤其是变量的相互依存性会使结果发生偏差。为避免这些问题,近些年来美国银行业大量采用了树形算法家族。这其中包括决策树,聚类和回归树,以及较为复杂的随机森林模型。这些方法避免了变量间的相互依存性问题,而且预测分析能力也逐步增强。不过随机森林模型的复杂性使得结果有时不容易理解,新近出现的梯度递增树算法,在预测能力和可理解性方面都强于随机森林,而且适用的范围广,在反欺诈和其他一些领域被证明效果非常好,很值得业内人士关注。
除了树形算法以外,关联分析和序列分析也是最近比较热门的算法。关联分析的核心是寻找与一个客户相关的其他人,通过他们的行为来预测这个客户。序列分析则是通过跟踪一个客户在一段时间内的多个行为来寻找规律,判断他下一步可能的动作。这些算法虽然概念易懂,实际操作起来并不那么简单,需要相当一段时间的实践摸索。如果模型建得好,往往可以有事半功倍的效果。其他的著名算法还很多,比如支持向量模型,深度神经网络等等,这里就不再一一而足了。
算法这么多,自然就存在如何选择的问题,或者也可以同时使用多个算法,然后让他们投票决定结果,这种思路最近也很流行,称为综合模型算法。另外如何选择变量和进行变换,如何验证模型的正确性,和如何及时更新以防模型失效也都很有讲究,必须每一步都认真仔细进行才能产生令人满意的结果。
本文作者:苏强,普林斯顿大学博士毕业,在美国的银行和保险业有十多年的数据挖掘经验,期待和国内的同行共同切磋提高。联系方式为邮件qiangsu@gmail.com,微信号eatonct1.
End.
转载请注明来自36大数据(36dsj.com):36大数据 ? 美国金融银行业的大数据算法:随机森林模型+综合模型
范文二:大数据算法
易 珂
香港科技大学
大数据算法
关键词:大数据算法 数据移动
“大数据”(big data )一词最近两年炒得火 热。但在我看来,所谓“大数据”和业已存在的 “海量数据”(massive data )或者“超大规模数 据”(very large data )从技术层面讲并无本质上的 区别,都是指大量的用传统方法无法处理的数据。 而“大数据”之所以能够改头换面再次掀起热潮, 其深层原因是如今大数据已不是科学研究的专属 品,随着互联网、物联网、云计算和社交媒体的蓬 勃发展,它已经扩散到各个行业乃至个人,以致又 重新引起学术界和工业界的广泛关注。
本刊亦在 2012年第 6期、第 9期连续刊登了大 数据专题,对大数据环境下诸多方面的问题进行了 探讨。然而,算法作为计算机科学的基石,尚未进 行过专门的阐述。任何一个计算问题经过分析和建 模,几乎都规约为算法问题,在大数据的环境下同 样如此。本文尝试在大数据的背景下,浅析一些算 法设计所要做出的改变以及面临的挑战。
数据移动成为计算瓶颈
本文认为数据移动(即通信开销)是大数据计 算问题的主要瓶颈,从而也是算法设计中的主要优 化目标。大数据时代下,计算逐渐从 CPU 密集型转 化为数据密集型。 CPU 密集型的计算任务数据量不 大,但对 CPU 速度要求高,如各种组合优化问题、 线性规划、数值计算等等,对这些问题的算法复杂 度往往只要求是多项式级即可,对它们的理论研究 关注的也是多项式级和非多项式级的区分。而数据
密集型的计算任务面临超大的数据规模,算法的复 杂度要求必须为线性或近线性(near-linear ),甚至 于亚线性(sub-linear )。这意味着数据集里的每一 条数据只通过 CPU 一次或者几次。这样,把数据从 它们的存储区域移动到 CPU 再移走的时间就远远超 过了它们在 CPU 停留的时间,使得 CPU 不再成为计 算的瓶颈。这种计算模式的转化对于硬件发展既是 好消息也是坏消息:好消息是我们不必再费尽心力 维持 CPU 速度发展的摩尔定律,坏消息是我们必须 提高存储系统、通信系统的性能,解决新的瓶颈问 题。同时对于算法设计而言,我们也要将重心从传 统的时间复杂度移到通信复杂度上,努力降低算法 的数据移动开销。数据移动的代价可以说是根本性 的:信息存储需要空间,信息移动速度不会超过光 速,计算任务又依赖于数据间的交互,所以不管硬 件架构如何发展,数据移动的开销总是无法避免。
算法设计的发展在过去二十多年中也经历了从 CPU 密集型到数据密集型的转化,诞生了很多面向 大数据的新型计算模型。这些计算模型往往都忽略 了 CPU 开销,用一些新瓶颈来刻画算法复杂度。本 文在余下的篇幅里将对一些主要的算法模型作简单 介绍,从中可以看出,它们用来刻画复杂度的都是 某种形式的数据移动的开销。当然,没有一个模型 是完美的,正如乔治 ·布克斯(George Box )的名 言:“所有的模型都是错的,但有些还有点儿用” (all models are wrong, but some are useful)。在实 际中影响计算性能的因素很多,一个理论模型是否 有用取决于它是否抓住了最重要的因素而不失简
洁,能否对现实具 有预测能力,为算 法设计提供依据。
外存模型 外
存(external mem-o r y )算法用于高 效处理存放在磁盘 里的数据。一些经
典的外存算法,如 外排序(external s o r t i n g )和外哈 希(external hash-
ing )早在 20世纪 70年代就已提出。外存模型作为一 个计算模型被提出,以及对这些外存算法的理论分 析始于 20世纪 80年代末。
如图 1所示,数据一开始都存放在外存(磁盘) 中。内存有限,无法容纳所有的数据,而 CPU 只能访 问内存里的数据。这样,为进行计算,数据必须从磁 盘移动到内存,不需要的时候还要移回磁盘,释放内 存空间。数据在磁盘上以“块”为单位存储,每次读 写数据也都要以块为单位。这一点和实际的磁盘系统 是相吻合的:磁盘被分为很多同心圆,称为“道”, 每条道又被分为很多“扇区”。读写一次磁盘,首 先要将读写磁头移至所要读写的道,再等待磁盘旋转 到指定的扇区,而实际的读写时间相对来说就短很多 了。所以每次读写磁盘时,操作系统都自动地读写整 个扇区,用来平均抵消前面磁头移动和磁盘旋转的 时间。外存模型下设计的算法往往忽略 CPU 时间,只 计算在磁盘上读写的块的数目,也称作读写(input/output , I/O)数。可以看到,这个读写数正是数据在 磁盘和内存间移动的开销!
外存算法在大规模数据处理上取得了巨大成 功,特别是在数据库系统中,几乎所有的基本数据 库操作用的都是外存算法,如外排序、外哈希和 B-树等。当然,随着内存技术不断提高,容量不断增 大,很多数据库可以完全安置到内存中(in-memory databases )。尽管如此,外存算法在相当长的一段 时间里还是非常重要,原因有二:一是内存是非保
持性存储介质,一旦断电数据即丢失,这违背了数 据库 ACID (atomic (原子性)、 consistency (一致 性)、 isolation (隔离性)和 durability (持久性)) 四大基本原则中的持久性(durability );二是数据 库中建立了大量索引结构(index ),用来支持对数 据的快速检索和查找。这些结构不可能长时间保持 在内存中,所以还需要外存算法对其进行检索和修 改等操作。 近些年来,闪存(flash )技术突飞猛 进,已经出现了以闪存取代磁盘的数据库系统, 大大提高了数据读写的效率。然而,尽管闪存不 像磁盘那样移动磁头和旋转,但它仍是以“块” 为单位来进行数据读写,所以以前的外存算法仍 然适用。不过,闪存也有其自身的一些和磁盘不 同的读写特性,如读和写开销的不对称性等,需 要我们在算法设计时,特别是在进行工程实现时 加以注意。
数据流模型 数据流(data streams)模型在外
存模型的基础上,完全去掉了磁盘,目标是在内存 里解决问题,即便是数据量远远大于内存容量。从 某种意义上讲,数据流模型是把数据移动的开销降 至 0。确切地说,在此模型下,数据以流的形式通过 CPU 一次,而算法必须用非常有限的内存空间解决 问题。这对很多算法是个很大的限制。事实上,有 很多问题可以严格证明在此模型下不可解。不过研 究人员同时也发现,虽然这些问题在数据流模型下 不能精确解决,但是如果允许一定的可控误差,还 是存在很有效的算法的。误差对于大数据问题来说 是完全可以接受的,一来是数据庞大,结果过度精 确没有必要,二是原始数据本身可能就存在误差。
数据流模型由阿隆(Alon )等人于 1996年正式 提出。不过后来人们发现一些经典算法实际上在更 早就已经提出,常举的例子就是米斯拉(Misra ) 和格里斯(Gries )的频繁项(frequent items )算 法。经过十多年的研究,我们现在对很多问题已经 有了高效的数据流算法,并且证明了它们的最优 性。这些算法广泛应用于各种网络数据流监控系统 中。另外,学术界和工业界也研制出很多通用的数 据流管理系统(也称复杂事件处理系统(complex
图 1 外存模型
CPU
内存
磁盘
event processing )),如美国的威斯康星大学的 Ni-agaraCQ 、斯坦福大学的 Stream 以及微软的 StreamIn-sight 等。
在我看来,数据流模型的成功不仅由于对数 据流本身的处理,还有其对大数据研究的意义。这 主要体现在它的数据摘要(data summarization )技 术,包括数据勾勒(data sketches )、直方图(his-tograms )、压缩感知(compressed sensing )、核心 集(core sets )和采样(sampling )技术等等。大数 据虽然量大,但质量低,从浩瀚的数据中摘出最有 用、最具概况的信息对于大数据的有效处理意义重 大。在数据流模型下,由于内存受限,使得这些技 术非常有用并得到广泛研究。但它们的用途不仅仅 局限在数据流的处理上,数据摘要对于在并行 /分布 式环境下减少数据移动的开销(本文的宗旨)也是 一个非常有效的工具,后面还会详述。
PRAM模型 上面讲到的两个计算模型考虑 的是单机情况下大数据的处理环境。而如果要真正 地具有规模,并行或者分布式结构几乎是必须的。 各种各样的并行计算模型及算法曾在 20世纪 80年代 风靡一时,一度成为计算机理论科学的主流,产生 了一套完整的理论系统和很多优美的算法。然而, 进入 90年代,对并行算法研究的热潮渐渐退去,甚 至被人遗忘。当然,其中原因众多,如模型脱离实 际,算法编程实现困难等。在我看来,最根本的一 个原因是,它没有将问题的核心放到数据移动上 来。我们以最具代表性的并行模型 PRAM (parallel random access machine,随机存取并行机器)为例, 此模型下有一个单一平坦的可寻址共享内存和 n 个 处理器。算法由一系列“并行步”组成,在每一个 并行步里,所有的处理器同步进行 1次内存读、 1次 计算和 1次内存写操作。言下之意,就是内存里的 任何数据可以在单位时间里移动到任何一个处理 器,而与距离无关,这显然和现实大相径庭。事实 上,即便在一个多核 CPU 上,每个核都有自己独享 的寄存器和高速缓存,访问共享内存需要通过各种 上锁机制解决冲突,费时费力。而松散组织的分布 式系统(如大型机群)则根本没有共享内存,要访 问远程的存储空间,需通过网络传输来完成,由此 会产生瓶颈。
尽管 PRAM 在实践上没有成功,但其带来的丰 富的理论成果和算法设计思想对并行程序设计还是 产生了影响。现实中,由于各种并行 /分布式系统 的体系结构、参数不尽相同,所以科研人员和工程 师们往往是从已有的 PRAM 算法出发,经过适当地 修改、调整,以找到适应当前系统的最佳策略。同 时,由于并行 /分布式程序的编写和调试即便在今天 仍是十分困难的,工具缺乏,因此我们往往会牺牲 一些算法效率,以追求实现上的便捷。
MapReduce模型 编写正确高效的大规模并 行 /分布式程序是计算机工程领域的一大难题,所以 谷歌于 2004年公布的 MapReduce 编程模型在工业界 乃至学术界产生了极大的影响,以至于“谈大数据 必谈 MapReduce ”。
前面提到, MapReduce 处理的数据是键 -值对 (key-value pairs )。这些键 -值数据一开始就分布 式地存放在一个由成千上万个节点组成的大型机群 中,每个节点只存放一部分数据。如图 2所示,一 个 MapReduce 任务分为三个步骤:在 Map 阶段,每 个节点调用一个程序员编写的 Map 函数,作用于每 一个在此节点存放的键 -值对 1。 Map 函数的输出同 样是一些键 -值对,这些中间结果进入 Shuffle 阶段。 这个阶段是由系统自动完成的,程序员无须也无法
图 2 一个 MapReduce 任务分解过程
Map
tasks
Shuffle
by keys
Reduce tasks
控制 2。 Shuffle 阶段会把所有中间结果里键相同的所 有键 -值对通过网络传递给同一个目标节点。在最后 的 Reduce 阶段,每个节点会对所有键相同的键 -值对 调用另一个程序员编写的 Reduce 函数,输出最终结 果。当然, Reduce 函数也可以选择再次输出一些键 -值对,从而可以启动新一轮的 MapReduce 过程,如 此往复。
实验人员发现,一个 MapReduce 任务的瓶颈往往 是中间的 Shuffle 阶段,特别是当系统中节点数量多、 并发任务数多的时候。其原因在于:Map 和 Reduce 阶 段各个节点都是独立工作,有很高的并行性; Shuffle 阶段各节点则需要交互,共享网络带宽,而网络带 宽恰恰是大型机群和数据中心中最宝贵的资源。这 再次印证了本文最初的观点:大数据算法的瓶颈是 数据移动!为此,在设计 MapReduce 算法时,就要尽 可能减少中间结果,哪怕在 Map 和 Reduce 阶段每个节 点多做一些工作。这里就正好用到前面提到的数据 流模型下发展起来的数据摘要技术,它们对于减少 MapReduce 任务里的中间结果十分有效。
MapReduce 成功的最大因素是它简单的编程模 型。程序员只要设计 Map 和 Reduce 两个函数,剩下 的工作,如节点调度、负载均衡、容错处理和故障 恢复都由系统自动完成,设计出的程序也有很高的 可扩展性。这对需要编写大规模并行 /分布式程序的 程序员来说是一大福音。可是,编程模型的简单也 大大限制了程序员的自由度,很多较复杂的任务难 以完成,成为 MapReduce 的最大弱点之一。此外, MapReduce 还存在如下问题:(1)启动开销大,对
1
在严格的 MapReduce 模型中,作用于每个键 -值对的 Map 函数是独立调用的;但在扩展的模型中,同一节点的所 有 Map 函数调用是可以通过本节点的内存进行通信的。 2
程序员可以通过定制的哈希函数使 Shuf ? e
做得快一些,但仍无法操纵结果。
易 珂
香港科技大学副教授。主要研究方向为 海量数据算法、数据库技术等。 yike@ust.hk
简单任务也要经历 Map-Shuffle-Reduce 三个过程, 无法做到实时响应;(2)只能处理静态数据,对 变化快的数据(如数据流)无能为力;(3) Ma-pReduce 的系统实现至今仍为谷歌机密,而开源的 版本 Hadoop 效率低下(据谷歌内部人士透露, 5年 前的谷歌 MapReduce 版本也比当前的 Hadoop 快一个 数量级;现在谷歌的版本到底有多快,是否有新的 功能,不得而知)。突破上述限制已成为当前学术 界和工业界的研究热点:例如,很多人尝试结合关 系型数据库和 MapReduce (如 HadoopDB 等),突破 MapReduce 编程模型简单的局限;谷歌于 2010年公 布的 Dremel 系统可用于大规模数据分析和查询的实 时化,弥补了 MapReduce 启动开销大的问题,但其 实现细节仍未发布。另外,很多数据流管理系统开 始尝试进行分布式扩展,我本人也在从事分布式数 据流上的算法研究,希望能够突破 MapReduce 只能 处理静态数据的限制。
大数据是个大题目,除了算法外,还包括数 据挖掘、可视化、异构数据的模型和处理、数据存 储、数据质量、数据安全和隐私等诸多方面。有兴 趣的读者可参阅本刊今年第 6、 9期有关“大数据” 的专题文章。 ■
最佳组织展示奖 大连大学
最佳展示奖 阿里云计算有限公司 中国传媒大学计算机学院
范文三:大数据新算法在个人信用风险评估模型中使用效果的评估
来源:《中国征信》2016年第6期。
作者:大数据评分算法研究课题组①。
上世纪80年代,美国费埃哲公司基于逻辑回归算法构建了费埃哲信用评分体系,并成为美国信用评分市场的巨头。然而,随着大数据建模技术的日新月异,许多新算法、新技术层出不穷。本项目选取了五种大数据新算法,包括支持向量机(SVM)、决策树、随机森林、自适应提升(AdaBoost)和梯度提升决策树(GBDT),在中国人民银行征信中心的大规模样本上进行了个人风险评估模型的构建,并从三方面进行评估。首先,从模型的准确性和可解释性方面综合对比各算法构建的模型在个人信用风险评估中的效果。之后使用时点外测试样本,对各算法构建的模型的外部时点稳定性进行了评估。
项目背景
目前,中国人民银行征信中心的信用报告数字解读体系参考了美国个人消费信用评估公司费埃哲开发的费埃哲信用评分体系。费埃哲信用评分体系构建于上世纪80年代,其核心算法是逻辑回归。 随着统计分析和大数据建模技术的进步,算法的发展日新月异,形成了包括决策树、随机森林、神经网络分析与自适应提升(AdaBoost)等在内的许多新算法新技术,而这些大数据新算法在目前征信中心的数据集上的准确性、稳定性与可解释性仍有待验证评估。
为此,中国人民银行征信中心联合北京至信普林科技有限公司,选取了五种大数据新算法,分别为支持向量机(SVM)、决策树、随机森林、自适应提升(AdaBoost)和梯度提升决策树(GBDT),全面评估和比较上述五种算法在个人信用风险评估模型中的效果,包括稳定性、准确性与可解释性,以进一步理解相关算法在评分上的优势与短板。对新型评分模型的探索与试验有助于为征信中心积累模型算法经验,与国际领先的建模方法接轨,同时以新颖的信用评估模型作为战略储备,为打造我国自有的信用评分体系积累经验。
算法介绍
支持向量机(Support Vector Machine,SVM)是一种分类学习算法。支持向量机(SVM)的基本模型是定义在特征空间上的间隔最大的线性分类器。线性支持向量机与逻辑回归类似,都是给每一个变量赋予一个权重因子,最终变量的加权和作为预测的依据。同时支持向量机(SVM)可以使用核函数将变量映射到高维空间,从而提升模型效果。然而这种方法的主要缺点是训练速度慢,难以直接运用到大规模数据,因此本项目仅对线性支持向量机进行了测试。
决策树(Decision Tree)是一种基本的分类与回归方法。决策树模型呈树形结构,可以认为“是否”判断规则(if-then)的集合,也可以看作定义在特征空间与类空间上的条件概率分布。其主要优点是训练速度快,预测速度也很快。相对于线性模型,决策树还可以处理非线性数据。此外,决策树模型可解释性非常强,对于数据的适应能力也很强;其缺点则是单棵决策树容易过拟合。
随机森林(Random Forest)由多棵决策树组成,每棵决策树擅长特定人群、重点关注特定变量,然后一起决策,作出最终判断。随机森林在构建每棵决策树时,通过样本和变量两个维度进行随机抽样。随机森林的优点是训练速度快,可以很好地进行并行化,能够处理大规模数据。
自适应提升(Adaptive Boosting,AdaBoost)核心思想是利用同一训练样本的不同加权版本,训练一组弱分类器(Weak Learner),然后把这些弱分类器以加权的形式集成起来,形成一个最终的强分类器(Strong Learner)。在每一步迭代过程中,被当前弱分类器分错的样本的权重会相应得到提高,被当前弱分类器分对的样本的权重则会相应降低。弱分类器的权重则根据当前分类器的加权错误率来确定。自适应提升(AdaBoost)的优点是不容易产生过拟合,预测效果好。
梯度提升决策树(Gradient Boosting Decision Tree,GBDT)与自适应提升(AdaBoost)在很多方面类似,也是子模型之间相互协作,不同的是后一个子模型对前一个模型的失误进行修正。梯度提升决策树(GBDT)模型预测的时候,对于输入的一个样本实例,首先会赋予一个初值,然后会遍历每一棵决策树,每棵树都会对预测值进行调整修正,最后得到预测的结果。
逻辑回归适合处理线性数据,而实际问题往往是非线性的,特别是在信用风险评估场景下。支持向量机(SVM)能够通过核函数等方法处理非线性数据,然而在样本量大时训练速度太慢。决策树能够处理非线性数据,但是单棵决策树对数据十分敏感,容易产生过拟合问题。随机森林通过采样来减小计算量,同时能够利用并行方式进行模型训练,因而适合处理大规模高维数据。自适应提升(AdaBoost)和梯度提升决策树(GBDT)在基本决策树模型的基础上,通过数据权重变换等方式,能够将一个弱模型变成强模型,同时能够有效避免过拟合问题。
建模流程
本次研究使用的数据集为征信中心数据库存储的1265万人的个人征信数据,具体包括2010年7月31日时间点的贷款记录、贷记卡记录、准贷记卡记录、特殊交易记录和查询记录。采用自2010年7月31日至2012年7月31日之间个人违约情况的记录定义表现变量,表现变量取值范围为0(未逾期)和1(逾期90天以上)。
项目建模的流程如下:(1)首先对原始数据进行分析,研究原始数据各字段的含义并分析数据质量;(2)基于分析结果,确定刻画个人信用的七大类统计指标, 包括历史还款信息、帐户类型和数量、正在使用和已结清帐户信息、信用时长、新开帐户信息、查询信息和特殊交易信息;(3)对部分连续型指标采用单变量决策树的方法进行分栏处理;(4)利用大数据算法构建个人信用风险评估模型;(5)对各算法构建的模型效果进行评估和分析。
本项目中数据的分析、处理与建模等均是基于派森(Python) 环境。②
效果评估
本项目主要从准确性,稳定性,可解释性三个方面来评估模型。其中准确性指标包括感受性曲线下面积(ROC_AUC)和区分度指标(Kolmogorov-Smirnov,KS),稳定性指标主要参考群体稳定指数(Population Shift Index,PSI)。可解释性可通过指标重要度来进行评估,其中指标重要度用于衡量各个解释变量对算法预测结果影响的程度。感受性曲线下面积(ROC_AUC)、区分度指标(KS)和群体稳定指数(PSI)的具体含义如下:
感受性曲线下面积(ROC_AUC)
感受性曲线下面积(ROC_AUC)是一个从整体上评价模型准确性的指标,是感受性曲线(ROC)与横轴之间的面积。相比于其他评价指标,感受性曲线(ROC)具有一定的稳定性,它不会因为正负样本分布的变化而产生不同的曲线。感受性曲线(ROC)通过真阳率(True Positive Rate, TPR)和假阳率(False Positive Rate, FPR)两个指标进行绘制。感受性曲线(ROC)示意如图1所示。感受性曲线下面积(ROC_AUC)取值范围为[0,1],取值越大,代表模型整体准确性越好。
区分度指标(KS)
区分度指标(KS)是度量具体模型下正常样本和违约样本分布的最大差距,首先按照样本的信用分数或预测违约率从小到大进行排序,然后计算每一个分数或违约率下好坏样本的累计占比。正常和违约样本的累计占比差值的最大值即为区分度指标(KS)。区分度指标(KS)的示意如图2所示。区分度指标(KS)小于0.2代表模型准确性差,超过0.75则代表模型准确性高。
群体稳定指数(PSI)
模型是在特定时间点开发的,是否对外部样本有效需要经过稳定性测试。群体稳定指数(Population Stability Index,PSI)是最常用的模型稳定性评价指标。群体稳定指数(PSI)的计算公式为:
其中预期占比(Expected%)和实际占比(Actual%)分别表示在模型训练样本和测试样本中,对应分数段或违约率段内的人群占比。一般而言,群体稳定指数(PSI)小于0.1代表模型稳定性高,群体稳定指数(PSI)大于0.1小于0.25代表模型稳定性中等,群体稳定指数(PSI)大于0.25代表模型稳定性较差。
2010年样本测试。我们首先在2010年样本上进行建模,评估各模型的准确性与可解释性。2010年样本是指2010年表现变量取值为0(未逾期)和1(逾期90天以上)的人群,样本大小约为1000万。选取样本的70%作为训练样本构建模型,30%作为测试样本评估模型效果。各模型的感受性曲线下面积(ROC_AUC)和区分度指标(KS)分别如图3所示和图4所示。
从上述结果可以看出,集成算法(随机森林,梯度提升决策树,自适应提升)建立的模型表现更好,感受性曲线下面积(ROC_AUC)指标达到0.95以上。 支持向量机(SVM)的准确性表现最差,这与数据样本大,在项目环境下无法使用核函数有关。决策树表现一般,感受性曲线下面积(ROC_AUC)指标分别为0.9477。 具体地,如果以区分度指标(KS)作为衡量标准,自适应提升(AdaBoost)表现最好,区分度指标(KS)达到0.7803。其他模型的表现排序为:随机森林>梯度提升决策树(GBDT)>决策树>支持向量机(SVM)。
在可解释性方面,通过各算法计算指标重要度以帮助对结果进行解读。综合考虑所有模型生成的指标重要度而得出的综合排序如表1所示。
从各模型指标重要度综合排序来看,对个人信用评估影响最大的因素分别是:逾期情况、正常还款比例、免担保贷款、授信额度使用率、信用年限等。可见,影响大数据新算法预测结果的都是可解释性较高的统计指标。与传统的逻辑回归模型相比,大数据算法不需要太多的变量选择和变量评估工作,能够在模型的构建过程中自动选取重要的变量,并对变量的重要性进行自动评估。
外部时点样本测试。为了评估模型在外部时点样本上的表现,我们对大数据新算法模型在外部时点样本上进行了测试。其中外部时点样本选取截至2011年3月31日时间点的纪录,样本总人数约为1300万。使用2010年训练样本所训练的模型在外部时点样本上进行测试,分析比较其在外部时点样本上的准确性和稳定性。
各模型的性能评价指标如图5与表2所示,其中2010年表示模型在2010年测试样本上的表现,2011年表示模型在2011年测试样本上的表现。
对比模型在2010年及2011年样本上的预测结果,在准确性方面,决策树、随机森林、自适应提升(AdaBoost)的感受性曲线下面积(ROC_AUC)有所下降,而梯度提升决策树(GBDT)的感受性曲线下面积(ROC_AUC)有所提升;决策树、自适应提升(AdaBoost)的区分度指标(KS)有所下降,而逻辑回归、随机森林、梯度提升决策树(GBDT)和支持向量机(SVM)的区分度指标(KS)有所提升。整体来说,准确性方面各模型在2011年测试样本上的表现与在2010年测试样本上的表现无明显差异,表现稳定。从群体稳定指数(PSI)来看,自适应提升(AdaBoost)和支持向量机(SVM)稳定性最好(PSI0.25)。
总结
为了评估大数据新算法在个人信用风险评估模型中使用效果,中国人民银行征信中心联合北京至信普林科技有限公司,从准确性、稳定性和可解释性三个方面对主流的大数据算法的模型构建效果进行了综合评估。项目选取了五种大数据新算法,包括决策树、随机森林、自适应提升(AdaBoost)、梯度提升决策树(GBDT)和支持向量机(SVM),在千万级别的大规模样本中进行个人风险评估模型的构建和分析。
在2010年1000万样本上的分析结果表明,自适应提升(AdaBoost)、梯度提升决策树(GBDT)和随机森林三种集成算法准确性表现最佳,决策树准确性次之,支持向量机(SVM)的准确性最差。同时,对外部时点样本的分析结果表明,自适应提升(AdaBoost)和支持向量机(SVM)稳定性高,决策树、梯度提升决策树(GBDT)稳定性中,随机森林稳定性低。在可解释性方面,大数据新算法都能够对统计指标的重要度作出评估,统计指标综合排序靠前的统计指标的解释性较好。综合来看,部分大数据算法(如自适应提升)在准确性和稳定性上均表现优异,可以作为我国新一代信用风险评估模型的战略储备。
大数据算法是模型构建的工具,其结果不是绝对的,如何根据数据特征和算法特性构建合适的模型也是非常关键的。在实际模型开发过程中,需要业务专家和数据科学团队在数据逻辑的理解和建模指标的选取上紧密合作。此外,数据科学团队需要对算法的核心原理有着深刻的理解,并且具备快速的算法实现能力,强大的大规模数据处理能力,才能充分利用大数据算法开发出高性能的信用风险评估模型。
①大数据评分算法研究课题组成员:欧高炎,普林科技数据科学事业部总经理;王冉冉,普林科技金融事业部总经理;王储,普林科技研发中心负责人;杨亮,中国人民银行征信中心增值业务部业务经理;曹朔,就职于中国人民银行征信中心增值业务部;张惠颖,就职于中国人民银行征信中心增值业务部。
②派森(Python):是一种面向对象、解释型计算机程序设计语言。
版权声明:中国征信杂志(微信号:zgzxzz)所有注明来源于《中国征信》杂志的文章,请媒体和微信公众号转载时注明出处,否则将追究法律责任。欢迎转发至朋友圈。
范文四:2014年全国大数据优化模型与算法高级讲习班程序册
2014年全国“大数据优化模型与算法”高级讲习班 (2014年 7月 26日 -8月 1日,上海 )
大数据处理及开发利用成为国内外学术界和工业界广泛关注的一个热点问 题, 其主要驱动力来自于信息时代海量数据的产生和利用。 信息科学、 数据科学、 数学、 运筹学、 统计学、 计算机科学等领域掀起了关于大数据理论研究和应用热 潮。学习与研究大数据的优化模型与算法 , 具有重要的理论意义,在新型的商业 模式、 通讯与网络技术、 经济管理、 智能交通、 计算机科学与信息技术、 健康学、 基因排序、 社会科学等领域有广泛的应用。 为了促进我国学者在这一领域的研究, 特别是培养中青年研究骨干和研究生,中国运筹学会数学规划分会拟定于 2014年 7月 26日至 8月 1日由上海大学理学院数学系举办 “大数据优化模型与算法” 高级讲习班。
一、教学委员会
主 任:修乃华 (北京交通大学 )
委 员:白延琴 (上海大学)
戴彧虹 (中国科学院数学与系统科学研究院 )
徐大川 (北京工业大学 )
张立卫 (大连理工大学)
张连生 (上海大学)
秘书 : 徐 姿 (上海大学)
二、组织委员会
主 任:盛万成、王卿文 (上海大学)
委 员:白延琴 (上海大学) (姓名拼音排序)
陈旭瑾 (中国科学院数学与系统科学研究院 )
康丽英 (上海大学 )
林贵华 (上海大学 )
王国强 (上海工程技术大学)
徐大川 (北京工业大学 )
许新建 (上海大学 )
会务组:贾筱楣、吕魏、彭亚新、谭福平、应时辉 、杨永建、张红娟
三、主办单位:上海大学理学院数学系
中国运筹学会数学规划分会
上海市运筹学会
四、资助单位 /项目:上海市一流学科 -数学
上海大学市本级学科建设项目
五、会议安排与注意事项
1.报到时间:2014年 7月 26日 (周六 ) 14:30-18:30,安排晚餐 地点:上海大学宝山校区乐乎新楼 1号楼大厅
地址:上海市宝山区锦秋路 716号上海大学北门
2.会议地点:上海大学宝山校区乐乎新楼 2号楼二楼“学海厅”
3.会议住宿:上海大学宝山校区乐乎新楼 1号楼
4. 会议餐饮:上海大学益新楼餐厅(二楼, 三楼)
六. 会议日程安排 :
(1) 7月 27日 (周日 ) :
8:30--9:20 开幕式,照相
9:30--11:30 讲习
12:00-13:00 午餐
14:30--17:00讲习
17:00— 18:00 晚餐
(2) 7月 28日 -7月 31日 (周一 ~周四 ) :
8:30--11:30讲习
12:00-13:00 午餐
14:30--17:00讲习
17:00— 18:00 晚餐
(3) 8月 1日 (周五 ) :
8:30-12:10 邀请报告
12:10-12:30闭幕式
12:30-13:30 午餐
17:00— 18:00 晚餐
七 . 联系人:
徐姿 ()
张景 (zhangjingsecond@163.com, 18817394641)
八.交通路线:
浦东机场到上海大学新校区的路线 :
路线 1:从浦东机场乘地铁 2号线到静安寺站 , 转乘地铁 7号线到上海大学 站 , 即到宝山区锦秋路 716号上海大学新校区北大门,大约需 6元。
路线 2:从浦东机场直接乘出租车到宝山区锦秋路 716号上海大学新校区北 大门,大约需 220元。
虹桥机场 (虹桥火车站 ) 到上海大学新校区的路线 :
路线 3:从上海虹桥机场乘地铁 2号线到静安寺站 , 转乘地铁 7号线到上海 大学站 , 即到宝山区锦秋路 716号上海大学新校区北大门,大约需 6元。
路线 4:从上海虹桥机场直接乘出租车到宝山区锦秋路 716号大学新校区北 大门,大约需 60元。
上海火车站 (新客站 ) 到上海大学新校区的路线 :
路线 5:从火车站 (新客站 ) 南一出口出站,向前走 100米,到恒丰路口 (不要 过马路 ) ,向左 (南 ) 拐弯走约 30米,到公共汽车站,乘 58 路或 767B 路公交车到 终点站锦秋路 (原陈太路 ) 下车,过马路向东走约 200米到上海大学新校区北大门 (锦秋路 716号 ) ,进大门向左即看到新乐楼宾馆。
路线 6:从火车站 (新客站 ) 乘出租车到宝山区锦秋路 716号上海大学新校区 北大门,全程大约需 50元。
上海火车南站到上海大学新校区的路线 :
路线 7:从上海火车站 (南站 ) 乘地铁 1号线到常熟路站 , 转乘地铁 7号线到 上海大学站 , 即到宝山区锦秋路 716号上海大学新校区北大门,大约需 5元。 路线 8:从上海火车站 (南站 ) 乘地铁 3号线到镇坪路站 , 转乘地铁 7号线到 上海大学站 , 即到宝山区锦秋路 716号上海大学新校区北大门,大约需 5元。 路线 9:从上海火车站 (南站 ) 直接乘出租车到宝山区锦秋路 716号上海大学 新校区北大门,全程大约需 90元。
公交 :上海大学周边有公交 110、 527、 727、祁宝线、嘉广线。
上海大学理学院数学系 中国运筹学会数学规划分会 上海市运筹学学会
讲课教授简介:(按照讲课顺序)
修乃华,博士生导师,北京交通大学运筹学与控制论学科责任教授,信息运筹学交叉学科北京市重点 学科责任教授,中国运筹学会副理事长。 1982年毕业于河北师范大学数学系数学专业,获得学士学位。 1984-1986就读于吉林大学计算数学硕士学位课程班。 1997年在中国科学院应用数学研究所获得博士学位 , 专业为运筹学与控制论。长期从事“最优化理论、算法及应用”方面的研究,出版著作 3部,发表 SCI 论 文 78篇, SCI 引用 594次, 其中一篇被 ISI 列为 1995-2004全世界数学高引用和影响论文。 主持 973课题、 国家自然科学基金等项目 10余项。获教育部自然科学奖二等奖、北京市教育教学成果一等奖、教育部新 世纪优秀人才。
周涛,电子科技大学教授, 互联网科学中心主任。本科毕业于中国科学技术大学, 2010年获瑞士弗 里堡大学物理系哲学博士学位 . 在复杂性科学和大数据挖掘方面一定的研究和贡献,出版专著 5册,发表 期刊论文 220余篇, 其中 170余篇发表在国际 SCI 期刊上, 包括 Physics Reports, PNAS, Scientific Reports等顶尖期刊。论文 SCI 引用超过 3800次, Google Scholar引用超过 8400次,单篇引用超过 100次的论文 达到 19篇, H 指数为 48。 周涛获得国际一流专业期刊 New Journal of Physics和 Europhysics Letters的最 佳论文奖,中英文论文均有入选我国百篇最有影响力优秀论文。周涛于 2009年获得教育部自然科学一等 奖,安徽省自然科学一等奖, 2010年获得 Chorafas Young Scientist Award, 2011年获得第 12届中国青年 科技奖, 2013年获得四川省科技进步一等奖。并入选中组部万人计划,四川省委组织部百人计划,教育部 新世纪优秀人才计划,国家自然基金委优秀青年科学基金,四川省青年创新平台计划。
印卧涛(Wotao Yin) , 美国加利福尼亚大学洛杉矶分校(UCLA )数学系教授。本科毕业于南京大学 数学系。 2006年获哥伦比亚大学(Columbia University )运筹学博士学位。 2006年 -2013年 7月, Rice University 计算与应用数学系助理教授、副教授。数值优化、并行计算、压缩感知、反问题的理论、算法、 应用。 2008年获得美国自然科学基金 CAREER 奖, 2009年获得美国 Sloan Research奖。 已在 SIAM Journal 发表论文 20多篇, IEEE PAMI等发表 IEEE 系列论文多篇。
何炳生 , 南京大学数学系教授, 博士生导师。 本科毕业于南京大学数学系。 1987年获德国 Wuerzburg 大学博士学位, 2013年 7月 -目前,南京大学管理科学与工程国际研究中心任研究员。何教授长期从事最 优化理论与方法的研究,代表性论文发表在 Math Programming、 SIAM 系列以及 IMA 等国际顶尖期刊。 论文注重通俗易懂,方法力求简单统一。部分研究成果被包括美国两院院士和两位《世界数学家大会》大 会邀请报告人在内的国际著名学者联名发表的论文中长篇引用,也被北美名校的一些学者应用于图像处 理、模式识别、机器学习等信息科学领域。
张小群,上海交通 大学数学系与自然科学研究院特别研究员 . 主要从事图像处理,压缩感知,计算机 视觉等问题中的数学模型与计算方法的研究。论文发表在 SIAM Journal on Imaging Sciences, Inverse Problems, Journal of scientific computing. Inverse problems and imaging 和 optical express 等杂志上。开 发了 基于非局部变分框架的图像恢复算法,主对偶算法等软件包。入选上海市浦江人才计划和教育部新 世纪优秀人才计划。
戴彧虹,中科院数学与系统科学研究院研究员, 博士生导师。中国科学院数学与系统科学研究院优 化与应用中心副主任,中国运筹学会数学规划分会理事长。本科毕业于北京理工大学应用数学系。 1997年
获中国科学院计算数学与科学工程计算研究所理学博士学位。主要研究方向为最优化计算方法及其应用。 曾获国家杰出青年科学基金项目、德国洪堡奖学金、钟家庆数学奖、第十届中国青年科技奖、国家自然科 学奖二等奖、国际通信大会最佳论文奖等奖项。
徐雯,美国德克萨斯大学达拉斯分校(UTD )计算机科学系博士生。本科毕业于大连理工大学软件工 程系。 2011年迄今于美国德克萨斯大学达拉斯分校(UTD )计算机科学系担任科研助手。主要研究课题为 社交网络,基于社会影响力的算法优化问题。研究兴趣包括社交网络,数据通讯和信息管理,智能信息处 理,软件测试,信息安全等。
邀请报告摘要
题目:p 阶范数约束二次规划的线性锥规划计算方法 邢文训教授 (清华大学)
摘要 : p阶范数可用于数据的拟合和稀疏化处理。我们首先给出 p 阶范数约束二次规划模型 并通过简单例子了解该问题。将该问题升维可等价地写成非负二次函数锥规划问题,这是 一个线性锥规划问题。线性锥规划的理论和计算方法因此得以应用。本报告将给出这类问 题的近似求解算法的理论和算法框架。最后,就计算问题提出我们的看法。
题目:Primal-dual approximation algorithm for the two-level facility location problem via a dual quasi-greedy approach 徐大川教授 (北京工业大学)
摘 要 : The main contribution of this work is to propose a primal-dual combinatorial 3(1+\epi)-approximation algorithm for the two-level facility location problem (2-LFLP) by exploring the approximation oracle concept. This result improves the previous primal-dual 6-approximation algorithm for the multilevel facility location problem, and also matches the previous primal-dual approximation ratio for the single-level facility location problem. One of the major merits of primal-dual type algorithms is their easy adaption to other variants of the facility location problems. As a demonstration, our primal-dual approximation algorithm can be easily adapted to several variants of the 2-LFLP, including models with stochastic scenario, dynamically arrived demands, and linear facility cost, respectively.
(Joint work with Chenchen Wu and Donglei Du)
题目:Calibrating Low Rank Correlation Matrix Problem: an SCA Based Approach
张立卫教授 (大连理工大学)
摘要 :Rank constrained nearest correlation matrix problems, weighted or not, are reformulated into DC (difference of convex functions) constrained optimization problems. A general sequential convex approximation (SCA) approach for a DC constrained optimization problem is developed. To overcome difficulties encountered in solving the convex approximation subproblems in the SCA approach, an SCA based nonsmooth equation approach is proposed to
solve the specific rank constrained problem. In this approach, we use a simple iteration scheme for updating the multiplier variable corresponding to the rank constraint, and an inexact smoothing Newton method for calculating the primal variable and the multiplier variable corresponding to the linear constraint. Numerical experiments are reported and they illustrate the efficiency of our approach.
题目:C++计算机训练概览
杨周旺教授 (中国科学技术大学 )
摘要 :
(1)正确的理念
?编程是很有用的:不论你以后是否从事计算机相关的工作, 请相信:较强的编程能 力都能对你未来有所帮助! 因为它所提供的不仅是个思维的训练, 而且还是解决问 题的方法的训练。 另外, 能够通过编程实现自己的很多想法。 如果不能实现你的想 法,就等于没有想法!
?编程是很有趣的:如果你对编程没有兴趣,甚至对编程有抵制情绪,建议你别学 C++编程了,做你自己喜欢做的事。生活中没有 C++,也同样美好。
?编程是很容易的:如果你觉得编程还挺有意思, 首先需要有这个信念:学习编程比 学习数学容易得多得多!能学好数学的同学一定能学好编程。
(2)正确的态度
?代码是你与计算机交流的语言:美丽的语言是心灵的窗户, 要求规范、 清晰、 高效。 ?代码是写给别人看的:合作、交流、共享。
?追求写高质量的代码:仅仅优秀还不够,追求卓越。
(3)正确的方法
?学习编程有一定的方法,需掌握好方法才能快速提高编程的能力! “方法不对,努 力白费” !
?不能像学数学那样来学习编程,即没必要花很多时间(比如,花很多周,甚至 1-2个月来研读某教材) 来研究 C++的各种语法特性; 只要初步了解一定的基本语法, 就可以开始动手写程序;通过边做边查找来体会各种知识。
?学习编程一定要有足够的时间(最好能在 1-2个月之内集中) 。如果你时间不够, 先暂时不要学。
?通过各种任务及目标的设定来学习编程是最有效的方法。 请相信布置给你的一系列 练习会在短时间给你很大的提高,甚至精通面向对象 (C++)编程思想! (该方法的有 效性已得到充分的验证)
◆本 训练课程由数学规划分会优化应用与软件支部及上海大学
讲习班人员通讯录
上海大学简介
上海大学是上海市属、 国家 “211工程 ” 重点建设的综合性大学, 是国家教育部与上海市 人民政府共建高校。上海大学校园占地面积近 200万平方米,校舍建筑面积 110余万平方 米,形成了以校本部为 “ 一体 ” 、延长校区和嘉定校区为 “ 两翼 ” 的 “ 一体两翼 ” 的校园格局。 1994年 5月, 新的上海大学由上海工业大学 (成立于 1960年) 、 上海科学技术大学 (成 立于 1958年) 、原上海大学和上海科技高等专科学校(成立于 1959年)合并组建。上海大 学的广大师生立志继承与发扬二十世纪二十年代上海大学的光荣传统,为建设中国特色社 会主义作出更大的贡献。著名的科学家、教育家、杰出的社会活动家、中国科学院资深院 士钱伟长教授于 1983年出任上海工业大学校长, 1994年至 2010年担任上海大学校长, 他 独树一帜的教育思想和治校方略开创了学校思想解放和学术繁荣的新局面,推进了学校各 项事业的新发展。 上海大学学科门类齐全,涵盖哲学、经济学、法学、文学、历史学、理 学、工学、管理学、艺术学等学科门类。现设有 26个学院和 2个校管系;设有 67个本科 专业、 42个一级学科硕士学位授权点、 174个二级学科硕士学位授权点、 13种硕士专业学
位(其中工程硕士含 18个工程领域) ; 20个一级学科博士学位授权点、 79个二级学科博士 学位授权点、 12个自主增设二级学科博士学位授权点(含 3个交叉学科博士点) ; 17个博 士后科研流动站。拥有 4个国家重点学科、 11个上海市一流学科, 6个学科进入 ESI 国际 学科排名全球前 1%;拥有 2个科技部与上海市共建的省部共建国家重点实验室培育基地, 1个国家体育总局体育社会科学重点研究基地, 2个省部共建教育部重点实验室, 1个教育 部工程研究中心, 3个国家级实验教学示范中心, 4个教育部特色专业建设点 ;6个上海市重 点实验室(其中两个省部共建国家重点实验室培育基地) , 2个上海工程技术研究中心, 2个上海高等教育内涵建设 “085工程 ” 项目, 2个上海高校知识服务平台, 1个上海市人民政 府决策咨询研究基地, 1个上海市社会科学创新研究基地, 2个上海市高校 E -研究院, 1个上海高校智库建设项目, 1个上海高校人文艺术创新工作室, 2个上海高校人文社会科学 研究基地, 3个上海高校重点实验室, 1个上海高校工程研究中心, 2个上海市专业技术服 务平台。
上海大学是上海市重要的人才培养基地。学校是拥有国家试点学院的 17所高校之一, 是教育部实施 “ 卓越工程师教育培养计划 ” 的首批高校之一,是中宣部、教育部实施 “ 卓越新 闻传播人才教育培养计划 ” 的首批高校之一。 学校建立了以学分制、 选课制、 短学期制为核 心的特色鲜明的人才培养模式,初步形成了以培养全面发展、终身发展的创新型人才为核 心的人才培养体系。上海大学毕业生素以 “ 知识面宽广、综合素质高、创新能力强、发展后 劲足 ” 而受到用人单位的青睐,学校 2010年被教育部评为首批 50所 “ 就业经验典型高校 ” 之 一, 2013年毕业生初次就业率达 98.26%。目前学校正在推进研究型大学本科教学模式建 设,推行以按大类招生和通识教育培养为突破口的本科教育教学改革,促进学生自学能力、 实践能力和创新能力的发展。学校现有研究生 11036人,全日制本科生 24161人,高职生 2132人。另外,还有成人教育学生 13580人。
上海大学积极实施人才强校战略,初步形成了层次更为清晰、结构更趋合理、具有一 定国际化程度、基本适应学校发展需要的师资队伍,并已在多数学科领域中形成了若干有 特色、有影响、有潜力的学科团队。现有专任教师 2819人,其中教授 545人、副教授 896人,博士生导师 401人,具有博士学位的教师 1597人。现有中国科学院院士、中国工程院 院士 10人,外籍院士 2人;中组部 “ 千人计划 ” 入选者 7人,教育部 “ 长江学者 ”6人,国家 杰出青年科学基金获得者 10人;上海市 “ 千人计划 ” 入选者 15人,上海市 “ 东方学者 ”43人; 享受政府特殊津贴专家 41人。
上海大学积极推进开放合作,开展了广泛的国际国内交流与合作,中外合作办学稳步
发展。 学校已与 34个国家和地区 154所高校签署校际合作协议。 学校在校就读的外国留学 生 3632人, 其中学历生 569人, 2013年 7月被教育部评为来华留学示范基地单位。 学校 建有 3个中外合作办学学院,并已与北美洲、欧洲、亚洲等地区的大学合作建立了 5所孔 子学院。学校与中国科学院长三角地区研究所、中国艺术研究院、宝山区人民政府等签署 全面合作协议,开展包括科学研究、人才培养、队伍建设在内的全面合作。
上海大学一贯重视党的建设与精神文明建设。 1998年荣获全国 “ 党的建设与思想政治 工作先进高等学校 ” 称号。 1994年以来,上海大学已 8次被评为上海市文明单位, 2007年 12月荣获 “ 全国教育系统纪检监察先进集体 ” 称号, 2009年 1月被评为全国精神文明建设工 作先进单位, 2010年 12月被中共中央、 国务院授予 “ 上海世博会先进集体 ” 荣誉称号, 2011年 3月被命名为上海市廉政文化示范点, 2011年 12月被评为全国文明单位。
展望未来,上海大学将继续发扬优良传统,抓住机遇、锐意改革,深入学习和实践钱 伟长教育思想,深入实施国际化战略、人才强校战略、学科交叉战略、产学研联盟和区域 合作战略,不断优化富有上海大学特色的办学模式,不断提高教育质量和社会服务的水平, 建立与上海现代化国际大都市地位和发展需求相适应的人才培养体系、知识和技术创新体 系,努力成为我国高素质人才培养、高层次决策咨询、高水平科学研究以及推进高新技术 发展和成果转化的重要基地,成为国际知名、国内一流、特色鲜明的综合性研究型大学。 上海大学数学系简介
从 1960 年建系至今, 上海大学数学系经过 50 多年的发展, 已拥有一支科学研究水平较 高、由一批年富力强的学术骨干和学成归国或国内一流学府培养的年轻博士组成的学术队 伍,形成了学科门类齐全、富有研究特色的教学和科研基地。
全系现有教职工 108 名,其中教授 21 名、副教授 28 名、国家千人计划特聘专家 1名,具有 博士学位的教师比例为 83%; 在校本科生 500 余人、 硕士研究生 200 余人、 博士研究生近 100 人。
数学系有数学博士后流动站、数学一级学科博士点和一级学科硕士点、系统科学一级学 科硕士点以及统计学一级学科硕士点、 “数学与应用数学”和“信息与计算科学” 2 个本科 专业。 数学系已完成上海市第三期重点学科 “运筹学与控制论” 和上海市教委第一、 三、 四、 五期重点学科建设以及 2 个上海市本级学科建设项目。 在 2008 至 2020 年上海市高校发展 定位规划中,上海大学数学学科被列为“国家级”一线学科和“扶强”重点发展学科。 2012 年成功入选上海市一流学科。在一级学科平台上,在学校和学院的领导和支持下 , 数学学科
近几年得到了跨越发展。根据 ESI 数据库最新数据,进入全球前 1%的数学机构有 241个, 上海大学数学系位列第 124名,进入了数学专业排名全球前 5‰的行列。在英国 QS 全球大 学数学专业排行榜中, 2013-2014年上海大学并列进入前 101-150,进入前 150强的内地高 校仅有 9所。 在 2012 年教育部学科评估中, 上海大学数学学科排名并列第 11, 在上海地区 位列复旦、上海交大、华东师大之后。近五年来,已在国际著名学术杂志上发表 SCI 论文 500 多篇,其中 ESI 高被引论文 15篇;主持国家 863 项目 1项、国家自然科学基金项目 63 项,其中重点项目 1 项;拥有 3 门上海市精品课程“高等数学”、“数学分析”和“高 等代数”。数学系有数学基础实验室、科学与工程计算实验室、信息与计算科学实验室、生 物信息实验室、 运筹学与控制论实验室、 系统分析与集成实验室、 闻通语音实验室。数学系 还拥有承担教学和科研任务的 4个研究所:基础数学研究所、 应用数学研究所、 计算数学研 究所、 运筹学与控制论研究所。 上海大学核心数学研究所、 上海大学运筹与优化开放实验室、 上海大学系统科学研究所、上海大学应用数学与系统科学研究所均挂靠数学系。
近年来数学系教师在国际顶级学术杂志(如:Transactions of the AMS 、 Advances in Mathematics 、 Journal of Algebra 、 SIAM Journal on Numerical Analysis 、 SIAM Journal on Applied Mathematics、 SIAM Journal on Optimization、 Physical Review Letters等)上连续发 表论文。 2002年迄今 SCI 论文全国数学学科排名连续名列前 10位, 2008年全国数学学科 排名第六位。近 5年主持国家级项目 50余项。
数学系近年来, 平均每年有近百位国内外的著名专家学者前来讲学交流, 有 30位左右 的教师出国访问与科学合作研究,承办了“第五届中国矩阵论及其应用国际会议”、 “中 澳最优化理论方法和应用研讨会”。 2007年承办了首次在发展中国家和亚洲地区召开的国 际线性代数界最高规格的学术会议 “国际线性代数学会第 14届年会” 。 2009 年主办了运筹 学与控制论学术会议暨运筹与优化开放实验室成立仪式、 上海国际矩阵论会议、 第一届华东 地区运筹学与控制论博士生学术论坛。 2010年举办第八届全国数学规划学术会议曁数学规 划分会代表大会、第九届中国矩阵论及其应用国际会议。 2011年举办系统复杂性学术研讨 会、 图论与组合优化学术研讨会、 第六届上海市科学与工程中的计算方法学术研讨会、 长江 三角洲偏微分方程学术研讨会暨长江三角洲微分方程博士论坛、 与香港中文大学、 复旦大学 合办复旦大学合办第八届国际最优化理论会议。 与新加坡南洋理工大学、 国家自然科学基金 重大项目课题组、四川师范大学合办编码和密码学国际研讨会,承办 2011 凸几何分析与积 分几何暨相关课题学术会议、系统复杂性学术研讨会、图论与组合优化学术研讨会。
上海大学宝山校区乐乎新楼 (Hotel)
范文五:浅析大数据模型和算法在企业生产和物流领域应用
大数据是近年来学术界和产业界共同关注的热点问题,2015年5月国务院下发的《中国制造2025》规划中将大数据作为未来十年发展的重点方向之一,目前国家工业与信息化部正在着力编制“国家大数据发展十三五规划”。这些动作都表明大数据在我国有着广阔和巨大的发展空间,并且将受到国家产业政策的长期重点扶持。
2014年,我国软件业务收入为3.7万亿元,其中数据处理和存储类服务实现收入6 834亿元,同比增长22.1%,占全行业比重为18.4%。大数据已经在金融、通信、交通、制造、医疗等各个领域开展较多应用,并将成为制造业转型升级和提升竞争力的关键要素。
1 大数据简介
目前学术界并没有对大数据有一个明确严谨的定义,只是一般来说,如果一个行业或者企业能够产生大量的数据,一般就称之为“大数据”。从技术层面理解,大数据的“大”一般体现在以下几个层面:(1)存储介质大,对于大数据而言,一般的桌面级电脑的硬盘已经远远不能满足需求,往往需要大型的磁盘阵列等进行存储,同时由于大数据行业每天都在产生大量的数据,因此对于大数据的压缩、备份等方面均提出了比较高的需求;(2)处理能力强大,随着数据量的攀升,对于处理系统技术的要求是呈几何数量提升的,例如新浪微博需要为千万级用户实时快速计算并刷新关注、粉丝、微博的计数,并对用户及时通知新消息等,这些都需要极高的处理能力;(3)来源多样化,大数据可能是非常规整的各类数据,也可能不是规整的数据,例如非结构化的自然语言等,这些也给大数据的处理和利用带来了技术上的难度。
目前在国内,数据分析和挖掘领域做得比较好的还是在通讯、金融、互联网等行业,主要作为传统行业的制造型行业,在大数据方面的应用还是比较少的,或者至多是处于起步阶段。下面我们首先看看大数据能给行业和企业带来什么,
2 大数据能给我们带来什么,
根据“大数据”概念的提出方――美国IBM公司的构想,大数据将主要在四个方面给我们带来收益:
2.1 节约成本
可以运用大数据技术有效地节约成本,这一点在生产型企业表现得比较突出,例如美国GE公司在飞机制造中利用大量分布在飞机涡轮上的传感器上传回的实时数据进行分析,从而有效地预测飞机叶片上何时会产生裂缝。另外一个著名的案例是美国UPS公司在公司的送货车安装了4.6万多个远程信息感应器,用来传送速度、方向、刹车以及行驶表现数据,公司对这些大数据进行分析以优化货物的运送路径。在国内也有一些企业采用大数据技术来降低生产成本,例如北京、广东的数家生产型企业利用IBM SPSS的“预测性维护”模块来智能预测设备的最佳维护时间,从而有效地降低了企业的生产成本。
2.2 有效地缩短计算时间
在大规模生产和运营的过程中,有很多数据需要及时刷新、分析和利用,采用常规技术和手段计算时间比较慢,无法达到生产和运营的要求,因此需要参与创新的大数据技术来缩短计算时间,例如某印刷企业对商品的打折定价最优化的计算,原来需要27小时才能做完,采用大数据技术后,1小时就能计算完毕。
2.3 生产虚拟模型化提升运营效率
在传统的制造企业中,大量的数据分布于企业中的各个部门中,要想在整个企业内及时、快速提取和汇总这些数据存在一定的困难,创建产品生命周期管理(PLM)平台是解决这个问题的方法之一,其好处在于可以充分整合来自研发、工程、生产部门的数据,对工业产品的生产进行虚拟模型化,优化生产流程,提升组织的运营效率,缩短产品的研发与上市时间。西门子的PLM软件平台可以在计算机生成的三维模型下模拟生产工艺,在实际生产之前发现生产工艺中的薄弱点,安徽奇瑞汽车曾经利用它查出某车型头灯生产中的问题,为公司避免了10多万美元的损失。
2.4 更准确地判断市场需求
运用大数据技术,可以提高市场营销的效率,例如在网站页面上对用户进行产品推荐,在海量数据中对用户的消费者行为进行分析,甚至进行一些跨部门跨行业的大数据分析,将其结论用于产品和服务的创新。在工程机械行业,很多挖掘机都安装了GPS定位系统以实时监控车辆运行情况。同样,日本小松公司的挖掘机也安装了GPS定位系统,在实时监控车辆运行情况的同时,还根据挖掘机每个月的工作量统计全年的工作情况并由此判断下一年度的市场需求。挖掘机开工越饱满,说明市场需求越旺盛,如果客户购买挖掘机后每个月的工作量很少,说明市场有可能面临过剩的风险。 在明确了大数据能够给行业和企业带来变革和改进之后,继续进一步细化分析大数据技术包含的常见的算法和模型。
3 大数据常用模型和算法
无论采用什么样的技术架构和存储设备,大数据的应用最后还是要落实到具体的模型和算法上,因此对数据分析和挖掘模型和算法的理解,进而对理解大数据在行业和企业的应用非常有帮助。
从目前的市场态势看,常用的分析模型和算法基本上都已经被编制成软件模块,因此从市面上流行的分析软件和解决方案入手,基本可以搞清楚主要的分析模块。目前在数据分析挖掘软件上比较领先的公司有IBM、SAS、SAP等,纵观这些市场上的著名软件,可以将主要的数据分析挖掘的模块区分如下:
(1)异常值分析:异常值分析是数据分析和挖掘的重要问题之一,异常值指数据中的极大值、极小值或者背离趋势的值,例如原来数据是在增长中,突然数据开始下降,也可以作为数据异常值考虑。异常值的模型和算法中包括三倍标准差等算法,在此不再赘叙。
(2)相似或聚类分析:从大的范畴来看,相似或者聚类都属于数据分类的范畴,相似是把数据中有相似特征的数据挑选出来分门别类,聚类的思路也比较类似。
(3)数据间关系判断:我们经常要搞清楚数据之间的关系,回归是分析数据之间是否有关系以及将数据间关系用类似数学方程式的方式表达的分析方法,回归包括一般的线性回归、非线性回归以及logistic回归等。
(4)关联分析:关联分析是数据挖掘中的经典算法,它主要关注数据之间是否同时出现以及数据之间次序出现的关系,例如数据A和数据B同时出现的概率是多少,也例如数据A出现的时候、数据B出现的概率是多少,关联分析的结果经常被用来产品的营销推荐和捆绑销售。
(5)决策树工具:决策树实际上也是一个分类算法,该算法采用树形结构分析数据之间的相互影响关系,来探讨数据之间的影响关系和次序关系,例如汽车销售4S店利用决策树模型对汽车选购数据进行分析,分析性别、年龄、职业、首次购车/非首次购车等因素对于汽车品牌等选择的影响,取得了比较好的效果。目前比较好的决策树模型有c5.0、CHAID等著名算法。
(6)预测模型:预测一直是数据分析和挖掘的核心功能之一,预测是在历史数据的基础上对未来数据进行预测,目前市面上流行多种预测模型和算法,包括时间序列、神经网络等。
在以上的统计挖掘模型之外,近年来在大数据领域受到热点关注的功能就是网络爬虫功能。爬虫就是按照一定的搜索需求在互联网上进行内容抓取,例如在某一个特定的网站上抓取“价格”相关的信息。爬虫软件目前在如下几个方面得到了重点关注并获得了较多的应用:网络营销、产品设计、舆情分析等方面,商家希望及时获得消费者和社会大众对于产品的评价和反应,以确定自己的包括定价在内的营销策略和产品设计,政府希望获知老百姓对于政府政策、突发事件等方面的反应等。现在市面上爬虫软件众多,有开源免费的软件,也有收费的商业软件,功能差异很大。值得注意的是,一些企业处于保护自身竞争优势以及企业机密的角度出发,现在逐步开始对爬虫软件进行限制,例如新浪微博、腾讯微信等,这在很大程度上限制了爬虫软件的应用。
4 大数据模型和算法在企业中的应用
从企业的职能来说,主要可以分为生产、采购、营销、财务、人事等职务,其中生产和营销是企业最主要的功能,主要看大数据模型算法等在企业生产和物流方面的应用控件。
4.1 在生产领域的应用
在生产领域,大数据技术现在应用的最大亮点莫过于提高生产质量和降低生产成本,我们以异常点分析和聚类模型为例,上海某大型印刷企业在收集不同批次的产品质量数据之后,采用以下的步骤进行产品故障分析:
如图1,在产品批次数据库上,采用聚类算法将低产品合格率的批次数据挑选出来,在多工序多机台的工作环境下,采用“加工路径分析”方法找出可能存在问题的机器设备,然后结合实验设计调整生产工艺参数,提高产品质量。
另外一个降低生产成本的案例是IBM SPSS推出的“预测性维护”的数据挖掘模块,工厂设备的维护基本是按照“定时维护”的原则,即制定好设备的维护计划,到点就对机器设备进行维护,而不管设备的实际运行状况如何。“预测性维护”模块首先会收集大量的关于设备的各项数据,包括设备类型、运行天数、工作电压、距离上次服务的天数、距离下次服务的天数、故障历时记录、计划内和计划外的维护成本、零件相关的数据等等,然后进行相关的统计分析(包括比较复杂的数据回归等),并给出最佳的设备维护建议。国内外一些生产型企业采用了该模块后,取得了比较好的效果,有效地降低了企业生产和维护成本。
4.2 在物流领域的应用
大数据模型和算法在其他领域的应用也在增多,据笔者了解到,上海某大型印刷企业针对其物流成本高的现状,借助数据分析和挖掘技术对该企业的物流成本进行了分析。该企业将过去五年的物流成本进行了汇总,其数据以周为单位,整理了包括包装、运输、库存、装卸四大类物流成本,明细的会计科目有22个,随后采用相关分析和回归分析等手段对物流成本数据进行了分析,通过分析,该企业明确了各类物流成本的占比以及弹性,明确了物流成本压缩的重点,取得了较好的效果。
在物流业实施RFID技术的研讨和实施一直在持续不断地进行着。RFID(无线射频识别技术)是一项基于电子标签,配套其他外围基础设备,如外置天线、读写装置和打印机等的系统技术。RFID是通过“发送信号”、“接受信号”以及“处理信号”三大步骤来完成的。利用RFID技术,将特殊的信息编码写进电子标签,粘贴在需要识别的物体上,通过无线射频方式进行非接触双向通信,一边识别一边交换数据。惠普在美国田纳西州的物流配送中心仓库,为北美多个企业,如沃尔玛、BestBuy等提供促销专用的打印机。惠普与参加打印机促销活动的商家展开活动,以托盘为单位进行RFID标签应用,为装载促销打印机的托盘上加贴一张RFID标签,打印机从配送中心出货后,在各个中转点进行数据的读取和采集,这样产品在何时、何地或者经过何地这些实时信息,可以提供给决策者进行决策,能够及时处理和判断各类问题。通过RFID技术,可以大大提高商品的物流和营销效率。
大数据效益最终不是体现在直接的经济收益上,而在于帮助企业提升竞争力,能够更清楚地应对客户需求,提供优质服务,“只要我们的制造业水平能随之得以提高,制造业+大数据的做法就应该坚持下去。”
5 结束语
大数据技术目前在各行各业的应用都在推进,制造型企业也是如此。相对于金融、通讯等行业来说,大数据技术在制造业基本还处于起步阶段,但是这也预示着大数据各项技术在这个行业有很大的应用空间。对于制造型企业来说,关注大数据技术及其发展趋势,结合行业的需求现状,合理采用大数据技术,有效地推进企业的生产、降低成本、提高运营效率,是相关企业目前需要关注的重要问题之一。
转载请注明出处范文大全网 » 美国金融银行业的大数据算法: