精彩书摘:
《网络大数据下银行金融发展探究》:
三、其他分析方法
(一)聚类分析方法
聚类分析源于许多研究领域,包括数据挖掘、统计学、机器学习、模式识别等。聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类前不必事先给出一个分类标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析由于使用方法的不同,得到的结论也不同。不同研究者对于同一组数据进行聚类分析,得到的聚类数未必一致。作为数据挖掘中的一个功能,聚类分析能作为一个独立的工具来获得数据分布情况,并且概括出每个簇的特点,或者集中注意力对特定的某些簇做进一步分析。数据挖掘技术的一个突出特点是能处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、可处理不同类型的属性、可发现任意形状的类及处理高维数据等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。
聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。
聚类在数据挖掘中的典型应用有三个方面。一是聚类分析可以作为其他算法的预处理步骤:利用聚类进行数据预处理,可以获得数据的基本情况,在此基础上进行特征抽取或分类可以提高精确度和挖掘效率,也可将聚类结果用于进一步关联分析,以获得进一步的有用信息。二是可以作为一个独立的工具来获得数据的分布情况,聚类分析是获得数据分布情况的有效方法。通过观察聚类得到每个簇的特点,可以集中对特定的某些簇做进一步分析。三是聚类分析可以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的,如在金融欺诈探测中,孤立点可能预示着金融欺诈行为的存在。
聚类分析法有快速聚类和系统聚类两类。一是快速聚类。要求事先确定分类。它不仅要求确定分类的类数,而且还需要事先确定点,也就是聚类种子,然后根据其他点离这些种子的远近把所有点进行分类,再然后就是将这几类的中心(均值)作为新的基石,再分类,如此迭代。二是系统聚类。系统聚类是将样品分成若干类的方法,其基本思想是,先将每个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止。
(二)关联规则方法
关联规则挖掘是数据挖掘中研究较早并且至今仍活跃的研究方法之一。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据某一数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二阶段为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业中用以预测客户的需求,通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据闻的关联或相互关系。
在客户关系管理中,通过对企业客户数据库里的大量数据进行挖掘,可以从记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户需求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。
1.Apriori算法
Apriori算法使用候选项集找频繁项集。Apriori算法是最有影响的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思路是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第一步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。
2.基于划分的算法
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈,每个独立的处理器生成频集的时间也是一个瓶颈。
……
作者简介:
赵子罡,出生于1987年8月15日,籍贯为山东临沂。中国海洋大学管理学院在读博士。研究方向为企业创新管理。
内容简介:
网络大数据金融是网络大数据在金融领域的重要应用。网络大数据金融市场前景广阔,预计未来网络金融大数据产业将迎来黄金增长期,网络大数据也将成为“大众创业、万众创新”浪潮的有力推手。
《网络大数据下银行金融发展探究》共分为五章,包括网络大数据金融理论的阐释、网络大数据相关技术原理、网络大数据在银行金融中的应用、银行征信的大数据探索、网络大数据与银行金融信息安全的建设。
《网络大数据下银行金融发展探究》内容具体,针对性强,在力求科学性、学术性的同时,也注重语言的简洁、凝练、通俗易懂。
目录:
第一章 网络大数据金融理论的阐释
第一节 大数据技术
第二节 大数据金融的内涵
第三节 大数据在金融领域的应用
第二章 网络大数据相关技术原理
第一节 大数据处理流程
第二节 大数据来源及架构
第三节 数据挖掘方法
第三章 网络大数据在银行金融中的应用
第一节 客户关系管理
第二节 精准营销
第三节 信贷管理
第四节 风险管理
第五节 运营优化
第四章 银行征信的大数据探索
第一节 大数据银行征信的理论基础
第二节 大数据银行征信的实践
第三节 大数据银行征信对经济分析的重要意义
第五章 网络大数据与银行金融信息安全的建设
第一节 网络大数据给银行金融信息安全带来的机遇与挑战
第二节 网络大数据银行金融安全风险及现状分析
第三节 我国银行金融信息安全的保障机制
参考文献
好评度