全球最牛的28个大数据可视化应用案例(三)资金喷泉担保圈毒刺

来源:bob体肓官网入口
发布时间:2024-01-12 22:05:52

...

  原标题:全球最牛的28个大数据可视化应用案例(三)资金喷泉/担保圈毒刺/

  随着大数据在人们工作及日常生活中的应用,大数据可视化也改变着人类的对信息的阅读和理解方式。从百度迁徙到谷歌流感趋势,再到阿里云推出县域经济可视化产品,大数据技术和大数据可视化都是幕后的英雄。今天,我们将连载由Teradata独家提供的来自全球28个大数据可视化应用案例第三部分。

  本系列4篇文章为36大数据独家专稿,任何不表明来源36大数据和Teradata以及本文链接的转载均为侵权。公众号也是如此。

  这个匿名的可视化是分析的一系列映射在中国大规模的公司之间的资金流动量的关系,这是一家中国大型银行的企业银行业务的风险分析项目之一。分析使用转账交易数据以了解风险和发现市场机会。

  在此图中点 (节点) 代表公司。线 (边缘) 代表两家公司之间的资金转移和箭头显示这笔钱流向。

  图表显示了不同的公司之间的所有金钱流动。我们大家可以将映射通过 2、 3 和 4 的后续交易,如绿色公司了解上游供应链的流动和对彼此相互依赖性的公司。

  若要管理风险,银行需要识别于高度相互依存的公司。它允许银行确定关键的公司在供应链和独立交叉检查公司的现金流来验证其资金的健康状况。

  它还有助于识别欺诈。银行能检查公司的真正的商业活动,并可以验证借出的资金用于其目的。例如制造商,是投资在股票市场的投机资金,而不是向供应商付款或谁拿出一笔贷款建一座工厂,但真正地将资金用于短期住宅房地产交易。

  它还有助于市场营销,它强调了银行服务方面的差距。其中大量的资金流出 (或) 到的链标识高价值前景公司。它为现有的客户端揭示了在融资、 结算、 风险管理等更广泛金融服务的服务提供更高的价值。

  这种分析使用 Teradata Aster和 Aster 的Lens。装载的交易数据是非常大的, 涵盖超过 670,000 公司的 60,802,990 记录。公司记录包含行业分类代码,因此我们大家可以理解他们的业务活动。这张图包括 PageRank 用于选择顶级的32 个重要客户和我们包括所有相关的交易对手方总交易大于或等于达到人民币 70 万元(USD$ 115 k)。

  在此图中有 3883 节点和 3943 条边。节点代表公司,而边代表公司之间的现金流,箭头显示这笔钱流向。

  石棋玲(Mary) 是已经在中国尝试使用高强度超级图形方法的大规模风险分析的数据科学家和开拓人。她与中国的银行结成伙伴关系的目标是要揭开中国高度复杂的商业系统中管理风险的新方法。她的工作包括”资金喷泉”是一系列的创新,帮助消除金融系统中的风险只是其中一例。 她充满天赋, 会在银行金融应用方面有更广阔的世界。

  石棋玲目前是Teradata中国 的高级顾问,是Aster & Hadoop 大数据卓越 (COE)中心的一员。石棋玲于2009年在中央佛罗里达大学获得应用数学博士学位。她目前正在职读美国德拉维尔大学的MBA学位。在 Teradata 之前, 她在美国匹兹堡的 PNC 银行的风险管理部门工作 2 年以上。那段时间,她开发了许多算法来控制风险和打击欺诈和洗钱 ;其中几个算法曾出现在美国货币控制委员会的报告中。她在美国计算机科学公司工作时开发了很多计算机程序并在多个国际SAS 会议上发表。

  这一数据可视化采用了1000个基因工程的数据,显示出不同人群及地理位置基因的变化(和相似性)。

  每个框架都显示出1000个基因工程中一个不同的群体或者地理位置。每个框架都是由纯基因数据构建成。观察者可以清楚地看到不同群体的变化,证明了大规模的基因数据有助于明确地了解全球各个地理位置的群体。

  项目的目标在于证明大规模基因分析的价值。大规模基因分析使用高强度超级成像法更好的理解癌症的基因遗传模式,及如何开发出与个体的遗传基因成分匹配的个性化医学治疗法。

  这一可视化通过VizExplorer 显示了一批量子超级图像的集合,在Teradata相关的数据库之上使用查询叠加进行大规模数据处理。

  大规模数据处理最初采用量子树算法,利用一种数据库内的递归算法,将1000个基因群体的全部位置信息置于一个常见的分层量子网格中处理。然后,一个数据库查询被用于为每一个相应的群体的总人口构建数据子集。数据子集继而可用以构建一幅热力图,显示在每个框架上。

  最后各框架聚集一起组成一幅“小倍数”图像,这样可在1000个基因项目整体中观察出各群体间序列数据的模式。基因数据规模非常巨大:一个包含25000个肿瘤的数据库就从另一方面代表着超过75兆数量的数据记录。

  安德鲁是VizExplorer公司首席技术官。他拥有奥塔哥大学测量学学士学位,并获取了维多利亚大学计算机科学学位。他通过训练成为一名制图师,在制图、数据可视化、高性能的数据库设计领域创造了超过60项专利和发明。在数据可视化相关的信息技术领域,他和他的团队两度成为史密森学会奖的英雄主义得主。安德鲁还参与合著了一本数学游戏分析方面的书,以及60多篇数据可视化及高级分析领域的文章。安德鲁出身并成长在新西兰南岛。现在,他和他的妻子及4个孩子一起住在美国加州。

  宝立明是Teradata公司首席技术官。 他毕业于麻省理工学院计算机科学专业,他的硕士和博士研究集中于高性能并行处理。他还完成了由哈佛大学商学院和麻省理工斯隆管理学院合办的工商管理课程与论文工作。在巴拉克.奥巴马首次任期期间,他还曾被任命为“总统科技顾问委员会”(PCAST)的一员,服务于“网络与信息研发技术”工作小组。近期,由Exec Rank从10000多名美国主要首席技术官里做出的排名中,宝立明名列第4(前3名为亚马逊网CTO、特斯拉汽车CTO,以及英特尔CTO)。

  宝立明是数据狂,安德鲁是视觉化狂。他们二人同在“数据仓库研究所”和其他论坛里教学高级数据可视化长达10多年。包含在这个课程的就是针对基因组学超级图像的深度测试。宝立明和安德鲁还同是户外运动的狂热爱好者,他们在新西兰和美国常一起出外背包旅行。

  ‘担保圈火花’ 展现了在某家银行的汽车厂商、4S店和个人客户之间建立的担保关系网络.这是担保圈分析的其中一个图形。

  制造商和零售商早就认识给客户提供消费贷款来促进销售的好处。汽车行业的竞争越来越激烈,在全球最大的汽车市场中国也不例外。为越来越好的争取客户,很多汽车金融公司和4S店为客户申请汽车消费贷款,一些手头拮据的顾客轻轻松松实现购车梦想。

  在这个隐去名字的图形中,点代表车贷客户或者车贷担保人,线代表担保人和被担保人的担保关系.不一样的颜色用来区分相应的担保网络。

  从图形中的这些火花绽放,我们大家可以很容易看到黄色、蓝色和紫色的群体,这其中几个担保人为很多贷款做担保。这些担保人有些是汽车公司或者是企业法人。在有些情况下,像蓝色和紫色群体,不同的相关实体作为担保人,这样就很难发现总体的风险暴露。

  银行可以针对这些风险暴露采取一定的措施。可能不那么直接,该图只是该系列的其中一幅。银行首先要做的是防止多米诺效应。在很多情况下,这些汽车厂商和4S店是银行的优质客户,银行出于维护客户关系,扩大经营事物的规模,提升客户黏度,为此办理车贷业务,但相应的车贷风险还是要做好监控和管理。

  ‘担保圈毒刺’ 是一系列银行风险管理分析中的一个结果输出。它揭示了对公客户贷款组合的精心策划的带有迷惑和欺诈的担保行为。这是Teradata在中国开发的一些大数据风险管理技术的一部分。

  它是着眼于公司客户担保业务的,某家公司为别的企业来提供担保,向银行申请贷款。通常情况下,只凭借被担保公司的资质是无法获得相应贷款的。

  问题来了,当公司客户互相担保,比如说,A作为B的担保人申请贷款,然后B做为A的担保人申请贷款。这样,所有的风险就会转嫁给银行。一旦A或者B出现违约,会波及到这两家公司的贷款,风险暴露会成倍增加。一对一的互相担保非常容易发现,但如果这个担保圈比较大,或者如果公司结构比较复杂,贷款就会给到不同的分公司,不同的省公司,甚至不同国家的公司呢?

  在这个隐去名字的图形中,我们把互相担保的公司给分开。点代表一个公司,担保人或者被担保人。线代表担保人和被担保人之间的关系,线的粗细代表担保金额的大小。

  像致命的水母或者潜藏在大海深处的毒刺,‘担保圈毒刺’ 揭示了错综复杂的互保网络,每个担保网络涉及数百万甚至亿级的贷款金额。贷款审批部门可以开始详尽的拆网计划以降低银行风险,让金融系统更加安全。

  ‘担保圈之谜’ 揭示了房地产开发行业所产生的潜在风险。首先房地产公司是银行的重要客户,开发住宅需要银行的资金支持,房屋建成后,银行给购房者提供住房抵押贷款,延伸和拓展了银行业务,同时,帮助房地产公司销售产品。

  房地产的黄金时代已经过去,未来中国的房地产价格在不同地区会出现分化。一二线城市住宅地产需求旺盛,价格坚挺,三四线城市市场低迷,部分区域价格下滑,销售不畅。为了促进销售,部分开发商为购房者做担保,降低购房门槛,低首付重现江湖,为的是去库存。中国经济处在转型阶段,有些行业出现一定的风险,而身在淘汰落后产能的购房者出现断供的可能性在增加,另外,如果同时房地产价格出现下滑,不以居住为目的的炒房者,这些房贷的风险也会进一步增加。房地产公司作为担保人,他们未来的风险需要防范。

  从银行的角度讲,每个房贷是按照每个购房者的资质来审批。每个人的房贷,如果由房地产公司担保,本身的风险并不大,但如果房地产公司为很多人做担保,很可能是房子没有卖出去,制造一种虚假销售,套取银行贷款,那这样的风险就要严加防范。

  这个隐去名字的图形让银行看清房地产开发商和房贷客户的担保关系。每个点代表房地产开发商或者房贷客户。线是房地产开发商和房贷客户之间的担保贷款。不一样的颜色可以区分不同担保网络。你会看到一些房地产开发商为大量的客户提供贷款的担保。

  ‘担保圈之谜’ 让银行展现和监控风险暴露的规模和真实的特性。银行可以对高风险客户采取一定的措施,这些措施包含收紧贷款审批,甚至拒绝贷款。

  担保圈火花、担保圈毒刺、担保圈之谜 3副数据可视化图片作品的作者均为 张玉瑞

  张玉瑞是大中华区大数据事业部华东区的高级顾问。他是Teradata中国区数据科学家团队的重要成员,帮助客户运用大数据分析手段来解决风险管理和市场营销方面的业务问题。

  他毕业于上海交通大学通信与信息系统专业,获工学硕士学位。他在数据分析领域有10多年的工作经验,专注于银行业、保险业和电信业。他热爱数据分析,并为此付出了很多的努力。

  刚毕业,他做为咨询顾问加入了SAS中国,在统计分析和传统数据挖掘方面积累了丰富的经验。后来大数据时代来临,他加入Teradata,致力于运用Aster分析探索平台做大数据分析。他与Teradata中国区的数据科学家其他小组成员一起帮助客户运用新的大数据分析方法来发现业务价值。

  他现在上海工作,喜欢旅游的他,先后去过美国、法国、德国、意大利和瑞士,对异国文化充满好奇。他喜欢运动,爱好游泳、羽毛球、网球。

  欢迎来到“中介大数据”的世界。在这样一个世界里,讽刺地是,大数据将被用于减少相关成本和优化大数据本身。

  如果你能够正常的看到一个大型的综合数据库(IDW)里面,你会发现那是一个由数百万相互关联的数据元素和对象交织成的巨大网络。在一个综合数据库每天加载数据时,成百上千的对象将在一个微小却精心设计的处理链上相互作用,并将越加相互关联紧密。在此过程中,数据被转化、整合,并生成出最终的用户视图和报告。

  那很棒,但是,如果你想要缩减数据库加载时间,优化分析生态系统中的数据存储,或者想转到一个双活性系统时,那该怎么去办呢?

  首创“元数据科学家”保罗.丹瑟提出了这一无名的可视化方法。在Teradata 数据库一个很大的产品持续近20年的发展历史中,这个可视化第一次显示出数据对象网络的完全复杂性。金点(节点)显示数据库对象,灰线(边缘)显示他们相互的依赖性,因此我们大家可以看见那些微小而相互关联的过程链。大块密集群体是核心的、整合的数据结构,外侧疏散的岛屿则是集市。

  可视化让我们也可以看到,所有微小的过程链都是相互依赖,且按顺序排列的。因此,它就是优化IDW最好的工具。其图表可以被用来决定双活性选择,并能在没有依赖风险下,针对数据库对象顺序进行细节设计和部署。该可视化还可以揭露出大量各种各样的非正式遗产“提取转换与加载”模式(ETL),这些模式对优化新的加载和转换程序十分的异常与危险。

  预定的Java应用曾通过获取图形进行可视化,递归式地从每个对象中提取“数据定义语言”(DDL)。其对象均起始于Teradata数据库层次结构中的一个根。每个定义作为候补参考对象被搜索,并匹配一个模式,然后在内存中依据一个完整的数据库对象做验证。一旦确定有效,“顶点”或者“节点”与“边缘”关系将会被加入“有向非循环图”对象中。

  另外,一个对象列表也会输出指定一个有效的顺序部署。顺序是通过“拓补排序法”在图上决定的。有效的顺序部署有很多种。

  Teradata系统配置的加载最小化,利用Java应用在客户端进行文本模型匹配和图形处理。

  保罗是Teradata企业架构咨询师。过去10,他在英国支持Teradata公司客户,最近又转到澳大利亚。他是“元数据科学家”开创小组的一员,现正致力于共同开发新的大数据技术,在复杂巨大的分析ECO中,促进数据存储和数据处理模式优化。

  保罗在英国斯旺西大学取得商业科学学士学位,并曾在英国钢铁公司、通用电气公司和凯捷集团就职。他对通过元数据进行代码生成、正向和逆向工程抱有长久的热情,在Teradata的悉尼专业服务实践中被评价为解决疑难杂症的“百晓生”。在不久的将来,随着新技术的采用和分析生态系统日渐复杂,他将在“中介大数据”方面拥有庞大的潜力。

  这张可视化图表强调了一些关键的社会问题,这样一些问题是英国慈善组织巴特尔的社会工作者们指出的,它们导致了问题儿童的产生。这张图片总结了社会问题和孩子们的需要之间的复杂关系。例如,它指出家庭暴力、贫困、和孩子的健康问题并不是单独出现的,而是一些高度关联的话题,它们共同致使英国的家庭陷入困境。

  这些圆点(节点)代表了工作人员们提到的社会问题,圆点的大小则代表这样一些问题使家庭陷入困境的可能性;这些线代表了相关或并发事件;观察者们可以清楚地看到各个家庭间相似的经验。英国巴特尔组织肯定了这种相似性,并且了解这些经历是如何与上述话题联系在一起的。

  英国巴特尔慈善组织的目标是通过与一线机构的合作帮助英国最脆弱和孩子和家庭,该组织通过补助金为孩子、年轻人和他们的家庭提供直接的经济援助。

  该计划旨在理解脆弱家庭的需要、特别是孩子和年轻人的需要;该慈善机构希望能够通过此计划找到一个方法,能为这些人提供更适合他们的服务。同时,该慈善组织也希望能够通过识别那些会对家庭造成影响的因素,并由此形成对社会需要的更充分的了解。这一目标帮助该组织更好地预测其目标服务人群在当前和未来的需要,从而帮他们相应地进行计划工作、提供服务。

  这张可视化图表展示了利用Teradata Aster 发现平台中的Aster滤镜工具制作的西格玛图。巴特尔的工作人员所做的记录被输入Teradata Aster平台后,案例工作人员会利用文本分析技术分析他们的笔记、发现关键词和重要短语。其中所应用的文本分析功能包括:标记化,nGram,词频逆和文档频率分析。

  接下来,每个工作人员工作文档里的关键词和短语会通过文件协同过滤的方法被做多元化的分析。这些技术识别的问题通常会在同一文档中反复出现,因此呈现出很高的相似性。

  而这幅西格玛图则用于展示各社会问题之间的相似性。图表中的每个节点都代表一种社会问题,节点间的定向链接则用来描述社会问题间的依存关系,并且将相似性的指向数量化。

  Yasmeen是Teradata的最有创意和有见地的数据科学家之一。 Yasmeen在苏格兰长大,她喜欢户外活动,尤其是在苏格兰Munros山和在海上划皮艇。

  她在许多国家工作过,包括英国、爱尔兰、荷兰土耳其、比利时和丹麦,她涵盖了金融,电信,零售和公用事业等行业。 Yasmeen专精与企业合作以确定他们的挑战,并将其转化为分析背景。她专注于企业如何利用新的或尚未开发的数据来源,沿着新技术以提高自身的竞争能力的独特能力。

  Yasmeen已经与许多分析团队工作,提供领导,培训,指导和实践的支持,提供可操作的见解和经营成果。她使用各种分析方法,包括文本分析,预测建模,归属策略和时间序列分析的发展。她坚信可视化的力量使的在企业用户都能够容易进行复杂的沟通。

  在Teradata之前,Yasmeen在生命科学行业工作作为数据科学家,建设复杂、多维数据分析管线。 Yasmeen还持有数据管理,挖掘和可视化,这是进行在威康信托中心的基因调控和表达的博士学位。她在国际上发表了多篇论文并在国际会议和活动中演讲。此外,她还在MSc教有关科学数据和商业智能硕士课程。

  Yasmeen对于数据分析和可视化有敏锐的热情,通过她的研究中一直好奇地问问题并知道更多信息。这些技能已经允许Yasmeen探索多学科的机会,为她提供了新的无尽的挑战!