本篇文章3975字,读完约10分钟

随着金融技术、技术和金融等概念的发展,以及互联网金融和非金融服务群体的刚性需求,大数据风险控制技术越来越受到重视和应用。然而,如何利用大数据和机器学习等尖端技术来控制金融风险呢?如何通过海量数据玩欺诈风险游戏?在这个勤奋的公开课上,我们邀请了通盾科技的第一风险官董玉环博士回答我们的问题。

如何利用大数据做金融风控?| 硬创公开课

董玉环是南开大学概率统计博士。博士毕业后,他加入了中国科学院。2007年,他加入ibm/ ilog,致力于在各种商业问题中应用决策模型。从2010年到2013年,他支持fico和sas的金融反欺诈。2015年5月15日,董玉环加入通盾科技,负责反欺诈和数据分析。目前,他仍是上海财经大学统计与管理学院兼职硕士和教育指导委员会成员。

如何利用大数据做金融风控?| 硬创公开课

以下是本公开课的要点:

通盾倡导跨行业联合防御和控制。一个维度是打破企业之间的数据孤岛,即企业与平台之间的数据流量壁垒。另一方面,行业之间存在一定的重叠风险。例如,在信用行业、电子商务行业和o2o行业之间,需要某种机制来打破数据壁垒。

如何利用大数据做金融风控?| 硬创公开课

风险控制系统:事件发生之前、期间和之后对整个风险控制系统的监管包括几个环节:

如何利用大数据做金融风控?| 硬创公开课

事前:在风险发生之前,应该通过监控风险舆论来发现风险。例如,一些恶意欺诈团体会在发起欺诈攻击之前采取措施提前防御,如收紧规则和提高模型的门槛。

如何利用大数据做金融风控?| 硬创公开课

流程中:在信贷申请和网上注册激活过程中,根据自动风险评估,包括申请欺诈和信用风险,选择是否拒绝发放贷款。

如何利用大数据做金融风控?| 硬创公开课

事后:贷款发放后的风险监控。如果借款人有其他平台的新申请,或长途位置转移,或手机号码停止,它可以作为贷后风险预警。

如何利用大数据做金融风控?| 硬创公开课

如何提前发现网络中的骗子?最基本的技术:设备指纹

在介绍整个风险控制系统时,我认为网络行为或网上借贷最基本或最重要的技术是设备指纹。为什么?从上图可以看出,对网络设备的模拟或攻击,如各种自动机器人,实际上会对网络环境造成很大的干扰,从而导致对信用中信用风险的误判。这是第一个。

如何利用大数据做金融风控?| 硬创公开课

网络设备的关键是保证设备的唯一性,其次是抵御攻击和篡改。互联网上有各种各样的专家,他们会修改模拟器、修改设备的信息以及干扰设备的定位等。,并通过各种方式干扰设备的唯一性确定。

如何利用大数据做金融风控?| 硬创公开课

因此,针对这种情况的关键技术点是:防攻击、防干扰和防篡改。另一方面,大多数模拟器可以被识别。

如何利用大数据做金融风控?| 硬创公开课

设备定位:基站和wifi三角测量,然后设备定位。

值得注意的是,非gps定位可以关闭模拟器或智能设备系统中的gps定位功能。然而,如果基站的三角测量计算或无线网络的三角测量计算相结合,定位精度将更高,不会受到全球定位系统关闭的影响。

如何利用大数据做金融风控?| 硬创公开课

这可以应用于信贷的贷后管理,用于监控借款人的大规模头寸抵销。

地址的模糊匹配

位置的另一个重要方面是地址的模糊匹配。在信用卡或线下贷款中,地址匹配是一个重要的风险审查因素,但在地址审批过程中存在一个问题:由于输入格式不同或输入错误,平台之间很难匹配,因此需要模糊算法每两个匹配一次,比较几个地址,或者在股票数据库中搜索历史风险或关联列表进行比较。所涉及的技术包括模糊匹配算法、海量地址管理和实时比较。

如何利用大数据做金融风控?| 硬创公开课

复杂网络有时被称为知识地图,但它们之间存在一些差异:复杂网络更倾向于从图论的角度分析网络构建后的实体结构算法,而知识地图更注重关联关系的表示。

如何利用大数据做金融风控?| 硬创公开课

网络分析最重要的一点是,它有足够的数据来监控和扫描大多数网络行为,同时,它形成了相应的关系,这种关系不仅是实体、事件和事件之间的关系,而且反映了“小世界(家庭在7步以内)”和“权力分配”的特征。

如何利用大数据做金融风控?| 硬创公开课

例如:确定涉嫌团伙欺诈。在被拒绝的用户中,破损的身份证与设备关联,发现设备有更多的应用行为,因此关联用户可能需要严格的人工审核,甚至直接拒绝。

如何利用大数据做金融风控?| 硬创公开课

通过深入挖掘借款事件,我们可以将大量借款事件联系起来。这就需要一些聚类算法,将所有相关的联系划分到一个地方,然后进行关联聚类的聚类分析,并根据图论属性如聚类密度和一些路径的关键度如介数和图直径来估计风险。

如何利用大数据做金融风控?| 硬创公开课

数据采样结果案例:说谎者是隐形的

通过对大量内部数据进行采样和分析,我们可以看到一些有意义的现象:出于恶意目的的潜在威胁将会表现得与普通用户不同。有几个例子可以分享:

如何利用大数据做金融风控?| 硬创公开课

一是设备数量和相关账户与欺诈风险之间的关系。当然,这不仅包括信贷行业中的欺诈,还包括欺诈风险,如窃取帐户、欺诈和帐户级别的交易。可以看出,当与设备关联的账户数量超过3-5个时,风险系数明显增加。此外,当关联数量大于5时,风险率明显较高。

如何利用大数据做金融风控?| 硬创公开课

二是多头责任与不良贷款率的比较:7天内贷款平台数量大于5时,风险明显较高。尽管这些数据没有被进一步清理,新的变量也是交叉衍生的,但我们也可以看到风险的关联程度。

如何利用大数据做金融风控?| 硬创公开课

另一个是对特定客户群的建模抽样分析。例如,如果多个贷款申请人在180天内夜间申请贷款,即他们有借款行为,如果超过四分之一的贷款申请人是在夜间申请,他们的风险就会明显增加。

如何利用大数据做金融风控?| 硬创公开课

数据是客观的,依赖于数据形成后对业务的分析和解释。

什么是优秀的决策引擎?

一个优秀的决策引擎包括以下几点:

灵活匹配-不仅规则可以匹配,而且规则的字段和权重也可以匹配。不用说,生意是友好的。

如何利用大数据做金融风控?| 硬创公开课

快速部署-配置的规则模型可以实时生效。当然,如果涉及到一般规则的修改,可以进行灰度级部署。

如何利用大数据做金融风控?| 硬创公开课

决策流程——可以将不同的规则和模型串在一起,形成一个决策流程,实现贷前、贷中、贷后的全过程监控。它应该能够按需调用数据,例如将低成本数据放在前面,逐渐将高成本数据放在后面。因为一些决策已经可以在低成本数据下形成,所以没有必要调用高成本数据。

如何利用大数据做金融风控?| 硬创公开课

Ab测试和冠军挑战-在修改和调整规则时尤为重要。两组规则运行所有数据,最后比较规则的效果。另一个是分流——10%运行新规则,90%运行旧规则,根据测试结果的有效性随着时间的推移而变化。

如何利用大数据做金融风控?| 硬创公开课

支持模型部署——简单的模型如线性回归和决策树很容易转化为部署规则,但是支持向量机和深度学习对模型支持的功能有更高的要求。

如何利用大数据做金融风控?| 硬创公开课

经过以上手段,我们基本上可以有很强的实力消除信用风险,所以下面是信用评估阶段。

如何利用大数据做金融风控?| 硬创公开课

记分卡模型记分卡分为应用,行为和收集记分卡。申请记分卡进行贷前审查;行为记分卡用作贷后监控,如调整金额,以提前预测逾期风险。它可以通过历史数据和个人属性预测违约概率。信用评分主要用于信用评分过程中的细分。高分段可以通过,低分段可以直接拒绝。

如何利用大数据做金融风控?| 硬创公开课

因为不同的行业、客户和企业不同,记分卡的标准也不同。对于有历史业绩的客户,我们可以去掉双方的xy变量,建立一个模型并进行定制评分。

如何利用大数据做金融风控?| 硬创公开课

目前,建立记分卡模型的传统方法是银行系统中使用的一种建模方法:数据清洗、变量推导、变量选择,然后是逻辑返回。

如何利用大数据做金融风控?| 硬创公开课

那么机器学习和传统方法的主要区别就是变量选择过程的不同。如果是基于传统的变量选择方法,那么通过机器学习训练的模型实际上就是一个传统的模型。虽然它的模型是一个非线性模型,但它并没有反映机器学习的优势。

如何利用大数据做金融风控?| 硬创公开课

核心技术和挑战在当前以大数据和大数据决策为核心的风力控制技术体系中,整体数据量已经达到一定水平,存在的挑战将是数据稀疏性。随着风险控制业务覆盖的行业越来越多,平台间数据稀疏的问题也越来越明显。(雷锋。搜索“雷锋”。注:“稀疏数据”意味着矩阵中有许多零元素,这意味着有许多无用的元素,不利于增加数据信息量,并且对数据从存储、处理到建模都有挑战。(

如何利用大数据做金融风控?| 硬创公开课

此外,事实上,对于大数据,即使有数据和大数据决策,如果没有稳定的登陆平台,那将是一座空城堡。要做到完整,大数据应用还需要一个满足以下要求的平台:首先,容量可以容纳大量数据;一是响应:任何决策都可以实时响应;一种是并发的,即使当大量数据并发时,它也能继续调用。此外,安全性是不言而喻的。

如何利用大数据做金融风控?| 硬创公开课

问答:

问:深度学习如何用于风险控制?

董玉环:深度学习本身就是一个神经网络训练和部署的框架,结合了无监督学习和监督学习。只要有目标和数据,就可以导出特征,并且可以进行目标训练,这可以用作一般的机器学习。当然,深度学习有一些优点,比如无监督的特征选择。此外,虽然训练过程中的计算量相对较大,但可以接受。

如何利用大数据做金融风控?| 硬创公开课

简而言之,你可以认为深度学习是一种模式。因为深度学习有一些特殊的优点,如自动生成特征选择,即无监督模式。此外,它可以实现稀疏数据结构的特征生成,并且可以通过正则化来控制特征生成,这在数据量很大的情况下尤其有用,尤其是多维稀疏数据。

如何利用大数据做金融风控?| 硬创公开课

问:有一个问题。有没有可能我们判断用户肖像的维度越多,我们得到的结论就越矛盾?如果这种情况存在,如何协调和看待重量?

如何利用大数据做金融风控?| 硬创公开课

董玉环:如果这些维度,如数千个维度,用传统方法中的模型变量来过滤,有些变量越大越正,有些变量越小越正,即祸不单行。在这种情况下,可以通过建模来训练权重以进行协调。

如何利用大数据做金融风控?| 硬创公开课

问:根据互联网金融平台最新规定的实施情况,从数据平台的角度来看,未来大数据会取代人工审计吗?你认为相互财务控制的未来发展趋势如何?

如何利用大数据做金融风控?| 硬创公开课

董玉环:这真的取决于不同的信贷产品。例如,肖伟信贷产品的立足点可能是商业评估,甚至包括现场实际调查——水、电、煤和税务调查。对于一些小而分散的信贷产品,如信用卡赔偿,如果金额太大,金额太小,成本就会太高。当然,也有一些中间层次,如从几千元到几万元的借款,它们目前仍然相互并存。

如何利用大数据做金融风控?| 硬创公开课

至于“未来互联网审计将取代人工审计”的命题,我认为更有赖于解决在线个人身份认证问题。也就是说,目前还没有真正的方法可以完全避免网上造假的风险,包括生活认证和手持拍照等措施,尤其是对于大额资金而言,上网时仍然存在一定的风险,因此需要从信贷流程的各个层面进行控制。

如何利用大数据做金融风控?| 硬创公开课

对于未来的风险控制,我认为是要从两个方向进行风险管理:一是个性化定制,让每个人都有不同的风险识别和相应的信用产品。另一种是优化授信,它最大化平台的某个目标,如收入和利润最大化,以及低风险人群的市场份额容忍度最大化,这当然取决于平台的风险偏好,但这种风险偏好的最大基础是准确识别风险,从而使相应的风险优化有效。

来源:罗盘报中文网

标题:如何利用大数据做金融风控?| 硬创公开课

地址:http://www.lzn4.com/lpbxw/12700.html