金融领域常用风险模型

2024-05-04 17:25

1. 金融领域常用风险模型

现金流折现模型测试基于对未来现金流入的预测确定单笔金融资产损失准备。通常对单笔金额资产逐笔进行DCF测试,通过测试时点预计与金融资产相关的未来各期现金流入,并按照一定的折现率折现加总,获得金融资产未来现金流入的现值,账面金额与现值的差额,即为该笔金融资产应该计提的损失。
  
 预测现金流,以客户或单笔金融资产维度,对未来借款人、担保人的还款情况,以及抵质押物或借款的自有资产的处置变现情况进行预测,确定可以用户偿还债务的现金流。
  
 计算贴现现值,运用未来现金流折现计算,以原贷款合同利率为贴现率,以预计收回时间和当前时间的差值为折现期间,得到未来现金流的现值。
  
 最后将贷款现值低于贷款账面原值的部分,作为损失准备金额。
  
 现金流折现的方式有多种,常见的:借款人经营现金流、担保人代偿产生的现金流、抵质押物处置变现、查封财产处置变现。
  
 迁移模型测试首先将金融资产进行合理分组(银行常采用五级分类或信用等级分组),在组合层面按照资产迁徙情况确定金融资产损失准备。迁移测试将金融资产划分为具有相同信用风险特征的若干组合,再分别测算组合中每一级次资产向下迁移的迁移率及损失率,并将测试时点各级次金融资产余额与对应的损失率相乘,从而得到各级次金融资产应计提的损失准备。
  
 计算损失率的公式为:
                                          
 M为使用迁移模型计算损失率的级次数量,N为直接确定损失率的级次数量;M+N为全部级次数量;P为金融资产由i级次下迁到j级次的迁移率;Li为i级次贷款拨备率。
  
 滚动率模型和迁移模型相似,组合层面计算金融资产在不同风险类别之间的滚动率和损失率。滚动率模型通常按照逾期天数对贷款进行类别划分,每一类别的贷款在经过一期后只能向下滚动一期。通常信用卡采用滚动率模型。
  
 IFRS9新准则规定,逾期信用损失,指以发生违约的风险为权重的金融工具信用损失的加权平均值。
  
 信用损失,指企业按照原实际利率折现的,根据合同应收的所有合同现金流量与预期收取的所有现金流量之间的差额,即全部现金短缺的现值。
  
 预期信用损失通常是各现金流差额折现后的概率加权的预测,即根据违约风险的大小进行加权平均后的信用损失,预期信用损失的计算主要包括关键要素有:
  
 PD违约概率
  
 LGD违约损失率
  
 EAD违约风险暴露
  
 Rate折现率
  
 LifeTime存续期
  
 预期信用损失ECL=PD*LGD*EAD  (PD分为累积PD和边际PD,利用边际PD计算通常要对各期的预期损失加总)

金融领域常用风险模型

2. 风控数据分析中的规则与模型

风控数据分析里面有两种方法(我自己划分的不知道对不对),就两类方法,我做了一个大致的总结,如下
  
 1.规则:某个用户的某个行为,一天最多20次,一小时最多10次,类似这种。
   优点:数据分析工作较为简单,短平快,在接口防刷,批量行为
   等类场景性价比高
   缺点:1)这种策略容易被试出来并绕过
   2)往往为了解决精确率的问题而无法兼顾召回率
  
 2.模型(数学/机器学习):
   优点:分类效果往往更好,解决复杂场景更有优势
   缺点:依赖大量的数据标注和较为复杂的数据分析工作,需要一定的数据分析基础,收益慢更新迭代不及前者。
  
 个人认为,如果只会第一种方法,并不能很好的解决所有的尤其是复杂的数据分析问题。因为这种规则的局限性非常大(可以认为是把线性回归模型的系数矩阵置为0,只有常数项的数学模型,也就是模型的极端特例。既然是特例解决的问题肯定不是特别好)。最大的一个问题是,为了解决精准率的问题没法同时保证召回率,如下图的例子:
                                          
 上图的黑色虚线是规则的效果,橙色实线是模型效果,我们可以看到,规则为了保证最上方的红色圆点不被误伤,阈值选择非常靠上,导致大量蓝色圆点无法被召回,也就是为了保证精准率牺牲了召回率。但是模型就好一些,因为它可以通过复杂的矩阵运算在二维甚至多维空间内分出出相对复杂的两部分。
   当然两者也并不是泾渭分明的,比如大名鼎鼎的决策树模型其实就是一系列复杂的阈值规则组成的,随机森林模型又是由决策树模型投票产生的。
   在处理相对复杂的数据分析问题时我更倾向于通过模型来解决,而相对简单快捷的阈值规则也有其一定的用武之地。

3. 综合风险指数模型评估法的说明

风险因素发生的概率P的测定有两种:一种是客观概率,是指根据大量历史的实际数据推算出来的概率;另一种是主观概率,是在没有大量实际资料的情况下,人们根据有限的资料和经验合理估计的。敏感系数S表示风险因素的变化程度引起的预期收益率的变化程度,P×S就代表如果某一风险因素发生对预期收益率的影响程度;E是随机误差项,主要起调整作用,避免数据失真与人为误差。在这样一个动态的风险评估模型中,风险投资公司可以根据自身的风险承受能力、预期的回报率、外界环境变化等因素,综合判断目前及未来一段时间内的风险状况,从而制定统观全局的风险管理策略。

综合风险指数模型评估法的说明

4. 综合风险指数模型评估法的介绍

该方法来源于投资学中的“多因素模型”,对风险投资公司的风险评估具有很大的借鉴作用。多因素模型又称指数模型,是建立在证券回报率对各种因素或指数变动的敏感度这一个假设之上的。作为一个回报率的生成过程,多因素模型试图提取那些系统地影响所有证券价格的主要经济力量,并将其量化,然后代入相应的数学模型实现数据化,据此来评估。

5. 风控模型的简介

风控模型,是风险控制模型的简称。常见于信贷担保公司,用来对业务进行风险控制。风控模型当下国内主要有:工商银行开发的风控模型。

风控模型的简介

6. 风控模型的详细内容

在高度精细化的风险控制模型中,很重要的一个环节就是用先进的统计计量模型来更加准确的描述多种金融资产价格波动的关联性。在现实的金融交易中,我们将面对成百上千的金融资产,所以我们需要一个理论上十分灵活、现实中应用有效的统计模型能够同时对大量的风险因子的相关性进行描述、估测和模拟。在科研中,在不断探索,力图在现有的模型基础上,找到更加灵活的模型准确高效描述各高维的金融风险因子之间的相依性。当然,高度量化的数量风险模型,还要在业界实际应用中能够运算相对迅速,这样才能对各种金融组合进行实时的风险预测和监控。这种高度量化的风控模型,将无时无刻不为交易所、清算所和各大券商经纪公司,实时计算未来各种资产组合的风险度,从而始终将各种金融交易的市场风险控制在合理的范围内,使衍生品市场交易能够稳定运行,最大可能的减少巨大价格波动给市场带来的危机。

7. 数据分析之风控

上世纪90年代初,以美国运通(Amarican  Express)为首的美国信用卡金融公司开始运用数据建模来提升风控能力,解决精准营销等问题。Discover,Capital  One紧随其后
  
 1995年,AMEX的风控模型开始试运行,1997年风控系统正式上线,此后几年,AMEX保持高速增长且把不良贷款降到业内最低
  
 2008年,discover将全球数据分析中心搬到上海。从这个中心流出的风控人才,填充了中国各大互金公司
  
 业务类型:有抵押贷(房贷车贷)、信用贷(比如宜人贷)、消费分期贷(手机家电等)、小额现金贷(500/1000/1500)等
  
 风控涉及业务:1)数据采集:包括征信数据,运营商数据,爬虫,网站埋点,历史借款数据,黑名单,第三方数据等
  
                  2)反欺诈引擎:主要包括反欺诈规则与反欺诈模型。
  
                  3)规则引擎:即常说的策略。主要通过数据分析手段统计不同字段和各个区间的坏账率,然后筛选得到信用较好的人群进行放款
  
                 4)风控模型&评分卡:模型算法之间并无显著不同,而是根据其发生的不同时间点进行划分(贷前/贷中/贷后),即目标产生的方式不一样。通常信贷领域都是以逾期天数来定义目标变量。A卡可以用客户历史逾期天数最大值,B卡可以用多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法
  
                 5)催收:是风控的最终手段。这个环节可以产生很多对模型有帮助的数据,比如催收记录的文字描述,触达率,欺诈标签等等
  
 1)爬虫可以爬取手机APP的信息。我们可以将手机APP分成4类:工具,社交、娱乐、金融。计算每种APP的个数,这样就有了4个特征
  
 2)从运营商数据可以知道客户打了多少电话,发了多少短信,用了多少流量,是否有过欠费等信息
  
 3)征信报告很多时候都是一个简单的征信分数,一般都是得分越高,客户质量越好
  
 4)从基本信息中获取用户画像,比如从身份证中得到年龄、性别、户籍3个特征
  
 黑名单的升级版本就是规则引擎。然而它是靠经验生成的。比如保险公司可能会拒绝连续退货5次或者退货比例达到80%的人购买退货险。规则通常需要投入大量的精力维护,不断更新修改,否则会造成大量的误判。对疑似套现金额、笔数超过一定数目,建议拒绝准入,或做重点关注。XX天内申请借贷数大于某个值,建议拒绝
  
 比如我们可以设定一个准入规则,如职业为公务员、医生、律师等。
  
 还可以设置直接放款原则,比如芝麻分大于750分
  
 目标变量如何确定:以A卡为例,主要通过roll-rate与vintage。举个例子,我们可以定义在8个月逾期超过60天的客户为坏客户,8个月未逾期的为好客户。而八个月逾期在0-60天内为不确定客户,从样本中排除。
  
 1)前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解
  
 2)模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型细分。是否需要做拒绝推断,怎么定义观察期、表现期、好坏用户。确定数据来源
  
 3)数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行数据清洗和稳定性验证。数据清洗包括异常、缺失、重复。稳定性验证主要考察变量在时间序列上的稳定性,指标有PSI,IV,平均值/方差等
  
 4)特征工程:主要是特征的预处理和筛选。评分卡主要是通过IV进行筛选。另外会基于对业务的理解进行特征构造,包括特征交叉(两个或以上特征相乘/相除/笛卡尔积),特征转换等
  
 5)模型建立和评估:评分卡可以用逻辑回归,只需要做二分类预测可以选择xgb.模型建好后需要进行模型评估,计算auc,ks。并对模型做交叉验证来评估泛化能力
  
 6)模型上线部署:在风控后台配置模型规则,对于一些复杂的模型比如xgb,一般是将模型文件转换为pmml格式,并封装。在后台上传文件与配置参数
  
 7)模型监控:前期主要是监控模型整体与变量的稳定性。衡量标准主要是PSI(population stability  index)。其实psi 就是按分数分区间后,各个分数区间实际与期望占比的差异。如果小于10%,无需更新模型。小于25%,就需要重点关注模型了。如果大于25%就需要更新模型。计算模型psi一般用等频,可以分10箱
  
 1.A卡B卡C卡含义与区别 
  
 A卡(application score card):即申请评分卡,在客户申请处理期,预测客户开户后一定时期内违约拖欠的风险概率,有效的排除了信用不良客户和非目标客户的申请。同时对客户进行风险定价----确定额度与利率。用到的数据主要是用户以往的信用历史,多头借贷,消费记录等信息。
  
 B卡(behavior score   card):行为评分卡,在账户管理期,根据账户历史上所表现出的各种行为特征来预测该账户未来的信贷表现。一是防控贷中风险,二是对用户的额度做一个调整。用到的数据主要是用户在本平台的登录、浏览、消费行为等数据。还有借还款,逾期等借贷表现数据。
  
 C卡(collection  score  card):催收评分卡,对逾期账户预测催收策略反应的概率,从而采取相应的催收措施
  
 三张卡的区别:
  
 数据要求不同:A卡一般可做贷款0-1年的信用分析。B卡则是在申请人有了一定行为后,有了较大数据进行的分析。C卡则对数据要求更大,需加入催收后客户反应等属性数据
  
 特征不同:A卡用到的大部分是申请者的背景信息,比如客户填写的基本信息,以及第三方信息。而且这个模型一般也会比较谨慎。B卡利用了很多基于交易的特征。
  
 2.风控领域为何选择逻辑回归模型,有哪些局限性
  
 1)首先是因为逻辑回归客群变化的敏感度不如其他高复杂度模型,因此稳健性好
  
 2)模型直观,系数含义好阐述,易理解
  
 缺点是容易欠拟合,准确度不是很高。另外对数据要求比较高,缺失、异常、特征共线性都比较敏感
  
 3.为何用IV而不是WOE筛选特征
  
 因为IV考虑了分组中样本比例的影响。即使这个分组的WOE很高,但是分组的样本占比很小的话,最终这个特征的预测能力可能还是很小
  
 4.ROC与KS指标(ks在0.2-0.75,auc在0.5-0.9较好)
  
 ROC曲线把TP,FP当作横纵坐标,而KS曲线把TP,FP都当成是纵坐标,横坐标是阀值。KS能找出模型中差异最大的一个分组,大于0.2即可认为有比较好的预测准确性。而ROC能反应整体区分效果
  
 5.分箱方法与badrate单调
  
 目前在行业里,大家用贪心算法进行分箱的比较多,比如best_ks,卡方分箱等。badrate单调性只在连续型数值变量与有序型离散变量(如学历/尺码)分箱的过程中才会考虑。至于为何要考虑badrate单调性,主要是出于业务理解,比如历史逾期越多那么badrate越大。
  
 6.为何不同的风控模型,一般都不会选用相同的特征
  
 被拒绝的人,是因为某些特征表现差。如果用相同的特征做重复筛选,那么随着时间推移,以后建模的样本里面就没有这些人了。这样特征上的样本分布就变了。
  
 7.风控中用的无监督算法有哪些
  
 聚类算法,基于图的离群检测,LOF(局部异常因子),孤立森林等
  
 8.卡方分箱
  
 卡方分箱是基于合并的数据离散化方法.基本思想是相邻的区间具有类似的类分布,则将之合并.而卡方值是衡量两个区间相似性的标准,卡方值越低越相似.当然也不可能无限合并下去,我们给它设定一个阀值.根据自由度与置信度得到.比如类别数是N,那么自由度就是N-1.而置信度表示发生的概率。一般可以取90%。
  
 9.best-ks分箱
  
 与卡方分箱相反,best-ks分箱是一个逐步拆分的过程。将特征值从小到大排序,KS最大的那个值即为切点,然后把数据分为两部分。重复这个过程,直到箱体数达到我们的预设的阀值即可。
  
 10.拒绝推断(reject  inference)
  
 申请评分卡是利用通过审核的授信客户的历史数据来建立模型,但是此模型会忽略原先被拒绝的这部分客群对评分卡模型的影响。需要通过拒绝推论来对模型进行修正,以便使模型更加的精确与稳定。另外,公司的规则变化也可能让过去被拒绝的客户现在能通过。适用于中低通过率的场景。
  
 常用方法:硬性截断法---先用初始模型对拒绝用户进行打分,设置一个阀值。高于此分数标记为好用户,反之为坏用户。然后把标记后的拒绝用户加入样本中重新训练模型。分配法---此方法适用于评分卡。将样本根据评分高低进行分组,并计算各组的违约率。然后对拒绝用户进行打分并按照之前的方法分组,以各组的违约率为抽样比例,随机抽取该分组下的违约用户,指定为坏用户,剩下的标记为好用户。然后将标记好的拒绝用户加入样本重新训练
  
 11.建模过程中如何保证模型的稳定性
  
 1)在数据预处理阶段可以验证变量在时间序列上的稳定性,方法有:计算月IV的差异,观察变量覆盖率的变化,两个时间点的PSI差异等。例如我们选取1-10月的数据集,借鉴K折验证的思想,得到10组验证结果。观察随着月份的推移,模型的变化是否有比较大的趋势变化
  
 2)在变量筛选阶段剔除与业务理解相悖的变量。如果是评分卡,可以剔除区分度太强的变量,模型受这个变量影响太大,稳定性会下降
  
 3)做交叉验证,一种是时间序列上的交叉验证,一种是K折交叉验证
  
 4)选择稳定性好的模型。比如xgb  随机森林等
  
 12.怎么处理高维稀疏特征与弱特征
  
 对于高维稀疏特征,逻辑回归比gbdt效果好。后者的惩罚项主要是树深度与叶子数目,这对稀疏数据来说惩罚并不严厉,容易过拟合。使用逻辑回归评分卡,则可以把特征离散化为0与非0,然后再进行woe编码。
  
 如果用评分卡建模,弱特征一般会被舍弃掉。评分卡的入模特征数不宜过多,一般在15个以下。而xgb对数据的要求不高,而且精度好。一些弱特征进行交叉组合也许有意想不到的效果。
  
 13.模型上线后发现稳定性不佳,或者线上的区分效果不好,怎么调整
  
 模型稳定性不佳首先检查当初建模时有没有考虑特征的稳定性。在模型前期发现稳定性不佳的变量,考虑弃用或用其他变量代替。另外分析线上线下用户和建模时用户的分布差异,考虑在建模时增加拒绝推断的步骤,让建模样本的分布更加接近实际的整体申请用户
  
 线上的效果不好可以从变量角度分析。剔除掉效果不好的变量,挖掘新的变量入模。如果一个模型已上线较长的时间,用户的属性也慢慢发生偏移,那么重新取数做下模型
  
 14.怎么做风控模型冷启动
  
 产品刚上线时,没有积累的用户数据,或者用户没有表现出好坏,此时可以考虑:           1)不做模型,只做规则。凭借业务经验,做一些硬性规则,比如设定用户的准入门槛,考量用户的信用历史与多头风险,可以接入第三方的反欺诈服务和数据产品的规则。也可以结合人工审核来对用户的申请资料做风险评估                                                                               2)借助相近模型的数据来建模。
  
 15.样本不平衡问题
  
 除了调整类权重以外,主要采用采样方法来解决。常见的有朴素随机过采样,SMOTE,ADASYN(自适应综合过采样)
  
 16.运营商数据处理
  
 根据通话日期,可以将通话记录分为近7天,近半月,近一月,近三月,近6月等时间窗口。也可以按具体日期划分为工作日、节假日等。根据通话时间,可以将一天划为凌晨、上午、下午、晚上。至于电话号码,一种思路是按照归属地划分为 省市,另一种思路是对号码打标签,根据电话邦、百度手机卫士、搜狗号码通的标记,区分出快递外卖、骚扰电话、金融机构、中介等。甚至根据业务积累区分号码是否是黑名单用户、申请用户或申请被拒用户。用户与不同号码标签的通话情况,可以侧面反应用户的通话习惯和生活特点
  
 17.逐步回归
  
 当自变量之间的关系比较复杂,对于变量的取舍不易把握时,我们可以使用逐步回归的方法进行变量筛选。逐步回归的基本思想是将变量逐个引入模型,每引入一个变量进行F检验,并对已经选入的变量进行t检验,当原来引入的变量在后面的变量引入之后不再显著时,则将原来的变量删除。以确保每次引入引入新的变量之前回归方程中只包含显著性变量
  
 18.在逻辑回归中,为什么常常要做特征组合(特征交叉)
  
 逻辑回归属于广义线性模型,特征组合可以引入非线性特征,提升模型的表达能力
  
 部分引用文章: https://www.jianshu.com/u/0ce0500106d              https://new.qq.com/omn/20180115/20180115A0RUEZ.html                    https://www.ixueshu.com/document/6a3261ae85e489b8a3203036c687fe44318947a18e7f9386.html                                                                                                                                      https://www.e-learn.cn/content/qita/775233                                                                                https://cloud.tencent.com/developer/article/144 8182                                                                 https://www.shangyexinzhi.com/article/details/id-171268/                                                          https://blog.csdn.net/sunyaowu315/article/details/87162765                                                      https://www.yuque.com/rookie-ywx0p/sm8coc/ll43oc                                                                  https://zhuanlan.zhihu.com/p/56474197                                                                                      https://www.infoq.cn/article/jXwvkaB9t7mPWHxj9ymu                                                              https://cloud.tencent.com/developer/article/1489429                                                                  https://cloud.tencent.com/developer/article/1059236                                                                  https://github.com/taenggu0309/Scorecard--Function

数据分析之风控

8. 综合风险指数模型评估法的例子

举一个简单的数学例子:X=10+(-1)+(-2)+(-4)+2=5正数代表成功收益,负数代表失败损失,风险投资公司追求的正负相抵后的终值X,因此,风险投资公司风险评估的出发点也应该是建立在多项目、多因素基础之上的综合评估,为此,可建立综合风险评估指数模型:V(t)=∑Vit=P1it×S1it+P2it×S2it+…+ Pnit×Snit+Eit(i=0,1,…,n 假设各风险因素发生的概率P和敏感系数S是可知的)V(t)——t时间内的综合风险指数;Pnit——t时间内第i个项目的第n个风险因素发生的概率;Snit——t时间内第i个项目的第n个风险因素的变化对预期收益率的敏感系数;E——随机误差项;i——风险投资公司投资的项目数;t——代表时间。应该说明的是,本模型加入时间因素t,正是考虑风险投资的投资周期长,不确定因素较多,而且各因素在不同时点有不同表现,从而便于动态管理。t最好以月或半月来算,因为风险投资公司的投资不同于每天都有交易记录的证券投资,也不同于需要十几年的时间(其一般周期为3—7年)的传统大型建设项目投资,而且以变现增值为最终目的。根据项目的技术与市场特性,在由不成熟到成熟的过程中,t的间隔太短,会加大风险管理的成本,间隔太长,又会失去风险管理的意义,所以应该注重动态的过程管理,以有效地控制风险。

最新文章
热门文章
推荐阅读