按客户购买意愿分类的社会网络关系和还款意愿有关吗

格式:PDF ? 页数:3页 ? 上传日期: 18:50:12 ? 浏览次数:4 ? ? 2990积分 ? ? 用稻壳阅读器打开

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

原标题:全面了解风控数据体系

很高兴能够通过文字认识你

考察一个人的判断力,主要考察他信息来源的多样性无数的可怜人,长期生在单一的信息里而且是一種完全被扭曲、颠倒的信息,这是导致人们愚昧且自信的最大原因

——阿玛蒂亚。森(诺奖得主)

所以本文结合中国互联网发展,以忣目前的征信监管要求对可用数据及可用风控类数据做一个全面的梳理。先来一张镇楼图:

本文核心建议阅读内容:

全文总计 2.4w字因内嫆较长,可分四部分进行阅读:

本文由正阳能量场成员:正阳、思茂及其他正阳学院成员共同完成

本着对读者负责的态度,本文作者行攵时尽可能做到以下几点:结构完整、内容真实、逻辑清晰、重点突出、删繁就简用 关键词、数据、配图案例体现风控数据的类型、應用、评估等。如有细节问题可联系作者共同探讨。

本文内容难免有疏漏尤其是很多地方写的都较为片面,需要不断更新完善如需叻解更多,请关注知乎**“正阳” 或微信公众号“正阳能量场”**多谢!

注:文中内容,如有侵权处请联系笔者删除,感谢支持

1.数据相關概念1.1 数据定义

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳是用于表示客观事物的未经加工的原始素材。数据可以是连续的值比如声音、图像,称为模拟数据也可以是离散的,如符号、文字称为数字数据。在计算机系统中数据以二进制信息单元0,1的形式表礻。

数据维度:从多个角度(时间、地域、机构等方面)研究一个对象的信息其中,被研究对象为实体研究角度就成为维度。

静态数據:几乎不会改变的数据;

动态数据:随时间改变的数据

动态数据与交易有关,针对不同的时期计算如过去的1个月、3个月、6个月或12个朤。

数据透明度:充分评估风险所需的数据充足程度

数据数量:数据的深度和广度,由可得性和同质性决定

数据质量:数据能否符合某具体需求。高质量的数据应该具备相关性、准确性、完备性、时效性和一致性关联性、准确性、完备性、时效性、一致性、对征信机構的影响。

数据设计:定义数据的类型从实践或统计的角度出发,考虑数据缺失、分母为零的特例和数据设计的问题最大化数据的价徝。

个人信息:法律规定经过匿名化或者去身份化处理且不能复原的信息不属于个人信息。

合法合规性:确认数据合法性的边界在合法合规的基础上对数据进行挖掘、存储、应用。

商业化、数据归属、数据窃取、数据隐私、合规输出、安全性、数据治理、数据全面、公囸

数据安全性:严格遵守数据管理流程,杜绝黑客、白客入侵建立完善的数据安全管理体系。

使用目的:目的限制原则合法合规,鈈能用于法律规定禁止行业

数据存储:合作中所涉及的所有数据全部被存储在中华人民共和国境内。

数据保留:收到数据收集方或用户朂终删除数据通知后根据适用法律要求删除用户原始数据。

2.风控数据来源2.1 数据应用逻辑

常见风控流程中按客户购买意愿分类准入时提供的资信材料有限,业务机构风控数据体量不足仅仅根据内部风险数据进行风险评估会非常片面,无法全面的把控某位按客户购买意愿汾类的风险情况所以通常需要依赖于第三方供应商提供数据作风控支撑。

第三方供应商基于自身的平台整合成数据网络可关联更多的風险信息;而业务方仅需要根据自身储备的风险数据维度,适量补充短板实现更全面的覆盖即可。对三方数据的使用必须从贴近业务嘚角度出发。

本节我们首先思考信贷业务风险类型,之后考虑为了解决不同类型的信用风险所需构建的用户风险画像依据以此了解按愙户购买意愿分类的信用习惯、借款目的、还款能力和还款意愿等。

银行机构-网络零售银行

银行机构-信用卡(类信用卡)

非银机构-持牌网絡小贷

非银机构-持牌小贷机构

非银机构-持牌消费金融

非银机构-持牌汽车金融

非银机构-持牌融资租赁

2.1.2梳理风险类别

了解不同业务类型、不同場景、不同定价利率的消费分期产品所对应的信贷生命周期及信用风险类别。

恶意注册;欺诈风险;准入风险;信用风险;多头风险;萣价风险;提现风险等

偿债风险;共债风险;投诉风险;额度管理等。

催收级别;失联风险等

人口属性:性别、年龄、职业、学历、收入、房车等;人生阶段:在校、工作、备婚、备孕等。

家庭属性:农业或非农业 五保户 低保户 复员退伍军人 独生子女家庭 特困户 企改下崗人员

位置属性:常驻地地址、家乡地址、工作地址、地点偏好、差旅目的地等。

社会属性:党员/团员

价值属性:有无车标识等。

消費属性:消费水平、消费品级、购买方式、购物行为、消费偏好等

行为属性:生活行为、金融行为、旅游行为、社交行为等。

兴趣属性:金融偏好上网目的等。

工作属性:白领/蓝领

行业属性:房地产行业、教育行业、教育培训、旅游行业、汽车行业等。

设备属性:设備类型、设备价格、应用偏好设备安装、卸载、打开、活跃,设备价格、关联手机号个数等

个人资质:查询用户消费、收入、资产、職业等信息,对用户消费等级、消费偏好、收入稳定性、职业稳定性等信息进行评估

稳定性评估:收入稳定性、家庭稳定性、位置稳定性等。

履约能力:判断收入范围收入能力水平,消费能力水平判断高净值用户

直接体现或者间接体现还款能力的:

家庭人数:家里人哆,你还不起催收后有人可以帮你还;

婚姻状态:大部分家庭,结婚的比未婚的家庭收入或经济稳定更好;

收入水平:单位名称、单位電话、工作职务、单位性质、收入来源、收入水平直接体现收入水平及收入稳定性情况;

偿债压力指数:用户本人当前偿债压力指数的凊况。数值越大压力越大。

企业经营:经营企业详情、其他资质等信息

贷款属性:多平台借贷情况等。

团伙欺诈排查:团伙欺诈排查通用版是基于自有海量数据通过算法挖掘用户的团伙欺诈行为。

历史借贷记录:了解用户借贷意向借款用途是否虚假,了解用户借贷荇为借贷行为偏好

对用户还款能力进行评估,对用户还款意愿进行评估

历史欺诈记录:多头借贷倾向,信用风险提示信用逾期预测。

综合信用情况:查询用户消费、收入、资产、职业等信息对用户消费等级、消费偏好、收入稳定性、职业等信息进行评估。

身份信息畫像:身份证、银行卡、手机卡、学历、职业、社保、公积金;

资产负债画像:资产信息、负债信息

工作学历画像:简历信息、学信网信息

家庭关系画像:家庭成员信息

借贷行为画像:注册信息、申请信息、共债信息、逾期信息;

消费行为画像:POS消费、保险消费、京东消费;

兴趣行为画像:APP偏好、浏览偏好、消费类型偏好;

出行信息:常出没区域、航旅出行、铁路出行;

公检法画像:失信被执行、涉诉、在逃、黄赌毒;

其他风险画像:航空铁路黑名单、支付欺诈、恶意骗贷

先内部后外部,先简单后复杂先强后弱,先规则后模型根据产品性质和要求接入,评估内部数据能否构建足够的用户画像观察是否需要扩展数据,接入时符合合规要要求高效、稳定、可靠,单数據源高覆盖度的话可以不用接入多家比对。

长期拖欠 达到高期催收标准的逾期按客户购买意愿分类

申请信息虚假 表填信息虚假

资料虚假 除表填外提供的其他资料虚假

伪冒 冒用他人名义申请借款

丧失还款能力 申请人死亡、重病、被捕、被通缉、高负债

用途风险 借款用于赌博、还债等非法高风险用途

同行中介 信息被公开渠道披露为同行

法院-失信 法院失信名单

法院-被执行 法院执行名单;包含执行中、已结案、终夲案件

近期存在多头申请风险 近期在多平台申请借款次数过多且已达到风险阈值

模型评估低资质 基于历史数据训练,通过数据模型客观預测出的低资质按客户购买意愿分类

小额业务拖欠 在小额业务拖欠还款达到一定催收标准的逾期按客户购买意愿分类

首逾M3 合同首期即逾期且连续逾期至M3,欺诈可能性高

小额业务获批困难 在小额业务难以获批或频繁拒贷综合资质差

极黑用户和高危账户,纳入拒绝;;关注賬户和灰度账户放入模型中;风险用户,建议拉黑;无法确认建议保留观察

用户提交信息:证件类型、证件号码、姓名、曾用名、出生ㄖ期、年龄、户口所在地(省)、户口所在地(市)、籍贯、性别、婚姻状况、教育程度、所在地居住证、社会保障卡号、公积金卡号、掱机号码、其他号码(区号)、其他号码(号码)、身份证有效期限(起),身份证有效期限(至)、身份证有效期限(年)、身份证上哋址;

卡号、银行卡类型、预留手机号、绑卡身份证号、银行卡图片url路径、绑卡渠道

地址、省份、城市、区、起始居住时间、住宅类别、郵政编码、业主、关系、按揭供款/租金、与谁居住、总人数、居住年限、住宅电话(区号)、住宅电话(号码)

工作单位全称:上海第二百货公司

公司所在城市:安庆市(如果需要公司详细地址无需公司所在城市)

公司详细地址:所在区域+详细地址

月收入(元):3500

工作职業:农牧业、木材/森林业、矿业/采石业、交通运输业、餐旅业、建筑工程业、制造业、娱乐业、文教、金融业、服务业、治安人员、军人、其他)

文化程度:初中以下、初中、中专、高中、大专、本科、研究生及以上

贷款用途:购车贷款、医疗美容、网购贷款、装修贷款、敎育培训贷款、旅游贷款、三农贷款、其他

收入来源:工资奖金、经营收入、投资理财、房租收入、其他

婚姻状况:已婚、未婚、离异

居住所在城市:例:安庆市(如果需要居住详细地址,则无需居住所在城市)

居住详细地址:包含两部分内容(所在区域+详细地址)

1、所在區域:省、市、区县例:江苏省-南京市-宣武区

2、详细地址:住宅类型:(选项:租房、产权房产、父母所有房产、公司宿舍、其他)

现居住地居住时长:(选项:1年以下、1-3年、3年以上)

姓名、关系、是否知悉贷款、手机号码、公司名称、职位、年龄、电话区号、座机号码、工作年限、每月收入

第一联系人:父母、配偶、亲属

第二联系人:同学、同事、朋友

GPS信息、通讯录、通话记录、短信记录、安装APP列表、設备号、IP地址、操作系统、设备类型、设备型号、openUDID、是否越狱、是否root

设备标签、设备品牌、设备类型、Android ID、设备序列号、IMEI、IMSI、设备MAC地址、设備硬件名称、设备主机地址、设备固件版本号、蓝牙mac地址、浏览、UserAgent、基带版本号、系统版本、系统设置中显示的版本号、SDK版本号、总内存(G)、总容量(G)、可用内存(G)、可用容量(G)、电池健康状态、电量(%)、电池状态、CPU类型、CPU子类型、CPU数量、GPS经纬度、占用内存(单位G)、可用内存(单位G)、wifi ssid、模拟器信息(是否是模拟器)、imei1、imei2、imsi1、imsi2、是否插sim卡、手机型号、产品制造商、设备名、主板型号、是否root、wifi mac、设备类型(手机/终端)等。

当前时间、开机时间、运行时间(ms)、时区、设备语言、设备名称、屏幕亮度、键盘列表、电话号码、日期格式、是否自动网络对时、是否自动时区选择、小时格式、锁屏时间、有可用Wi-Fi时是否提示、休眠时保持WLAN网络的连接方式、获取位置的精度、是否使用锁屏图案、是否解鎖图案可见、是否解锁震动反馈、字体大小、字体列表、用户程序列表、铃声列表、手机铃声、闹钟铃声、通知铃声、是否打开声音效果、是否输入密码显示最后一位、是否屏幕亮度自动调节、是否屏幕自动旋转、当前壁纸、系统程序列表

统计n个月内卸载/在装应用行为特征;应用行为活跃时间相关特征:总打开次数,总使用时长;地理位置相关特征;借款/还款信息与有相同行为的人群进行纵向比较后给絀得分,用户得分越高表示其在整个相同行为的人群中相比新安装APP个数越多。

从APP的安装、活跃情况等行为中提取特征并在相同兴趣人群中纵向比较,得到用户的国有银行类应用偏好值越大,代表该用户对此行为的偏好程度越大

App类别:办公管理、便捷生活、电话通讯、电子商务、电子阅读、教育培训、金融理财、聊天社交、旅游出行、拍摄美化、汽车服务、亲子服务、视频服务、系统工具 、音乐音频、游戏服务、运动健康、智能设备、综合资讯

app类别偏好标签:餐饮偏好、贷前标签、短期状态、阶段轨迹、金融通用标签、旅游行为标签、旅游偏好、汽车线下行为、人口属性、设备属性、社会分群、线下偏好、线下医疗健康、游戏偏好、运动、长期状态、资产属性

借贷行為偏好:设备指纹对应的借贷APP数量、消费分期APP数量、彩票APP数量、借贷APP数量占比、消费分期APP数量占比、彩票APP数量占比

通讯录,主被叫号码通话时长等。

身份证信息:身份证号、身份证住址身份证正面,身份证反面有效日期,签发机构

活体检测信息:照片活体检测数据,状态码相似度,是否本人验证次数。

用户登录日志登录信息,浏览信息等

打开app时间,上次登录时间上次登录IP等。

申请编号;申请时间;申请渠道;申请产品:金额周期,费率等;借款用途等

审批时间;拒绝原因;风险类型;审批备注;当前状态等。

名单编號;借款金额;服务费;实放金额;放款状态;放款失败原因等

还款时间;还款方式;应还金额;还款通道;财务减免;滞纳金额;还款状态;还款期数;是否结清等。

添加时间;’订单状态;催收员信息;联系状态;最后跟进时间;备注信息;通话记录;关键词命中情況等

姓名,身份证手机号,黑/灰/白原因

渠道;联系人;联系电话;推广链接;渠道限量;平台流量监控;合作结算等

按客户购买意願分类联系:指与按客户购买意愿分类互动的信息,有内向联系和外向联系两种情况:

内向联系:指按客户购买意愿分类通过询问或投诉主动与贷款机构联系;

外向联系:贷款机构通过电话推销或直邮与按客户购买意愿分类联系也包括贷款机构购买市场信息来决定联系哪些按客户购买意愿分类。

获客过程:申请表格的信息以及申请过程中的其他信息特别是征信数据和账户表现情况等。这些数据主要用于信贷审批和申请监控也可以用于早期的按客户购买意愿分类关系管理。

账户管理:从现有账户总结得到的信息包括最小值、最大值、岼均值、比率和次数等。

催收回收:催收回收信息是账户进入催收阶段的细节信息需要不断更新,还有与回收相关的联系信息和结果鈈同阶段总结的信息有所不同,例如过去三个月超限的天数、过去六个月拒付次数、平均账户余额、过去六个月最长逾期天数、当前逾期金额和过去六个月的还款比例等

除了上述与信用风险管理直接相关的数据外,在账户操作管理、操作风险管理及按客户购买意愿分类关系管理中也会使用其他数据

按客户购买意愿分类管理:按客户购买意愿分类管理总结按客户购买意愿分类关系,制定相应策略产品层媔的细节视机构而定,有些只需要总结信息减少数据存档负担;有些需要账户的全面信息。还有公司用市场信息和财务信息作为补充

茭易数据是细节的终极体现,包括所有支付进出的信息比如交易时间、交易金额、交易对象、交易目的、交易时间与交易金额会在支付囷收取过程中体现,交易对象和交易目的则不一定账户代码和类别代码会显示在电子交易记录中,商家代码会出现在信用卡支付中支票交易有支票编号。

在授权阶段信用卡交易通常会暂时放在单独的数据库中。一旦授权通过交易记录会转到主账户中;如果授权不通過,交易记录会单独保留在别的数据库中非交易产品或即时交易不需要这种数据库。

按客户购买意愿分类个人关系有时候不被归为借贷關系虽然它也可能和风险有关,但由于各种原因通常不被传统评分卡采用。

财务状况:财务状况是按客户购买意愿分类的财务信息洳资产负债表和损益表,通常针对中级市场对中小企业和个人贷款也适用。

安全:任何增信方法都是为了保证贷款资金的安全包括担保和抵押品(固定资产、流动资产、移动资产)。考虑到成本和风险交易型贷款通常不太看中抵押品。

顺序逻辑:按照获取从难到易數据效度从高到底排序。

数据来源:金融、房地产、零售行业、移动设备等

数据要求:法律规定,企业合法数据合法,用户授权等

數据特点:丰富、敏感、不便展示。

经用户授权采集其社保数据包括:社保账户信息、五险缴费记录(最多10年)和医疗消费记录

参保单位个囚信息、城居养老保险缴费明细信息、城居养老保险参保人信息、参保单位基本信息、单位缴费比例、单位款项明细信息、待遇类别表、個人参保信息、医保个人基本信息、个人账户实际收支记录信息、IC卡个人帐户余额变化信息、缴费明细信息、款项类别信息、企业养老保險单位参保信息、企业养老保险人员参保信息、企业养老保险参保人员信息、企业养老保险人员缴费记录、失业个人基本信息、险种应缴信息、险种子项表、医疗个人账户、医疗机构、医疗业务完成历史表、医疗业务信息、正常失业待遇信息

经用户授权采集其公积金数据,包括:公积金账户信息、缴费记录(最多10年)和公积金贷款信息个人公积金贷款信息、业务明细、账户信息、贷款业务明细、共同借款人信息、单位公积金账户信息。

经用户授权采集其学信数据包括:学历信息和照片、学籍信息和照片

按政府或者事业单位部门分类数据来源:包含公安局、民政局、交警支队、财政局、税务局、不动产中心、工商局、公积金中心、人社局、残联、人民法院、综治办、卫计委、洎来水公司等

央行征信数据总体上体现负债情况和信用情况的:央行征信报告。央行征信数据权威、真实、合规。央行的征信接口对所囿持牌机构开放但目前市面上的金融公司都没有直连央行接口。因为开发接口除了耗时费力还关乎很多细节问题,技术、政策等所鉯一般都会跟某个机构对接后,查询央行征信的数据具体二代征信变量衍生方法,可以参考同盾姚雪丹老师的一篇文章:人行二代个人征信及变量衍生深度解读

由于央行征信系统没有覆盖P2P平台等机构百行征信顺势而生。百行征信也是国内唯一一家持牌市场化个人征信机構机构主要由考拉征信、鹏元征信、91征信、安融征信、立木征信、凭安征信、前海征信、中诚信征信、华道征信、中智诚征信等组成。未来百行能不能有效被使用上还有待观察但风控人员可先了解其相关的资料。百行征信涉及的模块主要包括以下方面:

报告相关数据:报告时间;查询原因;查询结果等。

综合信息:手机号数量;累计贷款笔数;居住信息;职业信息;机构查询信息等

未结清贷款:未結清贷款笔数/金额等。

逾期情况:当前逾期贷款笔数;当前最严重逾期状态;历史最严重逾期状态;累计逾期次数等

非循环贷情况:新增贷款笔数/金额/机构数;逾期贷款笔数/金额/机构数等。

循环贷情况:循环授信信息;新增贷款笔数/金额/机构数;逾期贷款笔数/金额/机构数等

逾期名单、多头名单、失信名单等。

经用户授权采集其网上银行数据包括:储蓄卡账户信息和交易流水、信用卡账户信息和账单明細、贷款记录

查询用户网银流水信用卡报告(目前支持16家信用卡)

经用户授权采集其邮箱中的信用卡账单数据,包括:信用卡账户信息、烸月账单明细、交易流水和分期记录

经用户授权采集其支付宝数据包括:支付宝账户信息、绑定银行卡、交易流水和金融产品信息

电商社交数据适合线上行为活跃的群体,尤其是适合现金贷及有场景用户比如3C数码、医美、教育等消费分期领域。对线上行为特别稀疏的传統的线下人群要利用电商社交数据做征信评估基本不可行。

电商数据需要和其他数据配合使用才能发挥最大的价值。

经用户授权采集其京东数据包括:京东账户信息、收货地址、订单信息(最多2年)和金融产品信息

经用户授权采集其淘宝数据,包括:淘宝账户信息、收货哋址、订单信息(最多2年)和金融产品信息

经用户授权采集其车险保单数据包括:保单和保费信息、车辆信息、投保人和被投保人信息

在以仩的产品中,我们都能看到一个高危行为的定义所谓高危行为一般为:申请信息中身份证号关联多个(>3个)手机号、或手机号关联多个(>3个)身份证号。

并且在BiRong的数据中还有一个跟查询用户一度关系、二度关系的数据查询情况,

一度关系:百融关系库中与本人有直接关聯的人一般是直系亲属、关系紧密的朋友

二度关系:百融关系库中与一度关系有直接关系的人

一般关于这个关系库,我们也常使用以下規则:联系人的先都不拒低风险的放开,高风险的拒绝

经用户授权采集其运营商数据包括:手机账户、通话详单、短信详单、流量详單、缴费信息、账单信息和套餐使用量。

经用户授权采集其QQ空间数据包括:QQ账户信息、好友信息和QQ群信息

关注:借贷群、分期群、理财群、薅羊毛群、赌博彩票群

经用户授权采集其Linkedin(领英)数据,包括:领英账户信息、教育经历、工作经历和职场人脉信息

2.4.7 企业类征信数据

功能:判断法人是否涉嫌欺诈、企业是否涉嫌欺诈、法人是否失信、企业是否失信、法人不良名单、企业是否欠税、企业基本工商信息、企业笁商数据、风险信息查询

分类:企业类型、工商数据、税务数据、发票数据、涉税数据、涉诉数据、海关数据、环保数据、信用数据、招聘数据、新闻数据、商标数据、知识产权、软件著作、受惩黑名单数据、大企业股权出质、大企业动产质押、经营异常、公司产品、动態情报、网站信息、控股公司、联系信息、股权冻结、动产抵押、受益人、严重违法、简易注销、工商快照、实际控制人、股权出质、对外投资、对外投资穿透、经营状况、经营风险。

细分:利润表(小企业会计制度)_年报信息、企业资产负债表(小企业会计制度)、企业利润表(小企业会计制度)、小规模纳税人申报明细主表、一般纳税人申报明细主表、企业违法违章、企业申报信息、纳税人信用等级、企业投资方(自然人出资信息)、企业变更信息、企业欠税信息、企业主要人员

列举下几个税种的介绍说明:

1.对企业生产经营过程中价值增徝的部分进行的征税(只对经营过程中增加的附加值征税,避免了重复征税))

  1. 进项税:企业收到其他企业开具的专票上的税额叫进项税可以抵扣

  2. 销项税:企业自己开具给别人的发票上的税额是销项税,也就是自己取得收入该缴纳的税款;

1.除了增值税企业如果有盈利,還要缴纳企业所得税

计算公式为:企业所得税=应缴纳所得额*25% 高新技术企业可获得10%的所得税减免

1.向个人征收的企业需要进行代扣代缴;

2.个体笁商户的经营所得也需要缴纳个人所得税;

另外在票税类数据构成上,主要有以下类型:

企业基本信息、工商、税务登记信息、纳税信用評级、纳税申报信息、实际缴纳信息

机动车登记;城市电话黄页;房地产服务等

由用户通过app提交。关于用户基本信息需要特殊处理的芓段可能包括身份证、地址等。

由系统生产表格数据完整,缺失程度低挖掘之前通常需要进行多表关联查询。

通过api方式获取主要是┅些多层嵌套json数据,需要进行解析之后根据需求存入不同类型的数据库备用。

不同类型、体量的数据需要使用不同的数据库进行存储,根据业务要求可参考以下几点:

Mysql:可存储日常订单数据。

Redis:可存储实时进件请求

Mongodb:可存储三方接入数据。

Neo4j:可存储用户之间的关系數据

Hbase:可存储日志明细、交易清单、轨迹行为等。

Hive:可存储大量流水数据

数据库的选用,主要与其设计及性能相关:

Mysql:mysql是关系型数据庫主要用于存放持久化数据,将数据存储在硬盘中读取速度较慢。

Redis:Redis 是NOSQL即非关系型数据库,是一个高性能的key-value缓存数据库即将数据存储在缓存中,缓存的读取速度快支持主从同步, 能够大大的提高运行效率但是保存时间有限。

Mongodb:MongoDB是一个介于关系数据库和非关系数據库之间的产品是非关系数据库当中功能最丰富,最像关系数据库的它支持的数据结构非常松散,是类似json的bson格式因此 可以存储比较複杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能而且还支持对数据建立索引。

Neo4j:存储节点数据如网络节点之间的关系数据。是一个高性能的,NOSQL图形数据库它将结構化数据存储在网络上而不是表中。neo4j适合于社区网站的关系:用户之间的关系有朋友关系亲友关系,同事关系等把每个人来看作是一個结点,用户与用户之间的关系看作是一条边这样整个社源区就像一张大的图一样。

Hbase:存储量级要求比较大、数据更新频繁、查询复杂喥高、字段扩展性好的数据Hadoop database 的简称,也就是基于Hadoop的数据库是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的 随机实时查询

Hive:Hive是Hadoop数据仓库,严格来说不是数据库,主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据适用于离线的批量数据计算。Hive 没有专門的数据存储格式也没有为数据建立索引,Hive 中所有的数据都存储在 HDFS 中Hive 中包含以下数据模型:表(Table),外部表(External

在大数据架构中Hive和HBase是协作关系,数据流一般如下图:

  1. 通过ETL工具将数据源抽取到HDFS存储;

  2. 通过Hive清洗、处理和计算原始数据;

  3. HIve清洗处理后的结果如果是面向海量数据随机查询场景的可存入Hbase

  4. 数据应用从HBase查询数据;

时间格式;范围约束;脱敏处理;离散化处理;变量衍生等。

分词;标注;命名实体;情感分析;地址分析;文本挖掘等;

归属地解析:针对上传的ip、GPS、手机号等信息的归属地进行详细的解析输出对应的归属地信息;处理如分级地址、GPS坐标、文本地址等地址数据。

分类(classification)对于一个分类员来说,通常需要你告诉它“这个东西被分为某某类”理想情况下,一个分類员会从它得到的训练集合中进行“学习”从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning(监督学习)

在佷多业务场景中,即使一些很常见如男女、学历、是否有车、是否有孩、是否可联等的标签只要用户没有直接提供或者无法直接得出结論,都需要去基于业务理解和大量留存数据对齐进行分类分析

聚类(clustering),简单的说就是把相似的东西分到一组聚类的时候,我们并不關心某一类是什么我们需要实现的目标只是把相似的东西聚到一起,因此一个聚类算法通常只需要知道如何计算相似度就可以开始工莋了(距离矩阵),因此clustering通常并不需要使用训练数据进行学习这在Machine

可视化关联图谱(树图、发散图、力导向图、弦图)

4.外部数据接入4.1 产品清单4.1.1 稽查核验类

通过验证按客户购买意愿分类申请信息之间的关联关系,来判断按客户购买意愿分类的风险

姓名:请求信息中的姓名

姩龄:请求信息中根据身份证号计算的年龄

性别:请求信息中根据身份证号计算的性别

身份证认证:请求信息中的身份证号码

身份证归属哋:请求信息中身份证的归属地

身份证二要素认证:身份证号+姓名——从身份证和姓名的信息,返回个人的信息匹配情况是否存在该身份证信息,核查身份证姓名是否一致

手机号三要素验证:验证移动、联通、电信手机号与绑定身份证号和姓名是否一致。

银行卡四要素驗证:验证用户银行卡号、姓名、身份证号、手机号与银行预留信息是否一致

检测输入的姓名、身份证号码、银行卡号是否一致

检测输叺的姓名、手机号码、身份证号码、银行卡号是否一致

通过银行卡查询,可以判断卡类型

输入银行卡号返回银行名称、卡类型及卡归属地等信息

银行联行号查询可根据关键字,银行名称、银行卡号省,市等查询返回结果包含电话、地址等

检测输入的姓名、银行卡号是否一致

身份证认证(不返回照片):认证姓名和身份证是否一致(支持大陆公民的身份证认证)

身份证认证(返回照片):认证姓名和身份证是否一致,一致时返回身份证头像照片(支持大陆公民的身份证认证)

银行卡两要素认证:认证姓名.姓名和银行卡号是否一致;

银行鉲三要素认证:认证姓名.身份证和银行卡号是否一致;

银行卡四要素认证:认证姓名,身份证,手机号和银行卡号是否一致;

银行卡四要素认證(发短信):认证姓名,身份证,手机号和银行卡号是否一致一致后向商户手机号发送认证码进行短信校验;

打款认证:通过比对商户打款金额与被认证用户实收金额是否一致,以此来认证银行卡归属

学历学籍认证;社保公积金认证;支付宝实名认证;淘宝认证;公积金认證;网银账单认证;信用卡账单数据;借记卡账单数据等

照片比对:OC认证,虚假身份证等伪冒风险的克星

人脸对比:测进件的是不是一個真实的人(关于这点可以参阅之前我们公众号的文章:揭秘OCR的策略规则)

手机所属运营商:请求信息中手机号码所属的运营商

手机号碼归属地:请求信息中手机号码的归属地

手机在网状态:验证移动、联通、电信手机的在网状态。

手机在网时长:验证手机的在网时长区間按自然月统计。在网时长=销号时间-开户时间停机计入时长。

手机号归属地查询;家庭固话;进件单位电话核验;三方单位电话核验等

输入地址与手机号码地址、最近使用地址、历史使用地址的关联。

身份证号手机号归属地:查询身份证号和手机号所属地区用户详細地址信息与机构地址信息库的一致性核查。

家庭地址校验;企业位置核验;单位地址验证;常驻地址核验;GPS地址校验等

借贷行为验证:用户在百融的虚拟信贷联盟中的借贷行为情况。

借贷意向验证:用户近7/15天、1/3/6/12个月在百融的虚拟信贷联盟(银行、非银、非银细分类型)中的哆次信贷申请情况

法院信息详情-个人版:查询个人涉及法院信息的详情,共8类:开庭公告、案件流程、网贷黑名单、裁判文书、执行公告、失信公告、法院公告、曝光台

法院信息详情-企业版:查询企业涉及法院信息的详情,共8类:开庭公告、案件流程、网贷黑名单、裁判文书、执行公告、失信公告、法院公告、曝光台

法院被执行人:法院失信被执行人、被执行人的执行案件信息。

公安黑名单(不良犯罪记录):在第一条的基础上是否还能检测到该身份证有名字公安库中的不良犯罪记录等,目前有个别厂家能支持这样的信息查询

车主认证:所有人姓名,所有人核验结果手机号码,准驾车型车产状态,有几辆车

车辆认证:车牌号是否匹配初次登记日期,号牌号碼号牌种类,发动机号码车产价值(范围)

包括银行、持牌消金、保险、信托、汽车金融、互联网金融机构等。

是否命中命中名单種类

机构类型:P2,PP2P-车贷P2P-房贷,非持牌消金非持牌消金-小额现金贷,非持牌消金-消费分期持牌消费金融,银行融资租赁,小贷典當,担保平台门户,资金平台保险等。

查询机构:将查询机构的类型分成银行机构(含信用卡)跟非银机构(含全部非银类型)两类信息。包括P2P、 消费类分期、现金类分期、代偿类分期、其他银行、持牌汽车金融、持牌融资租赁、持牌网络小贷、持牌消费金融、持牌小贷、非歭牌小贷

查询标识:通过身份证查询,通过手机号查询通过联系人手机查询,邮箱设备

查询主体:本人直接命中,联系人、与用户囿亲密关系的人(一度关系、二度关系-关系库定义)

查询结果:高风险中风险,一般风险资信不佳,拒绝法院被执行人,法院失信囚公安信息异常,虚假申请、欺诈

统计口径:是否命中,命中次数距今时间

:持牌汽车金融高风险命中次数较多。

高风险-信贷行業-信贷欺诈黑名单;内部黑名单;机构黑名单;征信黑名单;信用卡欺诈黑名单;运营商黑名单;网购黑名单等一经标记,最好再无业務往来

信贷逾期:机构逾期,平台标记风险

用途风险:借款用于赌博、还债等非法高风险用途

不良按客户购买意愿分类:低资质且有较高还款风险的按客户购买意愿分类

丧失还款能力:申请人死亡、重病、被捕、被通缉、高负债

严重欺诈严重违约历史高危行为

高风险交易信贷行为、高危网络行为

长期拖欠:达到高期催收标准的逾期按客户购买意愿分类

信贷欺诈:支付欺诈恶意骗贷,违法黑产欺诈风险提示,欺诈作案APP用户

垃圾账号:养号,盗号注册、贷款、短信验证时可能对平台发起攻击

资料虚假:除表填外提供的其他资料虚假,申请信息虚假:表填信息虚假

恶意欺诈:疑似存在欺诈历史

伪冒包装:疑似用虚假资料包装冒用他人名义申请借款

恶意行为:在社交、o2o、社区等疑似有不良的行为

风险交易:盗刷、洗钱、刷单,套现境外欺诈

同行中介:信息被公开渠道披露为同行

多头借贷:判断匹配维喥任意1小时到90天时间段内的申请多头数量是否存在过多现象。

白户申请:判断匹配维度任意1小时到90天时间段内是否不存在申请记录

银联風险首单商户:是否可疑商户,是否风险商户是否收单预警商户。

银联不良持卡人:是否不良持卡人是否经济犯罪人员,是否涉恐人員是否触犯风险规则人员。

不良银联卡:是否欺诈交易卡片是否涉案卡片,是否线下卡号黑名单是否线上卡号黑名单,是否其它卡號黑名单

银联风险电话:是否线上的交易手机号黑名单,是否虚假电话号码是否诈骗、中介、违法电话号码。

公共失信、信贷逾期、茭易欺诈;不良中介;虚假申请;风险用途;账户盗用;关联欺诈等

身份证负面情况;手机号负面情况;联系人负面情况;邮箱设备负媔情况等。

资信不佳:提供的申请资料未达到准入标准、信息被伪冒

工商偷税漏税股权冻结,无照经营法院被执行人,行政处罚

法律咴名单:高危用户在逃嫌犯,法院失信

综治办名单:吸毒、上访、刑满释放人员、社区矫正人员等。

法院被执行人:被执行人是指在法定的上诉期满后或终审判决作出后,拒不履行法院判决或仲裁裁决的当事人

法院失信被执行人:具有履行能力而不履行生效法律文书確定的义务但是故意抗拒执行义务的被执行人

针对申请人与催收电话、疑似催收电话的通话行为进行分析,返回催收通话频度、主/被叫、时长、周期等数据统计返回近100个数据变量用于建模和按客户购买意愿分类筛选

根据评分需求,增加实时运营商抓取信息、第三方支付信息、信用卡账单信息等数据内容构建适用于场景的定制评分。

(现金贷)小额信贷评分

(现金贷)现金分期评分

(消费贷)场景分期評分

(消费贷)线下消费分期

(消费贷)线上现金分期

(信用卡)信用卡代偿评分

(汽车贷)汽车金融评分

申请准入分:申请准入置信度 申请命中查询机构数 申请命中消费金融类机构数 申请命中网络贷款类机构数 机构总查询次数 最近一次机构查询时间 近1个月贷款类机构总查詢笔数 近3个月贷款类机构总查询笔数 近6个月贷款类机构总查询笔数

贷款行为分:贷款行为置信度 贷款放款总订单数 贷款已结清订单数 贷款逾期订单数(M1) 命中贷款放款机构数 命中消费金融类机构数 命中网络贷款类机构数 近1个月贷款机构放款笔数 近3个月贷款机构放款笔数 近6个朤贷款机构放款笔数 历史贷款机构成功扣款笔数 历史贷款机构失败扣款笔数 近1个月贷款机构成功扣款笔数 近1个月贷款机构失败扣款笔数 信鼡贷款时长 最近一次贷款放款时间

信用现状:建议授信额度 建议额度置信度 命中在用的网络贷款类机构数 命中在用的网络贷款类产品数 网絡贷款机构最大授信额度 网络贷款机构平均授信额度 命中在用的消费金融类机构数 命中在用的消费金融类产品数 消费金融类机构最大授信額度 消费金融类机构平均授信额度

一级、二级、三级、四级、五级

贷款审批、贷后管理、信用卡审批、担保资格审查、保前审查

按查询主键:按身份证号查询,按手机号查询

被查询人的身份证号码仅支持18位身份证

发起查询请求公司的代码

包含历史上平台查询此借款人的机構名称、查询时间、机构类型、查询原因、借款记录历史、提供数据的机构代号、被查询借款人姓名、被查询借款人身份证号、借款时间、借款期数、借款金额、审批结果 、还款状态、借款类型、逾期金额、逾期情况、历史逾期总次数、历史逾期M3+次数、历史逾期M6+次数

多头嘚情况,即在多家非银机构中申请的贷款的情况包括:多头申请、多头拒贷、多头放款、多头逾期、信用状态/负债报告等。按照多头的時间维度可以细分为:近7天;近15天;近1个月-最近30天;近3个月-最近90天;近6个月-最近180天;最近最早申请记录

按统计单位:申请次数,连续申請次数申请机构数

按申请时间:近6月,近12月夜间申请,周末申请申请间隔天数,连续申请的持续天数最小间隔天数,最大间隔天數有申请记录月份数,平均每月申请(有申请月份平均)

近n个月:频繁申请;拒贷较多;电话失联;已结案;逾期还清;逾期中;执行中;终夲案件

注册机构数量 注册机构数(去重)

注册机构类型 输入信息的注册机类型(去重)

第三方渠道注册机构数量 第三方来源授权多头(詓重)

机构查询次数 机构查询次数(不去重)

近n天贷款申请次数 近n天申请该机构类型贷款的次数

查询日期 该用户被查询的日期

机构类型 该鼡户被查询的机构的类型

是否本机构查询 是否为本机构查询:是/否

借贷机构数(去重) 放贷的机构数(去重)

近n天贷款的机构数 近n天放贷嘚机构数(去重)

近n天贷款的次数 近n天放贷的次数

还有如借款金额;借款时间;还款状态;借款类型码;被查询借款人姓名;逾期金额;曆史M3+逾期次数;历史M6+逾期次数;逾期情况;历史逾期总次数;期数;风险明细;命中项码;命中内容;风险最近时间等。

判断手机、姓名、身份证是否在黑名单;灰名单;灰名单更新时间以及逾期次数;最大逾期金额;最大逾期天数。

逾期类型:法院-被执行;近期存在多頭申请风险;模型评估低资质;小额业务拖欠;长期拖欠

是否拉黑:判断是否拉黑了解拉黑明细

是否白户:查不到用户相关数据

逾期未還款行为:当前存在逾期未还款行为

最大逾期金额:用户借款并未按时还款的最大金额

最长逾期天数:用户最长逾期天数

最近逾期时间:鼡户最近逾期的时间

当前逾期机构数:截止查询时间,用户产生逾期的全部机构个数

当前履约机构数:截止查询时间用户正常还款的全蔀机构个数

异常还款机构数:截止查询时间,用户最后交易行为银行卡注销、挂失等高危行为的机构个数

睡眠机构数:截止查询时间用戶6个月内无交易记录的机构数

报告可以理解为较为完整的数据字典。

证件号码:人行征信报告中证件号码是不全的

用户申请人行征信报告的时间,人行征信报告的生成时间

账户类型:1.信用卡 2.住房贷款 3.其它贷款

账户数:’未结清、未销户账户数;发生过逾期的账户数;发生過90天以上逾期的账户数 为他人担保笔数

信贷类型:1.信用卡 2.住房贷款 3.其它贷款

账户类型:1.发生过逾期的贷记卡账户 2.从未逾期过的贷记卡及透支未超过60天的准贷记卡账户 3.从未逾期过的账户 4.透支超过60天的准贷记卡账户 5.发生过逾期的账户

账户明细:记录了该账户是否逾期, 销户等情况

公共记录类型: 1.欠税记录 2.民事判决记录 3.强制执行记录 4.行政处罚记录 5.电信欠费记录

查询原因:信用卡审批 , 贷后管理 , 贷款审批 ,本人查询

信用卡類型 包括: 贷记卡, 准贷记卡;

账户的币种 包括: 人民币账户, 美元账户

本征信报告获取本信用卡信息的最后时间 如果该账户已销户,则表示销户时间

信用额度 单位为人民币, 如果是美元账户, 信用额度是折合人民币的额度

已使用额度 贷记卡账户为信用额度

透支余额 准贷记卡账户为透支余額

准贷记卡账户是否有大于60天逾期记录

准记卡账户有超过60天逾期记录月数

该账户是否有超过90天

该账户有超过90天逾期记录月数

贷款对象 包括個人住房贷款,个人商用房(包括商住两用)贷款和个人住房公积金贷款。

本征信报告获取本购房贷款信息的最后时间 如果已结清,则是是结清时间

购房贷款是否有超过90天的逾期

购房逾期超过90天的月数

一阶联系人黑名单个数 借款人的一阶联系人中被认定为黑名单的个数/人数

一階联系人逾期个数 借款人的一阶联系人中,借款发生逾期的个数/人数

一阶联系人逾期m3+个数 借款人的一阶联系人中历史逾期天数大于等于90忝,包含逾期还清

一阶联系人黑名单数占比

二阶联系人黑名单个数 借款人的二阶联系人中被认定为黑名单的个数/人数

二阶联系人逾期个數 借款人的二阶联系人中,借款发生逾期的个数/人数

二阶联系人逾期m3+个数 借款人的二阶联系人中历史逾期天数大于等于90天,包含逾期还清

主叫联系人数 主叫联系人数

主叫联系人黑名单个数 主叫联系人中被认定为黑名单的人数

主叫联系人逾期个数 主叫联系人中,当前逾期忝数大于等于4天

与虚拟号码通话人数、次数、秒数

异地通话人数、次数、秒数

与澳门通话人数、次数、秒数

与银行或同行通话总次数

与银荇或同行通话总秒数

夜间通话 24点到5点

一阶联系人 与借款人本人直接联系的联系人即借款人的一度关联人

二阶联系人 与一阶联系人直接联系的联系人,即借款人的二度关联人

一阶联系人黑名单个数 借款人的一阶联系人中被认定为黑名单的个数/人数

一阶联系人逾期个数 借款囚的一阶联系人中,借款发生逾期的个数/人数

主叫联系人 借款人主动拨打的联系人

“逾期”的判定标准 当前逾期且逾期≥4天

“逾期M3+”的判定标准 曾经逾期,且逾期≥90天包含逾期还清

按客户购买意愿分类等级:不活跃按客户购买意愿分类、长期忠诚按客户购买意愿分类、活跃上升按客户购买意愿分类、活跃下降按客户购买意愿分类、自激活或新按客户购买意愿分类、睡眠按客户购买意愿分类

衡量持卡人是否合理使用资金

累加消费金额、最大消费金额、最小消费金额、累计交易金额/交易笔数。

近n个月发生批发类交易、餐饮交易、仓储超市、批发交易、储蓄交易、取现交易、跨境交易、转出交易、转入交易、周末交易、卫生类交易金额之和

持卡人划卡次数很少用卡商户类型,总交易金额刷卡消费稳定性,用卡范围

非生活必需品消费类金额(含奢侈品、SPA、运动类、图书类等)

生活必需品消费类金额(餐饮消費等)

工作时段(早9-晚5)地区

国内头等、商务、经济次数

延误次数(大于30分钟)

设备环境风险:设备环境风险判定设备使用代理、模拟器、修改设备参数等一些特征。

设备行为画像:设备行为信息反应设备历史行为信息。

设备实名关联:设备实名关联设备和实名信息關联及验证。

设备应用偏好:设备应用偏好设备APP安装情况分析。

设备特殊名单:通过设备查询用户及其社交关系是否命中设备特殊名单庫的统计评估

设备采集数据:设备信息采集产品查询设备全局信息,返回给按客户购买意愿分类通过设备标示查询到的关于设备和用户嘚信息

建议:回顾第二节数据应用逻辑关于业务类型、风险类型、风控流程、风险画像等的介绍。

准确性高、稳定性强、吞吐量大、扩展性强

稳定、合规、安全、可靠

贷前审核、贷中监控、授信策略等

产品类别:通用分数、定制分数,某种画像的评分或者综合评分

覆蓋度;准确性;颗粒度;时效性;无污染性:

数据真实:数据源真实可靠,数据内容未经篡改或加工;

信息准确:数据解析准确不出现亂码、错位、错值、空值等数据错误;

持续稳定:数据供应稳定、持续,不可出现可引起业务停滞的重大服务中断事故;

覆盖完善:所供數据覆盖范围完整数据完备程度高,可成业务决策;

更新及时:数据返回时间、数据更新时间符合金融机构业务需求数据及时有效

合莋方式;合作周期;价格等。

日调用月调用,热点量

计费方式、计算方式,费用

调研、采集、接入、加工、分析、决策完整的工作鋶的形式去做选择。

企业资质;业务连续性;合规安全性等

目前在大数据的应用上依旧会保持着严厉的监管,合规合法是趋势怎么样嘚行为属于合规合法的?授权是前提必须明确写明授权机构和授权使用场景;除此之外,避免接触到敏感信息通过评分代替直接数据茭互。这几个都是核心的关键点

目前对数据敏感性的处理上,更有联邦学习会对数据建模迭代过程进行加密比联合建模更能规避数据隱私、合规性等问题。联邦学习虽然目前落地的场景还有待加强但未来的趋势数据合规肯定是趋势,破除数据孤岛也应该成为必然

评汾、名单、数据、画像

本次合作数据方面的保密性

按查询计费:用户授权登录成功后,有核验结果返回则计费查有则计费

按操作计费:數据比对完成并返回结果则计费

4.4 离线批量测试4.4.1 测试样本准备

由甲方根据双方约定准备测试数据。

二要素:手机号、身份证号

三要素:姓名、手机号、身份证号

四要素:姓名、手机号、身份证号、银行卡号

测试前通常需要双方根据样本时间和乙方库存支持时间沟通回溯时间需求目的在于还原用户借款时的数据情况,还可以支持样本分层、分群、分区、分段从而细化分析。

数据格式:最好清晰一致避免出現重复、异常、缺失数据以及格式乱等问题。

数据加密:数据多用md532位小写方式加密文件多为excel或csv文件格式,文件传输设置密码只同步部汾核心人员。

发送方式:邮件正式发送且有备份;系统平台导入,较为正式严谨

由乙方根据双方约定开始提取相关数据并进行初步分析。包括数据明细反馈、初步覆盖率结果分布情况以及一些其他方面的说明和建议。

周期:1~3~5个工作日

由乙方给出初步的数据多维度评估报告内容通常由以下几部分组成:

匹配情况:撞库之后的身份证或者手机号匹配率。

覆盖情况:有效名单、评分、数据覆盖情况

缺失凊况:获取到的数据缺失类别及缺失程度是否严重。

命中情况:名单命中率

分布情况:名单分类比,评分分布情况

异常情况:是否有異常数据生成。

由甲方根据数据标签匹配结果及数据有效性给予数据测试分析报告既可以反馈测试结果好坏,也有利于双方在合作上的進一步探讨报告内容通常由以下几部分组成:测试效果;排序性:区分度:区间区分度;稳定性;区间稳定性:一致性。

4.4.3.1 名单类数据性能验证

覆盖率(Cover rate)=查得命中黑名单数/样本中命中黑名单量

更为详细的三方数据测试方法可参考:如何选择合适的第三方数据源

4.4.3.2 评分类数据性能验证

a) K-S值:Kolmogorov-Smirnov Statistic值,K-S值指的是“好”按客户购买意愿分类和“坏”按客户购买意愿分类累计分布比例之间距离的最大值K-S值重点衡量的是某一個分数点的区分能力。

b)ROC曲线:ROC曲线又称接受者操作特性曲线可以用来评估评分类数据的区分能力,权衡曲线下面的面积(AUC)越大说明评分類数据的区分能力越强在完全随机选择的情况下AUC=0.5,AUC大于0.5说明评分类数据选择的效果优于随机选择的效果,一般来说如果评分类数据嘚AUC大于0.7则被认为是可以接受的。如下图所示:

c) GINI系数:基尼系数越大说明评分类数据的区分能力越强GINI系数可以通过如下公式进行转化:

基尼系数(GINI)参考范围:

如下表所示,好/坏比图表可以用来验证评分数据的排序性能即判断好/坏比是不是随着评分的升高而上升的。

好/坏比參考表(示例)

e) 区分度:区分度又称分离度区分度刻画了评分类数据对“好/坏”进行区分的能力,其主要影响因素为“好”按客户购买意愿分类和“坏”按客户购买意愿分类分布的分离程度和重叠程度区分度越高、重叠度越低,评分类数据预测误差越小

f) PSI群体稳定性指標:PSI群体稳定性指标(population stability index)主要考察的是不同时间评分类数据分布是否发生了变化。当群体稳定性指标显示客群的评分类数据分布发生了较大变囮时需要通过进一步的分析来找出客群发生变化的原因。如下表所示以2015年群体分数分布为基准计算:

群体稳定性指标计算参考表(示唎)

群体稳定性指标计算公式如下:

基准的选择没有统一的标准,一般来说选择评分类数据性能表现相对较好的时点作为参考基准点群體稳定性指标(PSI)参考范围:

4.4.3.3 评分类数据应用验证

覆盖率是指数据的查得率,主要考察验证机构查询请求按客户购买意愿分类中有多少比唎的按客户购买意愿分类返回了数据举例来说,如果验证机构提交了100万按客户购买意愿分类的数据查询请求数据服务商返回了80万按客戶购买意愿分类的数据,则数据的覆盖率为80%

计算不同申请时点的覆盖率,重点观察有没有在特定时点的覆盖率非常低若有,则需分析昰否因放贷机构在该时点授信政策等的变化导致按客户购买意愿分类群发生变化在此基础上,计算样本人群的总体覆盖率一般来说,覆盖率越高数据在验证机构的可应用性就越强。

贷前审批环节对评分数据的应用验证主要通过将加入评分数据策略后申请通过按客户購买意愿分类与原审批策略下通过按客户购买意愿分类进行对比,观察在加入评分数据后能不能提升通过按客户购买意愿分类风险质量或鍺扩大通过按客户购买意愿分类规模

例如,验证机构计算原有的贷前策略通过率来确定评分数据相应的分数线使该分数线对应的通过率与原贷前策略通过率保持一致;对比两种不同策略情况下不良率的高低,如果使用评分数据对应的不良率小于使用原策略对应的不良率則说明该评分数据策略优于原策略也可确定一条分数线使该分数线对应的不良率等于原贷前策略实际不良率,对比两种不同策略情况下通过率的高低

c) 贷后管理应用验证

贷后环节对评分数据的应用主要为风险预警,验证机构可以通过对评分数据的连续跟踪观察评分数据較低或者短时间内发生显著变化的人群和其表现是否有关系,如果相关性很强则可尝试利用评分数据作为风险预警的条件。

例如可以统計一个月内分数下降的幅度对应在未来出现“坏”的比率。如下表示例所示:

d) 催收管理应用验证

评分数据在催收管理中应用的验证方法主要为分析评分数据与递延率之间的相关性验证机构对此应用方式进行验证时,可以首先计算评分数据在不同逾期等级按客户购买意愿汾类上的区分能力在此基础上计算完成逾期按客户购买意愿分类的递延率表。

总结:不同的评分数据需要进行的应用验证是要根据评分數据的类型来决定的从评分类数据适用的实际业务场景出发,挑选场景中合适的样本进行选择性的验证

适用范围; 调用过程;报文主體;报文内容,报文头;请求响应

;异步结果反馈接口 ;查询同步接口;查询记录获取接口;借贷查询接口;借贷共享接口

包括:调用方式;参数格式;接口详情;报文示例;输出参数;报文示例等。

压力测试;异常测试等

无查询权限; 查询失败; 未查询;查无此记录; 不一致; 一致

调用量;调用异常;统计异常等。

重复调用问题;热点性问题等

在互联网金融迅猛发展的背景下风险控制问题已然成为行业焦点,基于大数据的征信风控正在成为金融科技重要的发展应用方向金融科技大数据风控如何运作,与传統风控相比有哪些迭代和优化?笔者结合相关互金平台的大数据风控模式做简要分析另外笔者也主要从业务属性角度去探讨,具体大數据架构、数据挖掘、云计算则属于IT技术范畴有机会给大家转发分享。

大数据能够进行数据变现的商业模式目前主要两个一个是精准營销,典型的场景是商品推荐和精准广告投放另外一个是大数据风控,典型的场景是互联网金融的大数据风控

金融的本质是风险管理,风控是所有金融业务的核心典型的金融借贷业务例如抵押贷款、消费金融(消费贷款、现金贷等)、P2P以及供应链金融都需要数据风控識别欺诈用户及评估用户信用等级。

传统金融的风控主要利用了信用属性强大的金融数据一般采用20个维度左右的数据,利用评分来识别按客户购买意愿分类的还款能力和还款意愿信用相关程度强的数据纬度为十个左右,包含年龄、职业、收入、学历、工作单位、借贷情況、房产汽车、单位、还贷记录等,金融企业参考用户提交的数据进行打分最后得到申请人的信用评分,依据评分来决定是否贷款以忣贷款额度其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等。

笔者根据自己从业經验和研究认为大数据风控并不是完全改变传统风控,实际是丰富传统风控的数据纬度互联网风控中,首先还是利用信用属性强的金融数据判断借款人的还款能力和还款意愿,然后在利用信用属性较弱的行为数据进行补充一般是利用数据的关联分析来判断借款人的潛在信用情况,借助数据模型来揭示某些行为特征和信用风险变化之间的关系利用大数据进行风控时,都是利用多维度数据来识别借款囚风险同信用相关的数据越多地被用于借款人风险评估,借款人的信用风险就被揭示的更充分信用评分就会更加客观,接近借款人实際风险常用的金融大数据风控方式有以下几种:

1、验证借款人身份识别欺诈

验证借款人身份的五因素认证是姓名、手机号、身份证号、銀行卡号、家庭地址。企业可以借助国政通的数据来验证姓名、身份证号借助银联数据来验证银行卡号和姓名,利用运营商数据来验证掱机号、姓名、身份证号、家庭住址

如果借款人是欺诈用户,这五个信息都可以买到这个时候就需要进行人脸识别了,人脸识别等原悝是调用国政通/公安局API接口将申请人实时拍摄的照片/视频同按客户购买意愿分类预留在公安的身份证进行识别,通过人脸识别技术驗证申请人是否是借款人本人

其他的验证按客户购买意愿分类的方式包括让按客户购买意愿分类出示其他银行的信用卡及刷卡记录,或鍺验证按客户购买意愿分类的学历证书和身份认证

2、分析提交的信息来识别欺诈

大部分的贷款申请都从线下移到了线上,特别是在互联網金融领域消费贷和学生贷都是以线上申请为主的。

线上申请时申请人会按照贷款公司的要求填写多维度信息例如户籍地址,居住地址工作单位,单位电话单位名称等。如果是欺诈用户其填写的信息往往会出现一些规律,互金平台可根据异常填写记录来识别欺诈例如填写不同城市居住小区名字相同、填写的不同城市,不同单位的电话相同、不同单位的地址街道相同、单位名称相同、甚至居住的樓层和号码都相同还有一些填写假的小区、地址和单位名称以及电话等。

如果平台发现一些重复的信息和电话号码申请人欺诈的可能性就会很高。

3、分析按客户购买意愿分类线上申请行为来识别欺诈

识别欺诈方面其实欺诈用户往往事先准备好用户基本信息,在申请过程中快速进行填写,批量作业在多家网站进行申请,通过提高申请量来获得更多的贷款

平台可以借助于SDK或JS来采集申请人在各个环节嘚行为,计算按客户购买意愿分类阅读条款的时间填写信息的时间,申请贷款的时间等如果这些申请时间大大小于正常按客户购买意願分类申请时间,例如填写地址信息小于2秒阅读条款少于3秒钟,申请贷款低于20秒等用户申请的时间也很关键,一般晚上11点以后申请贷款的申请人欺诈比例和违约比例较高。

这些异常申请行为可能揭示申请人具有欺诈倾向企业可以结合其他的信息来判断按客户购买意願分类是否为欺诈用户。

5、利用移动设备数据识别欺诈

行为数据中一个比较特殊的就是移动设备数据反欺诈公司可以利用移动设备的位置信息来验证按客户购买意愿分类提交的工作地和生活地是否真实,另外来可以根据设备安装的应用活跃来识别多头借贷风险

欺诈用户┅般会使用模拟器进行贷款申请,移动大数据可以识别出贷款人是否使用模拟器欺诈用户也有一些典型特征,例如很多设备聚集在一个區域一起申请贷款。欺诈设备不安装生活和工具用App仅仅安装和贷款有关的App,可能还安装了一些密码破译软件或者其他的恶意软件

欺詐用户还有可能不停更换SIM卡和手机,利用SIM卡和手机绑定时间和频次可以识别出部分欺诈用户另外欺诈用户也会购买一些已经淘汰的手机,其机器上面的操作系统已经过时很久所安装的App版本都很旧。这些特征可以识别出一些欺诈用户

6、参考消费记录来进行信用评估

大数據风控除了可以识别出坏人,还可以评估贷款人的还款能力过去传统金融依据借款人的收入来判断其还款能力,但是有些按客户购买意願分类拥有工资以外的收入例如投资收入、顾问咨询收入等。另外一些按客户购买意愿分类可能从父母、伴侣、朋友那里获得其他的财政支持拥有较高的支付能力。

按照传统金融的做法在家不工作照顾家庭的主妇可能还款能力较弱。无法给其提供贷款但是其丈夫收叺很高,家庭日常支出由其太太做主这种情况,就需要消费数据来证明其还款能力了

常用的消费记录由银行卡消费、电商购物、公共倳业费记录、大宗商品消费等。还可以参考航空记录、手机话费、特殊会员消费等方式例如头等舱乘坐次数,物业费高低、高尔夫球俱樂部消费游艇俱乐部会员费用,奢侈品会员豪车4S店消费记录等消费数据可以作为其信用评分重要参考。

互联网金融的主要按客户购买意愿分类是屌丝其电商消费记录、旅游消费记录、以及加油消费记录都可以作为评估其信用的依据。有的互联金融公司专门从事个人电商消费数据分析只要按客户购买意愿分类授权其登陆电商网站,其可以借助于工具将按客户购买意愿分类历史消费数据全部抓取并进行彙总和评分

7、参考社会关系进行信用评估

物以类聚,人与群分一般情况下,信用好的人他的朋友信用也很好。信用不好的人他的萠友的信用分也很低。

参考借款人常联系的朋友信用评分可以评价借款人的信用情况一般会采用经常打电话的朋友作为样本,评估经常聯系的几个人(不超过6六个人)的信用评分去掉一个最高分,去掉一个最低分取其中的平均值来判断借款人的信用。这种方式挑战很大呮是依靠手机号码来判断个人信用可信度不高。一般仅仅用于反欺诈识别利用其经常通话的手机号在黑名单库里面进行匹配,如果命中则此申请人的风险较高,需要进一步进行调查

8、参考社会属性来评估信用

参考过去互联网金融风控的经验发现,拥有伴侣和子女的借款人其贷款违约率较低;年龄大的人比年龄低的人贷款违约率要高,其中50岁左右的贷款人违约率最高30岁左右的人违约率最低。贷款用於家庭消费和教育的贷款人其贷款违约率低;声明月收入超过3万的人比声明月收入低于1万5千的人贷款违约率高;贷款次数多的人,其贷款违约率低于第一次贷款的人拥有汽车的贷款人比没有汽车的贷款人,贷款违约率低10%左右

经常不交公共事业费和物业费的人,其贷款違约率较高经常换工作,收入不稳定的人贷款违约率较高经常参加社会公益活动的人,成为各种组织会员的人其贷款违约率低。经瑺更换手机号码的人贷款违约率比一直使用一个电话号码的人高很多经常在各个城市跑的申请人,其带贷款违约率比其他人高30%

9、参考網络社交行为来评估信用

午夜经常上网,很晚发微博生活不规律,刻意隐瞒自己过去经历和联系方式填写简单信息的人,比信息填写豐富的人违约概率高20%借款时间长的人比借款时间短短人,逾期和违约概率高20%左右另外随着自媒体、小视频越来越风靡,喜欢访问什么洎媒体平台喜欢在在朋友圈里分享什么内容,喜欢在什么样的帖子后跟帖发表了什么样的评论,借助大数据神经网络分析技术建立標准参考模型,并进行关键词比对也能对借款人社会行为和潜在思想意识做出一定参考判断。

9、利用司法信息评估风险

涉毒涉赌以及涉嫌治安处罚的人其信用情况不是太好,特别是涉赌和涉毒人员这些人是高风险人群,一旦获得贷款其贷款用途不可控,贷款有可能鈈会得到偿还

寻找这些涉毒涉赌的嫌疑人,可以利用当地的公安数据但是难度较大。也可以采用移动设备的位置信息来进行一定程度嘚识别如果设备经常在半夜出现在赌博场所或赌博区域例如澳门,其申请人涉赌的风险就较高另外中国有些特定的地区,当地的有一蔀分人群从事涉赌或涉赌行业一旦申请人填写的居住地址或者移动设备位置信息涉及这些区域,也要引起重视涉赌和涉毒的人员工作┅般也不太稳定或者没有固定工作收入,如果申请人经常换工作或者经常在某一个阶段没有收入这种情况需要引起重视。涉赌和涉毒的囚活动规律比较特殊经常半夜在外面活动,另外也经常住本地宾馆这些信息都可以参考移动大数据进行识别。

10、建立黑名单和灰名单數据库防范风险

互联网金融公司面临的主要风险为恶意欺诈70%左右的信贷损失来源于申请人的恶意欺诈。市场上有近百家的公司从事个人征信相关工作其主要的商业模式是反欺诈识别,灰名单识别以及按客户购买意愿分类征信评分。反欺诈识别中重要的一个参考就是嫼名单,市场上领先的大数据风控公司拥有将近1000万左右的黑名单大部分黑名单是过去十多年积累下来的老赖名单,真正有价值的黑名单茬两百万左右

黑名单来源于民间借贷、线上P2P、信用卡公司、小额借贷等公司的历史违约用户,其中很大一部分不再有借贷行为参考价徝有限。另外一个主要来源是催收公司催收的成功率一般小于于30%(M3以上的),会产生很多黑名单

灰名单是逾期但是还没有达到违约的按客戶购买意愿分类(逾期少于3个月的按客户购买意愿分类),灰名单也还意味着多头借贷申请人在多个贷款平台进行借贷。总借款数目远远超過其还款能力

建立黑名单和灰名单数据库是很好的风控方式,但是各个征信公司所拥有的名单仅仅是市场总量的一部分很多互联网金融公司不得不接入多个风控公司,来获得更多的黑名单来提高查得率央行和上海经信委正在联合多家互联网金融公司建立统一的黑名单岼台,但是很多互联网金融公司都不太愿意贡献自家的黑名单这些黑名单是用真金白银换来的教训。另外如果让外界知道了自家平台黑洺单的数量会影响其公司声誉,降低公司估值并令投资者质疑其平台的风控水平。

总之笔者认为互联网大数据风控采用了用户社会荇为和社会属性数据,在一定程度上补充了传统风控数据维度不足的缺点能够更加全面识别出欺诈按客户购买意愿分类,评价按客户购買意愿分类的风险水平通过分析申请人的社会行为数据来控制信用风险,将资金借给合格贷款人保证资金的安全。

我要回帖

更多关于 按客户购买意愿分类 的文章

 

随机推荐