媒体报道

首页-万事娱乐-万事平台【万事注册登陆】

2022-12-28 11:19:28 heminbo888 8

首页-万事娱乐-万事平台【万事注册登陆】报道,在上一篇文章中,我们用kaggle的数据集来做了一篇评分卡教程。


当然,实际风控中如果有这么简单,那我就得失业了。这一篇来讲讲实际风控产品化的路上,我们还会遇到哪些挑战,作为数据科学家(也有的公司叫算法工程师),我们是如何解决这些问题的。

虽然本文篇幅6000多字,依然未能详尽的讲述在实际风控产品中的挑战。那本文就当抛砖引玉吧。本文仅讲到“数据科学”部分的挑战,至于”数据工程“方面的挑战,例如建数据仓库,ETL,上云等等的这些,本文就先展示不讲了。也欢迎各位搞风控的大大在评论区讲讲你们在风控过程中遇到的挑战。文章有点长,如果在手机看到,可以先点赞收藏标记着,回头再读。

0.挑战在于算法之外

每次别人问我算法工程师的工作内容是什么,是不是天天写模型,调参数,我都喜欢发这个图过去。图来自论文Hidden Technical Debt in Machine Learning Systems

万事娱乐,万事平台,万事娱乐平台


首页-万事娱乐-万事平台【万事注册登陆】当然,这里面有一部分并不需要我来做,例如Serving Infrastruture,运维会帮我弄好。作为一个风控领域的数据科学家,说实话,写机器学习代码的时间占用我日常工作时间不到十分之一吧。我的工作需要面对算法之外的挑战。如果你是风控领域有一段时间工作经验的人,你一定会觉得我下面要说的内容已经熟悉了。如果你是小白,想面试风控算法岗位,那如果你能参透本文,理解这些挑战,并且讲给面试官听,他一定会对你刮目相看的。

1.定义目标变量(good/bad)

如果你不熟悉风控,你也许不会想到,虽然目标变量只有good和bad两种,但定义目标变量的过程竟然如此复杂,以至于这个问题我需要花一两千字来讲解。

在上一篇文章里用到的数据里,两年内逾期超过90天定义为bad,否则都为good。但你有没想过,这个目标是如何定出来的呢?虽然Kaggle的数据集和实际生产环境的不一样,但也不是随便给的。如果你认真观察,这个label的定义是由两个因素决定的:



你也许会想,那么这两个数字是如何决定的呢?为啥还要这么麻烦,直接逾期第一天就去催收不行吗?在实际业务中,既要保证坏账最小化,也要保证催收的体验,你总不能人家到期第一天忘了还10块钱的账单就派人上门催收吧?客户都给你赶跑了。

万事娱乐,万事平台,万事娱乐平台


1.1 逾期天数-迁徙率(Flow Rate)分析

在Reference[1]有个博主写的不错,但他的做法是先设置观察期,再看表现。而我的做法不一样,我的做法是只看每个月的的账户在下个月的表现。

我们这里先定义两个概念:

  • 时间窗口。每个时间窗口由一个月和下一个月的数据构成。例如我拿一年的数据,例如2019年,就有11个观察窗口(1-2月,2-3月....11-12月)。

  • 逾期期数。每个期数由30天组成(有的银行或者金融机构由自然月组成,会更加方便计算)。较多的金融机构会用Mn来形容逾期情况,例如



平台注册
平台登录
平台注册