如何获得足够多正负样本进行大数据征信? 举报 理由 举报 取消 有个问题不太理解,大多数人都在说大数据征信如何提取特征可以提升预测能力,但是实际的业务问题是,在互联网上,没有信用卡的人很多(比如学生),没有在平台上借贷过的人也很多(比如二三线的用户),如何获得足够多带有正负label的样本来进行机器学习呢?如何进行实际业务的冷启动呢? 2017年8月26日 5 条回复 955 次浏览 学习,征信,数据,机器,系统
回复 ( 5 )
先回答你的第一个问题
我算是比较早接受互联网的人,但是我也没有使用信用卡,而据我拿到的数据,即便是人行的征信系统目前也只覆盖3亿人,这意味着这个征信系统还有十多亿人口没有覆盖。那有如此多的人没有在征信系统留下痕迹如何来做征信呢?
这个时候基本上只能借助第三方的数据,比如说,运营商,你可以没有信用卡,但是手机你应该有吧,如果手机你都没有,估计你也不会涉及到贷款和个人征信的问题了。
运营商的数据可以涉及到哪些呢?除了通话时长、消费情况、欠费情况,其实地理信息这些也包括的,甚至出行数据这些都有。所以,运营商的数据是比较客观的一个参考值,此外,一些大型集团的数据(如BAT)等等的数据也是非常好的数据资源方。
第二个问题,是不是可以理解为这么去判断是否可以借贷。其实,你借贷的时候你需要授权给金融部门来调查你的信用情况,这个时候,居于你的各种数据特征,就可以大致判定你的这个人的征信情况啦。如果你负面信息太多,而金融机构又觉得你是个不错的客户,在这种情况下,线下调查就派上用场。
关注大数据,欢迎加我微信:idacker
所以这年头最值钱的就是标注数据啊,谁有大量标注数据谁就牛逼。如果没有,要么花钱买,要么用间接的数据去拟合,要么想办法让利给用户获取标注数据,要么直接花钱请人标。
蟹邀
实际业务中,对于没有信用记录,如学生、二三线信用白户人群,需要采集更多维度的数据再加以清洗、分析。
1. 验证类数据,这一块主要是搜集用户的基本信息来进行比对验证,从而达到反欺诈的效果。例如身份实名、身份证照片验证、银行卡验证、手机号实名验证等。
2. 行为类数据,通过用户的授权,去在线实时采集用户的行为数据。如运营商(通话详单数据)、电商(网上购物行为数据收货信息)、社保公积金数据、学信网数据等等。
3. 黑名单验证、多头负债查询
采集足够的数据后,在实际业务就可以更好的去设定、优化风控规则,甚至可以基于采集数据进行建模分析,建立纯线上的风控决策审批系统。
大家普遍关注点集中在资产形成前的数据用于征信。但我更关注资产形成过程的数据。大家都在说优质资产慌。看看每年新增的资产数据,资产怎么可能慌。关键是很多资产无形成过程数据链无法评估
说个逻辑吧,记得有位数模跟我说过,将已有用户进行分类,再把您说的此类用户去用各种各样的变量拟合归类到已有数据的用户,给予他们评分。