点击率预估问题中如何去验证数据的分布是不是在变化的?

理由
举报 取消

现在样本数据流是按时间顺序存储的,我如果想分析训练数据是不是在变化(即存在概念漂移的),除了直接用在线学习的方式上线看效果外,有没有其它的指标可以看出来?

2017年12月20日 4 条回复 1347 次浏览

发起人:屈伟 管理大师

红麦软件创始人 / 程序员 / 大数据

回复 ( 4 )

  1. li Eta
    理由
    举报 取消

    列举两种可以采用的方式

    1. 总结出一个统计量(比如最常见的均值、方差等),当这些统计量发生重大变化(需要自己卡个阈值),可以认为数据分布发生变化。

    2. 假设你有两个时间段的数据按照时间先后排序是:A B C。那么用A数据训练得到预测器(分类或回归)在B和C上的测试误差有重大区别时,可以认为B和C这段时间中数据分布发生变化。

    顺便提一句,online learning的算法其实允许数据分布发生变化(不影响理论性质,但对具体业务会有影响)。

  2. 朱文彬
    理由
    举报 取消

    加一个时间特征,比如1970到展示时间的星期数,看与该特征相关的模型参数的变化。

  3. 陈逸波
    理由
    举报 取消

    可以参考稳定性指标 PSI

  4. 刘作涛
    理由
    举报 取消

    把训练集按时间段切开,找到统计充分的特征组合,看下同样的特征组合在不同时间段的统计量变化

我来回答

Captcha 点击图片更换验证码