数据挖掘中的强化学习模式,中国的哪些公司在用?

理由
举报 取消

强化学习:在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的强化学习算法有时间差学习。问题如标题?

2017年8月14日 4 条回复 1359 次浏览

回复 ( 4 )

  1. 数据哥
    理由
    举报 取消

    谢邀!

    没有机会接触到大公司,我接触到的一些创业公司目前都有做强化学习模式,这类应用我觉得比较普遍的是做风控、征信和量化的公司,因为实时数据在这三方面的作用非常强!

    举个简单的例子,apple的股价用量化投资来看,未来一周的时间都是稳赚的,但是,如果今天突然爆出库克马上离职,而接班人的口碑并不好,那明天他的股价基本上应声大跌。而量化模型捕捉到这一信息以及用户们的反馈后,模型肯定会做出相应的调整。风控也差不多,实时数据的影响非常重要。

    如果你非要列举几个公司,数联铭品、迈宁数据、通联数据、百分点等等这些公司应该都有吧!

    关注大数据,欢迎加我微信:idacker

  2. 郑益龙
    理由
    举报 取消

    现在不仅仅是bat在用这些,online learning现在很多公司都已经在尝试了,新浪,美团,滴滴等等,只要需要实时性强的业务,都是需要有的,就好比美团上买了哪家的美食,基本会在短时间就会在这个商家地址附近消费了,那肯定是需要在当前时间段内做出推荐,一般user吃完饭,找附近的看电影,KTV什么。

    难点不是模型,主要还是防作弊,不能让模型被作弊引导参数变化很大。

  3. Accepted
    理由
    举报 取消

    强化学习,研一的时候由接触过一段时间。不过我要说的是在线学习online learning。

    online learning和强化学习有相似之处:根据反馈实时/近似实时做出反应。

    在广告ctr预估问题中,当有新的数据到达并积累到一定程度,比如收集到最近一个小时的数据之后,马上送给model进行训练,model就能学到一些新的feature与label的关系,从而在做ctr预估的时候能更准的把当前阶段用户可能点击的广告展示出来。

    对于推荐系统,同样适用。

    据我有限的了解,百度广告,阿里巴巴推荐,都已经上线。

  4. comcomcom
    理由
    举报 取消

    谢邀!其实我也不懂。。。

我来回答

Captcha 点击图片更换验证码