数据挖掘中的强化学习模式,中国的哪些公司在用? 举报 理由 举报 取消 强化学习:在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的强化学习算法有时间差学习。问题如标题? 2017年8月14日 4 条回复 1359 次浏览 学习,数据挖掘,机器
回复 ( 4 )
谢邀!
没有机会接触到大公司,我接触到的一些创业公司目前都有做强化学习模式,这类应用我觉得比较普遍的是做风控、征信和量化的公司,因为实时数据在这三方面的作用非常强!
举个简单的例子,apple的股价用量化投资来看,未来一周的时间都是稳赚的,但是,如果今天突然爆出库克马上离职,而接班人的口碑并不好,那明天他的股价基本上应声大跌。而量化模型捕捉到这一信息以及用户们的反馈后,模型肯定会做出相应的调整。风控也差不多,实时数据的影响非常重要。
如果你非要列举几个公司,数联铭品、迈宁数据、通联数据、百分点等等这些公司应该都有吧!
关注大数据,欢迎加我微信:idacker
现在不仅仅是bat在用这些,online learning现在很多公司都已经在尝试了,新浪,美团,滴滴等等,只要需要实时性强的业务,都是需要有的,就好比美团上买了哪家的美食,基本会在短时间就会在这个商家地址附近消费了,那肯定是需要在当前时间段内做出推荐,一般user吃完饭,找附近的看电影,KTV什么。
难点不是模型,主要还是防作弊,不能让模型被作弊引导参数变化很大。
强化学习,研一的时候由接触过一段时间。不过我要说的是在线学习online learning。
online learning和强化学习有相似之处:根据反馈实时/近似实时做出反应。
在广告ctr预估问题中,当有新的数据到达并积累到一定程度,比如收集到最近一个小时的数据之后,马上送给model进行训练,model就能学到一些新的feature与label的关系,从而在做ctr预估的时候能更准的把当前阶段用户可能点击的广告展示出来。
对于推荐系统,同样适用。
据我有限的了解,百度广告,阿里巴巴推荐,都已经上线。
谢邀!其实我也不懂。。。