数据挖掘中的强化学习模式，中国的哪些公司在用？

理由

举报取消

强化学习：在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的强化学习算法有时间差学习。问题如标题？

2017年8月14日 4 条回复 1478 次浏览

学习,数据挖掘,机器

回复 ( 4 )

数据哥初入职场
0
举报回复
理由

举报取消

谢邀！

没有机会接触到大公司，我接触到的一些创业公司目前都有做强化学习模式，这类应用我觉得比较普遍的是做风控、征信和量化的公司，因为实时数据在这三方面的作用非常强！

举个简单的例子，apple的股价用量化投资来看，未来一周的时间都是稳赚的，但是，如果今天突然爆出库克马上离职，而接班人的口碑并不好，那明天他的股价基本上应声大跌。而量化模型捕捉到这一信息以及用户们的反馈后，模型肯定会做出相应的调整。风控也差不多，实时数据的影响非常重要。

如果你非要列举几个公司，数联铭品、迈宁数据、通联数据、百分点等等这些公司应该都有吧！

关注大数据，欢迎加我微信：idacker
郑益龙初入职场
0
举报回复
理由

举报取消

现在不仅仅是bat在用这些，online learning现在很多公司都已经在尝试了，新浪，美团，滴滴等等，只要需要实时性强的业务，都是需要有的，就好比美团上买了哪家的美食，基本会在短时间就会在这个商家地址附近消费了，那肯定是需要在当前时间段内做出推荐，一般user吃完饭，找附近的看电影，KTV什么。

难点不是模型，主要还是防作弊，不能让模型被作弊引导参数变化很大。
Accepted 初入职场
0
举报回复
理由

举报取消

强化学习，研一的时候由接触过一段时间。不过我要说的是在线学习online learning。

online learning和强化学习有相似之处：根据反馈实时/近似实时做出反应。

在广告ctr预估问题中，当有新的数据到达并积累到一定程度，比如收集到最近一个小时的数据之后，马上送给model进行训练，model就能学到一些新的feature与label的关系，从而在做ctr预估的时候能更准的把当前阶段用户可能点击的广告展示出来。

对于推荐系统，同样适用。

据我有限的了解，百度广告，阿里巴巴推荐，都已经上线。
comcomcom 管理大师
0
举报回复
理由

举报取消

谢邀！其实我也不懂。。。

找回密码

数据挖掘中的强化学习模式，中国的哪些公司在用？

发起人：phantom-yh 初入职场

回复 ( 4 )

我来回答

帐户注册

登录

找回密码

数据挖掘中的强化学习模式，中国的哪些公司在用？

发起人：phantom-yh 初入职场

回复 ( 4 )

我来回答