为什么机器学习中, 要假设我们的数据是独立同分布的?

理由

举报取消

2017年5月24日 5 条回复 1108 次浏览

学习,数据挖掘,机器

回复 ( 5 )

SS Wang 初入职场
0
举报回复
理由

举报取消

这样最容易理论证明，做inference和learning容易，但不一定对。

文本里的词不独立，词与词、句子与句子相互关联，最弱的假设也该是每个词关联前后几个词。用bag-of-words这种独立同分布假设最简单，但本质上不对。以前的LDA这么做，但是现在NLP模型都是不独立的吧。语音识别更是不独立。

记得是有的不同分布，具体例子我想不起来了（好像MDP、HMM可以不同分布吧）
li Eta 初入职场
0
举报回复
理由

举报取消

谢邀。

机器学习并不总是要求数据同分布。在不少问题中要求样本（数据）采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集，使用同分布假设能够使得这个做法解释得通。

由于现在的机器学习方向的内容已经变得比较广，存在不少机器学习问题并不要求样本同分布，比如一些发表在机器学习方向上的online算法就对数据分布没啥要求，关心的性质也非泛化性。
高华佐初入职场
0
举报回复
理由

举报取消

因为一般来说，这是事实。
CounterfeitTP 初入职场
0
举报回复
理由

举报取消

这是统计机器学习的前提，你看看PAC Learning和其他一些理论性推到出来的新算法，都默认这个前提，然后建模，解不等式凸优化。目前用起来效果还不错，可能真实世界就是独立同分布的。

才疏学浅，纯属个人观点，轻喷。
黑尘子初入职场
0
举报回复
理由

举报取消

这一点说明我们用来训练的样本点具有较好的总体代表性。

为什么要有总体代表性？我们要从已有的数据（经验）中总结出规律来对未知数据做决策，如果

获取训练数据是不具有总体代表性的，就是特例的情况，那规律就会总结得不好或是错误，因为这

些规律是由个例推算的，不具有推广的效果。

通过独立同分布的假设，就可以大大减小训练样本中个例的情形。

找回密码

为什么机器学习中, 要假设我们的数据是独立同分布的?

发起人：face-it 初入职场

回复 ( 5 )

我来回答

帐户注册

登录

找回密码

为什么机器学习中, 要假设我们的数据是独立同分布的?

发起人：face-it 初入职场

回复 ( 5 )

我来回答