用户名*
邮箱*
密码*
确认密码*
验证码* 点击图片更换验证码
找回密码
忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。
这样最容易理论证明,做inference和learning容易,但不一定对。
文本里的词不独立,词与词、句子与句子相互关联,最弱的假设也该是每个词关联前后几个词。用bag-of-words这种独立同分布假设最简单,但本质上不对。以前的LDA这么做,但是现在NLP模型都是不独立的吧。语音识别更是不独立。
记得是有的不同分布,具体例子我想不起来了(好像MDP、HMM可以不同分布吧)
谢邀。
机器学习并不总是要求数据同分布。在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使用同分布假设能够使得这个做法解释得通。
由于现在的机器学习方向的内容已经变得比较广,存在不少机器学习问题并不要求样本同分布,比如一些发表在机器学习方向上的online算法就对数据分布没啥要求,关心的性质也非泛化性。
因为一般来说,这是事实。
这是统计机器学习的前提,你看看PAC Learning和其他一些理论性推到出来的新算法,都默认这个前提,然后建模,解不等式凸优化。目前用起来效果还不错,可能真实世界就是独立同分布的。
才疏学浅,纯属个人观点,轻喷。
这一点说明我们用来训练的样本点具有较好的总体代表性。
为什么要有总体代表性?我们要从已有的数据(经验) 中总结出规律来对未知数据做决策,如果
获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这
些规律是由个例推算的,不具有推广的效果。
通过独立同分布的假设,就可以大大减小训练样本中个例的情形。
昵称*
E-Mail*
回复内容*
回复 ( 5 )
这样最容易理论证明,做inference和learning容易,但不一定对。
文本里的词不独立,词与词、句子与句子相互关联,最弱的假设也该是每个词关联前后几个词。用bag-of-words这种独立同分布假设最简单,但本质上不对。以前的LDA这么做,但是现在NLP模型都是不独立的吧。语音识别更是不独立。
记得是有的不同分布,具体例子我想不起来了(好像MDP、HMM可以不同分布吧)
谢邀。
机器学习并不总是要求数据同分布。在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使用同分布假设能够使得这个做法解释得通。
由于现在的机器学习方向的内容已经变得比较广,存在不少机器学习问题并不要求样本同分布,比如一些发表在机器学习方向上的online算法就对数据分布没啥要求,关心的性质也非泛化性。
因为一般来说,这是事实。
这是统计机器学习的前提,你看看PAC Learning和其他一些理论性推到出来的新算法,都默认这个前提,然后建模,解不等式凸优化。目前用起来效果还不错,可能真实世界就是独立同分布的。
才疏学浅,纯属个人观点,轻喷。
这一点说明我们用来训练的样本点具有较好的总体代表性。
为什么要有总体代表性?我们要从已有的数据(经验) 中总结出规律来对未知数据做决策,如果
获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这
些规律是由个例推算的,不具有推广的效果。
通过独立同分布的假设,就可以大大减小训练样本中个例的情形。