随机森林如何决定每棵树的权重?

理由

举报取消

随进森林

2017年8月21日 1 条回复 1117 次浏览

人工智能,学习,数据挖掘,机器

回复 ( 1 )

董老二初入职场
0
举报回复
理由

举报取消

来自百度百科

释义编辑

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 “Random Forests” 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 “Bootstrap aggregating” 想法和 Ho 的”random subspace method”以建造决策树的集合.

学习算法编辑

根据下列算法而建造每棵树：

1. 用 N 来表示训练例子的个数，M表示变量的数目。

2. 我们会被告知一个数 m ，被用来决定当在一个节点上做决定时，会使用到多少个变量。m应小于M

3. 从N个训练案例中以可重复取样的方式，取样N次，形成一组训练集（即bootstrap取样）。并使用这棵树来对剩余预测其类别，并评估其误差。

4. 对于每一个节点，随机选择m个基于此点上的变量。根据这 m 个变量，计算其最佳的分割方式。

5. 每棵树都会完整成长而不会剪枝（Pruning）（这有可能在建完一棵正常树状分类器后会被采用）。

优点编辑

随机森林的优点有：

1. 对于很多种资料，它可以产生高准确度的分类器。

2. 它可以处理大量的输入变量。

3. 它可以在决定类别时，评估变量的重要性。

4. 在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计。

5. 它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。

6. 它提供一个实验方法，可以去侦测 variable interactions 。

7. 对于不平衡的分类资料集来说，它可以平衡误差。

8. 它计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。

9. 使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。

10. 学习过程是很快速的。

优点

1，随机森林不会产生过拟合问题。

找回密码

随机森林如何决定每棵树的权重?

发起人：白鹏 初入职场

回复 ( 1 )

我来回答

帐户注册

登录

找回密码

随机森林如何决定每棵树的权重?

发起人：白鹏 初入职场

回复 ( 1 )

我来回答

发起人：白鹏初入职场