发起人:白鹏 初入职场

个人才智是脆弱的,历史偏爱另外的人

回复 ( 1 )

  1. 董老二
    理由
    举报 取消

    来自百度百科

    释义编辑

    在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 “Random Forests” 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 “Bootstrap aggregating” 想法和 Ho 的”random subspace method”以建造决策树的集合.

    学习算法编辑

    根据下列算法而建造每棵树:

    1. 用 N 来表示训练例子的个数,M表示变量的数目。

    2. 我们会被告知一个数 m ,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M

    3. 从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其误差。

    4. 对于每一个节点,随机选择m个基于此点上的变量。根据这 m 个变量,计算其最佳的分割方式。

    5. 每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。

    优点编辑

    随机森林的优点有:

    1. 对于很多种资料,它可以产生高准确度的分类器。

    2. 它可以处理大量的输入变量。

    3. 它可以在决定类别时,评估变量的重要性。

    4. 在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。

    5. 它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。

    6. 它提供一个实验方法,可以去侦测 variable interactions 。

    7. 对于不平衡的分类资料集来说,它可以平衡误差。

    8. 它计算各例中的亲近度,对于数据挖掘、侦测偏离者(outlier)和将资料视觉化非常有用。

    9. 使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。

    10. 学习过程是很快速的。

    优点

    1,随机森林不会产生过拟合问题。

我来回答

Captcha 点击图片更换验证码