优点

缺点

准确率更高、能够有效地处理大型数据库,特征很多的数据表现良好。它可以快速有效地管理数千个输入变量。提供关于重要且不在“分类”中的变量的信息。提供估计不完整数据的技术。处理丢失的细节而不失准确性。可以判断出不同特征之间的相互影响,训练速度快容易做成并行方法。对于不平衡数据集,可以平衡误差。

发现的主要问题之一是过度拟合单个数据集,特别是在回归任务中。随机森林在多维度处理多值和多值属性方面存在困难。他们更喜欢多层次分类变量,对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响。