上QQ阅读APP看书,第一时间看更新
4.1.1 决策树
假如我买了一个西瓜,它的特点是纹理清晰、根蒂硬挺,需要你来判断一下这个瓜是好瓜还是坏瓜,这就构建了一个决策树。
决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树适用于离散变量,回归树适用于连续变量。具体原理在第10章中详细阐述,这里不再赘述。
决策树优点:
·速度快;
·挖掘出来的分类规则准确性高,便于理解,且可以清晰地显示哪些字段比较重要,即可以生成理解的规则;
·不需要任何领域知识和参数假设;
·适合高维数据。
决策树缺点:
·容易过拟合;
·容易忽略属性之间的相关性。