Python金融数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

4.1.1 决策树

假如我买了一个西瓜,它的特点是纹理清晰、根蒂硬挺,需要你来判断一下这个瓜是好瓜还是坏瓜,这就构建了一个决策树。

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树适用于离散变量,回归树适用于连续变量。具体原理在第10章中详细阐述,这里不再赘述。

决策树优点:

·速度快;

·挖掘出来的分类规则准确性高,便于理解,且可以清晰地显示哪些字段比较重要,即可以生成理解的规则;

·不需要任何领域知识和参数假设;

·适合高维数据。

决策树缺点:

·容易过拟合;

·容易忽略属性之间的相关性。