MachineLearning

南瓜书：https://datawhalechina.github.io/pumpkin-book/#/chapter4/chapter4

决策树

策略：分而治之

三种停止条件：

熵：表示随机变量不确定性的度量

假定当前样本集合中第类样本所占比例为，样本类别总数为则的信息熵定义为：

的值越小，则的纯度越高

我们通过信息增益确定分类的好坏，定义为中在属性上取值的样本集合：

但是信息增益有很大的缺点：对可取值数目较多的属性有所偏好，比如将“编号”作为一个属性，因此引出增益率的概念。

如何折中属性取值与信息增益？先从候选划分属性中找出信息增益高于平均水平的，再从中选出增益率最高的。

当然除了信息增益率，也有基于其他思想的划分方法，比如基于基尼指数。但是根据研究表明，划分选择的各种准则对泛化性能的影响很有限。对泛化效果影响更显著的反而是剪枝方法和程度。

为什么？剪枝的本质是对付过拟合。

剪枝有两种策略：

https://www.bilibili.com/video/BV1gG411f7zX?t=353.8&p=28

MachineLearning

https://d4wnnn.github.io/2023/11/18/AI/MachineLearning/

作者

D4wn

发布于

2023年11月18日

许可协议