发布网友 发布时间:2024-09-06 07:45
共1个回答
热心网友 时间:2024-09-08 23:04
机器学习之树模型全总结在工作中重新接触树算法,如xgboost,为了系统复习基础算法,我将逐步记录关于决策树的内容,包括GBDT和xgboost,从基本的决策树开始。文章将逐步涵盖所有树模型的细节。
决策树由内部节点(属性)和叶节点(类别)构成,其目标是通过划分数据集形成规则,寻找能较好拟合且泛化能力强的树。构建过程中,通过启发式算法寻找近似最优解,通过递归选择最优特征分割数据,直到达到停止条件。
特征选择是关键,常见的有信息增益(基于信息熵和条件熵)、信息增益比(解决信息增益偏向取值多的特征)和Gini系数(用于Cart树)。这些方法衡量特征对信息不确定性的减少。
信息增益通过计算特征划分后的不确定性减少来评估特征重要性。信息增益比则考虑了特征取值分布对不确定性的影响。
Gini系数用于衡量节点纯度,对Cart树的分类回归树有特定应用。
包括ID3(信息增益),C4.5(信息增益比),以及Cart树(可做分类和回归)的生成步骤和特点。
为避免过拟合,通过剪枝降低决策树复杂度,如通过损失函数平衡模型复杂度和预测误差,通过递归剪枝和交叉验证选择最优子树。
Cart树剪枝涉及逐步剪枝过程,通过调整参数优化子树,并通过交叉验证确定最佳子树结构。