信息增益是信息熵理论中的一个重要概念。在决策树算法中,通过计算不同特征对于样本分类的贡献程度,来确定哪些特征可以被选择用于构建决策树。具体来说,信息增益表示某个特征在得知它的取值后,可以让样本集合的信息熵下降的程度。
1.信息增益是什么意思
信息增益是衡量使用某个特征划分数据集所能获得的收益大小。在决策树算法的训练过程中,通常从根节点开始,递归地选取当前节点分支出去的最优特征,以此构建一棵子树。进行特征选择时,通常会计算每个候选特征的信息增益,选取其中信息增益最大的特征作为当前节点的分裂标准。
2.信息增益计算公式
信息增益的计算涉及到熵的概念,熵可以度量样本集合的不确定性程度。假设$D$表示总的样本集合,$C_k$表示样本集合的第$k$个类别,$D_k$表示属于类别$C_k$的样本子集,$p_k=|D_k|/|D|$ 表示样本属于类别$C_k$的概率,则总体熵可以表示为:
$$Ent(D)=-sum_{k=1}^{|y|}p_klog_2p_k$$
在当前节点分裂后,样本会被划分到不同的子节点中,设一个特征属性$A$有$V$个可能取值${a_1,a_2,dots,a_V}$,令$D^v$表示划分后落入属性$A$第$v$个取值的子集合,则使用该特征划分数据的信息增益可以表示为:
$$Gain(D,A)=Ent(D)-sum_{v=1}^V frac{|D^v|}{|D|} Ent(D^v)$$
其中的权重$frac{|D^v|}{|D|}$表示第$v$个属性值对应的样本占总样本数的比例,$Ent(D^v)$表示子集中的样本的信息熵。