什么是信息增益,信息增益的知识介绍

信息增益是信息熵理论中的一个重要概念。在决策树算法中，通过计算不同特征对于样本分类的贡献程度，来确定哪些特征可以被选择用于构建决策树。具体来说，信息增益表示某个特征在得知它的取值后，可以让样本集合的信息熵下降的程度。

1.信息增益是什么意思

信息增益是衡量使用某个特征划分数据集所能获得的收益大小。在决策树算法的训练过程中，通常从根节点开始，递归地选取当前节点分支出去的最优特征，以此构建一棵子树。进行特征选择时，通常会计算每个候选特征的信息增益，选取其中信息增益最大的特征作为当前节点的分裂标准。

信息增益的计算涉及到熵的概念，熵可以度量样本集合的不确定性程度。假设$D$表示总的样本集合，$C_k$表示样本集合的第$k$个类别，$D_k$表示属于类别$C_k$的样本子集，$p_k=|D_k|/|D|$ 表示样本属于类别$C_k$的概率，则总体熵可以表示为：

$$Ent(D)=-sum_{k=1}^{|y|}p_klog_2p_k$$

在当前节点分裂后，样本会被划分到不同的子节点中，设一个特征属性$A$有$V$个可能取值${a_1,a_2,dots,a_V}$，令$D^v$表示划分后落入属性$A$第$v$个取值的子集合，则使用该特征划分数据的信息增益可以表示为：

$$Gain(D,A)=Ent(D)-sum_{v=1}^V frac{|D^v|}{|D|} Ent(D^v)$$

其中的权重$frac{|D^v|}{|D|}$表示第$v$个属性值对应的样本占总样本数的比例，$Ent(D^v)$表示子集中的样本的信息熵。