加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 1.信息增益是什么意思
    • 2.信息增益计算公式
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

信息增益

2022/12/13
7175
阅读需 4 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

信息增益是信息熵理论中的一个重要概念。在决策树算法中,通过计算不同特征对于样本分类的贡献程度,来确定哪些特征可以被选择用于构建决策树。具体来说,信息增益表示某个特征在得知它的取值后,可以让样本集合的信息熵下降的程度。

1.信息增益是什么意思

信息增益是衡量使用某个特征划分数据集所能获得的收益大小。在决策树算法的训练过程中,通常从根节点开始,递归地选取当前节点分支出去的最优特征,以此构建一棵子树。进行特征选择时,通常会计算每个候选特征的信息增益,选取其中信息增益最大的特征作为当前节点的分裂标准。

2.信息增益计算公式

信息增益的计算涉及到熵的概念,熵可以度量样本集合的不确定性程度。假设$D$表示总的样本集合,$C_k$表示样本集合的第$k$个类别,$D_k$表示属于类别$C_k$的样本子集,$p_k=|D_k|/|D|$ 表示样本属于类别$C_k$的概率,则总体熵可以表示为:

$$Ent(D)=-sum_{k=1}^{|y|}p_klog_2p_k$$

在当前节点分裂后,样本会被划分到不同的子节点中,设一个特征属性$A$有$V$个可能取值${a_1,a_2,dots,a_V}$,令$D^v$表示划分后落入属性$A$第$v$个取值的子集合,则使用该特征划分数据的信息增益可以表示为:

$$Gain(D,A)=Ent(D)-sum_{v=1}^V frac{|D^v|}{|D|} Ent(D^v)$$

其中的权重$frac{|D^v|}{|D|}$表示第$v$个属性值对应的样本占总样本数的比例,$Ent(D^v)$表示子集中的样本的信息熵。

相关推荐

电子产业图谱