• 即将更新图形学,编译原理,机器学习等文章,谢谢关注~
  • 由于算法限制,搜索时注意简化关键字,谢谢支持~
  • 网站不兼容IE5.0及以下,请使用主流浏览器访问.
  • 特征离散化概述

    定义

    连续特征离散化是采取各种方法将连续的区间划分为小的区间,并将这连续的小区间与离散值关联起来。连续特征离散化的本质是:决定选择多少个分割点和确定分割点的位置。

    背景

    连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程,比如在LR模型,由于是广义线性模型表达能力有限,因此通过特征离散化来了提高非线性学习能力

    步骤

    • 1.对连续特征值按照某种指定的规则进行排序
    • 2.初步确定连续属性的划分断点
    • 3.按照某种给定的判断标准继续分割断点或合并断点
    • 4.如果第三步得到判断标准的终止条件,则终止整个连续特征离散化的过程,否则继续 按第三步执行

    主要方法

    等距离散

    取值范围均匀划成n等份,每份的间距相等

    等频离散

    均匀分为n等份,每份内包含的观察点数相同

    优化离散

    大致有两类方法:
    1. 卡方检验方法:(统计样本的实际观测值与理论推断值之间的偏离程度,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合)
    – 分裂方法:找到一个分裂点看,左右2个区间,在目标值上分布是否有- 显著差异,有显著差异就分裂,否则就忽略。这个点可以每次找差异最大的点
    – 合并方法:先划分如果很小单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛
    2. 信息增益方法:
    – 分裂方法:找到一个分裂点看,左右2个区间,看分裂前后信息增益变化阈值,如果差值超过阈值(正值,分列前-分裂后信息熵),则分裂。每次找差值最大的点做分裂点,直到收敛
    – 合并方法:先划分 如果很小单元区间,按顺序合并信息增益小于阈值的相邻区间,直到收敛

    优点

    • 1. 易于模型的快速迭代
    • 2.稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展
    • 3.离散化后的特征对异常数据有很强的鲁棒性
    • 4 提升了逻辑回归模型的表达能力,加大拟合
    • 5.模型更稳定
    • 6.简化逻辑回归模型,降低其过拟合风险 没有任何离散化算法可以适用于任何环境下,在实际应用时需要根据数据集的特点和学 习环境等选择合适的离散化方法, 而关联规则分析中的离散化既需要考虑各特征间的内在联 系,又需要考虑在没有类信息的情况下对数据集进行有效的离散化

    参考

    https://wenku.baidu.com/view/a6cffadd5122aaea998fcc22bcd126fff7055dd1.html

    https://blog.csdn.net/evillist/article/details/77962435

    读者评分
    [评分人数: 1 平均分: 5]

    评论

    OmegaXYZ