科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网网络频道深入讲解数据挖掘中的“数据归约技术”

深入讲解数据挖掘中的“数据归约技术”

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。

作者:赛迪网 Alizze 来源:天新网 2008年3月22日

关键字: Mssql 数据库 SQL SQL Server

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

特征归约处理期望达到的效果:

(1)提高模型生成过程和所得模型本身的性能

(2)在不降低模型质量的情况下减少模型维度

(3)帮助用户可视化有更少维数的可能结果,改进决策。

2、主成分分析:

主成分分析是大型数据集归约的一种统计方法。是将以向量样本表示的初始数据集转换为一个新的导出维度的向量样本集,转换的目标是将不同样本中的信息集中在较小的维度中。

一个n维向量样本集X={x1,x2,x3,…,xm},转换为另一个相同维度的集Y={y1,y2,…,ym}

Y把大部分信息内容存在前几个维中,可以让我们以低信息损失讲数据集减小到较小的维度。

Y=A*X

3、值归约:

特征离散化技术:减少已知特征的离散值数目,将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这样就简化了数据描述并易于理解数据和最终数据挖掘的结果。

(1)分割点选择

(2)怎样选择区间描述

几种自动离散化技术:

(1)特征离散化

ChiMerge算法:

a.对已知特别数据进行升序排列

b.定义初始区间,使特征的每个值都在一个单独的区间内

c.重复进行直到任何两个相临区间的X2都不小于阈值。

4、案例归约:

初始数据集中最大和最关键的维度数就是案例或样本的数目。在案例规约之前,我们消除了异常点,有时也需要消除有丢失值的样本。取样误差是固有的。

取样方法分类:

(1)普通用途取样

a.系统化取样

b.随机取样:不回放/回放

基本形式有增量取样,平均取样,

c.分层取样

d.逆取样

(2)特殊用途取样

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章