深入讲解数据挖掘中的“数据归约技术”-安全管理-zhiding-网络频道-至顶网

ZDNet>网络频道>ZD评测>深入讲解数据挖掘中的“数据归约技术”

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

对于小型或中型数据集，一般的数据预处理步骤已经足够。但对真正大型数据集来讲，在应用数据挖掘技术以前，更可能采取一个中间的、额外的步骤-数据归约。

来源：天新网 2008年03月22日

关键字：Mssql SQL Server SQL 数据库

返回分页阅读

特征归约处理期望达到的效果：

（1）提高模型生成过程和所得模型本身的性能

（2）在不降低模型质量的情况下减少模型维度

（3）帮助用户可视化有更少维数的可能结果，改进决策。

2、主成分分析：

主成分分析是大型数据集归约的一种统计方法。是将以向量样本表示的初始数据集转换为一个新的导出维度的向量样本集，转换的目标是将不同样本中的信息集中在较小的维度中。

一个n维向量样本集X={x1,x2,x3,…,xm}，转换为另一个相同维度的集Y={y1,y2,…,ym}

Y把大部分信息内容存在前几个维中，可以让我们以低信息损失讲数据集减小到较小的维度。

Y=A*X

3、值归约：

特征离散化技术：减少已知特征的离散值数目，将连续型特征的值离散化，使之成为少量的区间，每个区间映射到一个离散符号。这样就简化了数据描述并易于理解数据和最终数据挖掘的结果。

（1）分割点选择

（2）怎样选择区间描述

几种自动离散化技术：

（1）特征离散化

ChiMerge算法：

a.对已知特别数据进行升序排列

b.定义初始区间，使特征的每个值都在一个单独的区间内

c.重复进行直到任何两个相临区间的X2都不小于阈值。

4、案例归约：

初始数据集中最大和最关键的维度数就是案例或样本的数目。在案例规约之前，我们消除了异常点，有时也需要消除有丢失值的样本。取样误差是固有的。

取样方法分类：

（1）普通用途取样

a.系统化取样

b.随机取样：不回放/回放

基本形式有增量取样，平均取样，

c.分层取样

d.逆取样

（2）特殊用途取样

一、数据归约基本知识：

对于小型或中型数据集，一般的数据预处理步骤已经足够。但对真正大型数据集来讲，在应用数据挖掘技术以前，更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约，主要问题是是否可在没有牺牲成果质量的前提下，丢弃这些已准备和预处理的数据，能否在适量的时间和空间里检查已准备的数据和已建立的子集。

对数据的描述，特征的挑选，归约或转换是决定数据挖掘方案质量的最重要问题。在实践中，特征的数量可达到数百，如果我们只需要上百条样本用于分析，就需要进行维归约，以挖掘出可靠的模型；另一方面，高维度引起的数据超负，会使一些数据挖掘算法不实用，唯一的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现：列（特征），行（样本）和特征的值，数据归约过程也就是三个基本操作：删除列，删除行，减少列中的值。

在进行数据挖掘准备时进行标准数据归约操作，我们需要知道从这些操作中我们会得到和失去什么，全面的比较和分析涉及到如下几个方面的参数：

（1）计算时间：较简单的数据，即经过数据归约后的结果，可减少数据挖掘消耗的时间。

（2）预测/描述精度：估量了数据归纳和概括为模型的好坏。

（3）数据挖掘模型的描述：简单的描述通常来自数据归约，这样模型能得到更好理解。

数据归约算法特征：

（1）可测性

（2）可识别性

（3）单调性

（4）一致性

（5）收益增减

（6）中断性

（7）优先权