R语言数据挖掘实战系列(4)

异常值处理方法方法描述删除含有异常值的记录直接将含有异常值的记录删除视为缺失值将异常值视为缺失值,利用缺失值处理的方法进行处理平均值修正可用前后两个观测值的平均值修正该异常值不处理直接在具有异常值的数据集上进行挖掘建模

,,,,很多情况下,要先分析异常值出现的可能原因,再判断异常值是否应该舍弃,如果是正确的数据,可以直接在具有异常值的数据集上进行挖掘建模。

二、数据集成

,,, 数据集成就是将多个数据源合并存放在一个一致的数据存储中的过程。

在R中,数据集成是指将存储在两个数据框中的数据以关键字为依据,以行为单位做列向合并,可通过函数merge()实现,基本形式为merge(数据框1,数据框2,by='关键字'),合并后的新数据自动按关键字取值的大小升序排列。

  1. 实体识别

    实体识别是从不同数据源识别出现实世界的实体,任务是统一不同数据源的矛盾之处,如同名异义、异名同义、单位不统一

  2. 冗余属性识别

    数据集成往往造成数据冗余,如同一属性多次出现、同一属性命名不一致,导致重复。

有些冗余属性可以用相关分析检测。给定两个数值型的属性A和B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含另一个属性。

三、数据变换

数据变换主要是对数据进行规范化处理,连续变量的离散化以及变量属性的构造,将数据转换成“适当的”形式,以满足挖掘任务及算法的需要。

  1. 简单函数变换

    简单函数变换就是对原始数据进行某些数学函数变换,如平方、开方、取对数、差分运算等。简单的函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据。

  2. 规范化

    为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。

    数据规范化对于基于距离的挖掘算法尤为重要。

    (1)最小-最大规范化:也称为离差标准化,是对原始数据的线性变换,将数值映射到[0,1]。这种方法的缺点是若数据集中且某个数值很大,则规范化后各值会接近于0,并且将会相差不大。若将来遇到超过目前属性[min,max]取值范围时,会引起系统出错,需要重新确定min和max。

    (2)零-均值规范化:也叫标准差标准化,经过处理的数据的均值为0,标准差为1。这种方法是当前用得最多的数据的标准化方法,但是均值和标准差受离群点的影响较大,因此通常需要进行修改。首先用中位数M取代均值,其次用绝对标准差取代标准差。

    (3)小数定标规范化:通过移动属性值的小数位数,将属性值映射到[-1,1],移动的小数位数取决于属性值绝对值的最大值。

  3. 连续属性离散化

    (1)离散化的过程

    连续属性的离散化就是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。所以,离散化涉及两个子任务:确定分类数以及如何将连续属性值映射到这些分类值。

    (2)常用的离散化方法

    常用的离散化方法有等宽法、等频法和(一维)聚类。

    等宽法:将属性的值域分成具有相同宽度的区间、区间的个数由数据本身的特点决定,或者由用户指定,类似于制作频率分布表。

    等频法:将相同数量的记录放进每个区间。缺点是对离群点比较敏感,倾向于不均匀地把属性值分布到各个区间。

    (一维)聚类:包括两个步骤,首先将连续属性的值用聚类算法进行聚类,然后再将聚类得到的簇进行处理,合并到一个簇的连续属性值并做同一标记。聚类分析的离散化方法也需要用户指定簇的个数,从而决定产生的区间数。

  4. 属性构造

    为了便于提取更有用的信息,挖掘更深层次的模式,提高挖掘结果的精度,需要利用已有的属性集构造出新的属性,并加入到现有的属性集合中。

  5. 小波变换

    小波变换是一种新型的数据分析工具,具有多分辨率的特点,在时域和频域都具有表征信号局部特征的能力,通过伸缩和平移等运算过程对信号进行多尺度聚焦分析,提供了一种非平稳信号的时频分析手段,可以由粗到细地逐步观察信号,从中提取有用信息。

    R语言数据挖掘实战系列(4)