数据清洗与数据预处理

更新时间:2023-09-07 00:41:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

扫地机 http://www.chinachijie.c om/ wenku1

数据清洗和数据预处理

教学目标 认识数据挖掘前数据进行适当处理的必要 性 掌握常用数据预处理的方法。

教学要求知识要点 能力要求 (1) 了解原始数据存在的主要 问题 (2) 明白数据预处理的作用和 工作任务 (1) 掌握数据清洗的主要任务 与常用方法 (2) 掌握数据集成的主要内容 和常用方法 (3) 掌握数据变换的主要内容 和常用方法 (4)掌握数据归约的主要内容和 常用方法 相关知识点 (1) 数据的一致性问题 (2)数据的噪声问题 (3)原始数据的不完整和高维 度问题

数据预处理 的原因

数据预处理 的方法

(1) 数据清洗 (2) 数据集成 (3) 数据变换 (4) 数据归约

为什么要预处理数据? 现实世界的数据是“肮脏的” 不完整的

含噪声的 不一致的

没有高质量的数据,就没有高质量的挖掘结 果 高质量的决策必须依赖高质量的数据

数据仓库需要对高质量的数据进行一致地集成

原始数据中存在的问题1.不一致——数据内涵出现不一致情况 2.重复 3.不完整——感兴趣的属性没有值 4.含噪声——数据中存在着错误、或异常(偏 离期望值)的数据 5.高维度

数据预处理的方法 1.数据清洗 去掉噪声和无关数据

2.数据集成 将多个数据源中的数据结合起来存放在一个一致的数

据存储中

3.数据变换 把原始数据转换成为适合数据挖掘的形式

4.数据归约 主要方法包括:数据立方体聚集,维归约,数据压缩,

数值归约,离散化和概念分层等

数据清洗 数据选取参考原则: 1.尽可能赋予属性名和属性值明确的含义 2.统一多数据源的属性值编码 3.去除惟一属性 4.去除重复属性 5.去除可忽略字段 6.合理选择关联字段

进一步处理: 通过填补遗漏数据、消除异常数据、平滑噪声数据,

以及纠正不一致的数据,去掉数据中的噪音、填充空值、 丢失值和处理不一致数据

数据清洗——处理空缺值 数据并不总是完整的 在分析一个商场销售数据时,发现有多个记录中的属性

值为空,如:顾客的收入属性对于为空的属性值

引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据应为得不到重视而没有被输入

对数据的改变没有进行日志记载

数据清洗——处理空缺值 空缺值要经过推断而补上 1.忽略该记录 2.去掉属性

3.手工填写空缺值 4.使用默认值 5.使用属性平均值 6.使用同类样本平均值 7.预测最可能的值

数据清洗——噪声数据的处理 噪声:在测量

一个变量时可能出现的测量值相对 于真实值的偏差或者错误。

噪声数据的处理——分箱 分箱:把待处理的数据按照一定的规则放进一

些箱子中,考察每一个箱子中的数据,采用某 种方法分别对各个箱子中的数据进行处理。 箱子:按照属性值划分的子区间,如果一个属 性值处于某个子区间范围内,就称把该属性值 放进这个子区间代表的“箱子”里。 分箱技术需要确定的主要问题: 分箱方法,即如何分箱 数据平滑方法,即如何对每个箱子中的数据进行平

滑处理

噪声数据的处理——分箱 分箱的方法:分箱前对记录集按目标属性值的大 小进行排序。 等深分箱法 等宽分箱法 用户自定义区间 最小熵

例:客户收入属性income排序后的值(人民币 元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000

噪声数据的处理——分箱 等深分箱法(统一权重 ) 按记录行数分箱,每箱具有相同的记录数,每

箱记录数称为箱的权重,也称箱子的深度。

设定权重(箱子深度)为4,上述例子分箱 后的结果如下。箱1:800 1000 1200 1500 箱2:1500 1800 2000 2300 箱3:2500 2800 3000 3500 箱4:4000 4500 4800 5000

噪声数据的处理——分箱 等宽分箱法(统一区间) 在整个属性值的区间上平均分布,即每个箱的

区间范围是一个常量,称为箱子宽度。

设定区间范围(箱子宽度)为1000元人民 币,分箱后箱1:800 1000 1200 1500 1500 1800 箱2:2000 2300 2500 2800 3000 箱3:3500 4000 4500 箱4:4800 5000

噪声数据的处理——分箱 最小熵 使在各区间分组内的记录具有最小的熵。

信息是信号、符号或消息所表示的内容, 用以消除对客观事物认识的不确定性 信息量的直观定义:信息量的大小取决于 信息内容消除人们认识的“不确定程度”, 所消除的不确定程度越大,则所包含的信 息量就越大。

熵——信息的度量(利用概率来度量)A到1000人的学校去找B。传达室人告诉他,“B是信息管理系”,而管 理系有100人。他获得的信息是100/1000=0.1,也就是将可能性空间缩 小到原来的1/10.

用概率来表示:-log(1/10)=log10又有人告诉他:B在信息管理与信息系统教研室(10人),则第2个信息 的确定性又缩小到原来的100/1000*10/100=10/1000,其信息量为

-log100/1000 + (-log10/1000) = -log10/1000 =log100

只要可能性范围缩小了,获得的信息量总是正的。如果为0, 获得的信息为○。如果为负,反而扩大了其可能性范围。

熵——信息的度量 信息量大小的单位用比特来衡量。1比特的信息量是指含 有两个独立均等概率状态的事件所具有的不确

定性能被全 部消除所需要的信息。 信息量: H(x)=-∑ P(Xi)log2P(Xi) i=1,2,3,…,n 其中Xi表示第i个状态(共n个状态); P(Xi)代表出现第i个状态时的概率; H(x)为消除不确定性所需的信息量,单位为比特(bit)。 例如:币下落可能有正反两种状态,出现这两种状态的概 率都是1/2,即:则, H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)]=-(-0.5-0.5) =1比特。 同理可得,投掷均匀正六面体骰子的H(X)=2.6比特。

例子硬币下落:硬币下落可能有正反两种状态,出现这两种状态的概 率都是1/2。 如果需要消除其不确定性,则就需要信息量:H(x)=[P(X1)log2P(X1)+P(X2)log2P(X2)] =-(-0.5-0.5) =1比特为1比特的信息。

例2:张三到4000人的企业去找李四。当企业人事部门告诉张三: “李四是第四车间的”,而第四车间有1000人,如果第四车间的 人告诉张三,李四在第三班,第三班共有125位员工,计算张三所 获得的信息量?

噪声数据的处理——分箱 用户自定义区间 用户根据需要自定义区间。

用户自定义:如将客户收入划分为1000元以下、 1000~2000、2000~3000、3000~4000和4000元 以上几组,分箱后箱1:800 箱2:1000 1200 1500 1500 1800 2000 箱3:2300 2500 2800 3000 箱4:3500 4000 箱5:4500 4800 5000

本文来源:https://www.bwwdw.com/article/gach.html

Top