数据挖掘概念与技术第一章

更新时间:2023-05-18 21:50:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据挖掘经典教程配套ppt

数据挖掘: 数据挖掘:概念与技术Jiawei Han and Micheline Kamber著 著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社

数据挖掘经典教程配套ppt

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

第1章 引言 章英文幻灯片制作: 英文幻灯片制作:Jiawei Han 中文幻灯片编译: 中文幻灯片编译:范明

数据挖掘经典教程配套ppt

第一章 引论动机:为什么要数据挖掘 动机:为什么要数据挖掘? 什么是数据挖掘? 什么是数据挖掘 数据挖掘:在什么数据上进行? 数据挖掘:在什么数据上进行 数据挖掘功能 所有的模式都是有趣的吗? 所有的模式都是有趣的吗 数据挖掘系统分类 数据挖掘的主要问题2011年4月29日星期五 数据挖掘:概念与技术 5

数据挖掘经典教程配套ppt

动机: 动机 需要是发明之母数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据 存放在数据库, 数据仓库, 存放在数据库 数据仓库 和其它信息存储中 我们正被数据淹没,但却缺乏知识 我们正被数据淹没 但却缺乏知识 解决办法: 解决办法 数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 数据仓库与联机分析处理 从大型数据库的数据中提取有趣的知识(规则 规律性, 规则, 从大型数据库的数据中提取有趣的知识 规则 规律性 模 式, 限制等) 限制等

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

数据处理技术的演进1960s: 数据收集, 数据库创建, 数据收集 数据库创建 IMS 和网状 DBMS 1970s: 关系数据库模型, 关系 DBMS 实现 关系数据库模型 1980s: RDBMS, 先进的数据模型 (扩充关系的 OO, 演绎的 等.) 和面向应用 扩充关系的, 演绎的, 扩充关系的 空间的, 的 DBMS (空间的 科学的 工程的 等.) 空间的 科学的, 工程的, 1990s—2000s: 数据挖掘和数据仓库, 多媒体数据库, 数据挖掘和数据仓库 多媒体数据库 和 Web 数据库

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

什么是数据挖掘? 什么是数据挖掘数据库中知识发现): 数据挖掘 (数据库中知识发现 数据库中知识发现从大型数据库中提取有趣的 (非平凡的 蕴涵的 先前未知的 并且是 大型数据库中提取有趣的 非平凡的, 蕴涵的, 潜在有用的) 潜在有用的 信息或模式

其它叫法和“inside stories”: 其它叫法和“数据挖掘: 用词不当? 数据挖掘 用词不当 数据库中知识发现(挖掘 挖掘) 数据库中知识发现 挖掘 (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据 模式分析 数据/模式分析 模式分析(data/pattern analysis), 知识提取 数据考古(data archeology), 数据捕捞 数据捕捞(data dredging), 信息收获 数据考古 (information harvesting), 商务智能 商务智能(business intelligence), 等.

什么不是数

据挖掘? 什么不是数据挖掘(演绎 查询处理 演绎) 查询处理. 演绎 机器学习(ML)/统计程序 专家系统 或小型 机器学习 统计程序2011年4月29日星期五 数据挖掘:概念与技术 8

数据挖掘经典教程配套ppt

为什么要数据挖掘?—可能的应用 为什么要数据挖掘 可能的应用数据库分析和决策支持 市场分析和管理 针对销售(target marketing), 顾客关系管理 购物篮分析 交叉销售 顾客关系管理, 购物篮分析, 交叉销售(cross 针对销售 selling), 市场分割 市场分割(market segmentation) 风险分析与管理 预测, 顾客关系, 改进保险, 质量控制, 预测 顾客关系 改进保险 质量控制 竞争能力分析 欺骗检测与管理 其它应用 新闻组, 文档资料) 文本挖掘 (新闻组 email, 文档资料 新闻组 流数据挖掘(Stream data mining) 流数据挖掘 Web挖掘 挖掘. 挖掘 DNA 数据分析

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

市场分析与管理(1) 市场分析与管理用于分析的数据源在哪? 用于分析的数据源在哪信用卡交易, 会员卡, 打折优惠卷, 顾客投诉电话, 公共 公共) 信用卡交易 会员卡 打折优惠卷 顾客投诉电话 (公共 生活时尚研究

针对销售(Target marketing) 针对销售找出顾客群, 他们具有相同特征 : 兴趣 收入水平 消费习惯 等. 兴趣, 收入水平, 消费习惯, 找出顾客群

确定顾客随时间变化的购买模式个人帐号到联合帐号的转变: 结婚, 个人帐号到联合帐号的转变 结婚 等.

交叉销售分析(Cross-market analysis) 交叉销售分析产品销售之间的关联/相关 产品销售之间的关联 相关 基于关联信息的预测

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

市场分析与管理(2) 市场分析与管理顾客分类(Customer profiling) 顾客分类数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类 数据挖掘能够告诉我们什么样的顾客买什么产品 聚类或分类) 聚类或分类

识别顾客需求对不同的顾客识别最好的产品 使用预测发现什么因素影响新顾客

提供汇总信息各种多维汇总报告 数据的中心趋势和方差) 统计的汇总信息 (数据的中心趋势和方差 数据的中心趋势和方差

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

法人分析和风险管理财经规划和资产评估现金流分析和预测 临时提出的资产评估 交叉组合(cross-sectional) 和时间序列分析 (金融比率 金融比率(financial-ratio), 交叉组合 金融比率 趋势分析, 趋势分析 等.)

资源规划 :资源与开销的汇总与比较

竞争: 竞争管理竞争者和市场指导 对顾客分类和基于类的定价 在高度竞争的市场调整价格策略

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

欺骗检测和管理(1) 欺骗检测和管理应用广泛用于健康照料, 零售, 信

用卡服务, 电话卡欺骗), 广泛用于健康照料 零售 信用卡服务 电讯 (电话卡欺骗 等. 电话卡欺骗

方法使用历史数据建立欺骗行为模型, 使用数据挖掘帮助识别类似的实例 使用历史数据建立欺骗行为模型

例汽车保险: 检测这样的人, 汽车保险 检测这样的人 他/她假造事故骗取保险赔偿 她假造事故骗取保险赔偿 洗钱: 洗钱 检测可疑的金钱交易 (US Treasury's Financial Crimes Enforcement Network) 检测职业病患者, 医疗保险 : 检测职业病患者 医生和介绍人圈

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

欺骗检测和管理(2) 欺骗检测和管理检测不适当的医疗处置澳大利亚健康保险会(Australian Health Insurance Commission) 发现 澳大利亚健康保险会 许多全面的检查是请求做的, 每年节省100万澳 许多全面的检查是请求做的 而不是实际需要的 (每年节省 每年节省 万澳 元).

检测电话欺骗电话呼叫模式: 通话距离, 通话时间, 每天或每周通话次数. 电话呼叫模式 通话距离 通话时间 每天或每周通话次数 分析偏离 期望的模式. 期望的模式 英国电讯(British Telecom)识别频繁内部通话的呼叫者的离散群 特 识别频繁内部通话的呼叫者的离散群, 英国电讯 识别频繁内部通话的呼叫者的离散群 别是移动电话, 超过数百万美元的欺骗. 别是移动电话 超过数百万美元的欺骗

零售分析家估计, 的零售业萎缩是由于不忠诚的雇员造成的. 分析家估计 38%的零售业萎缩是由于不忠诚的雇员造成的 的零售业萎缩是由于不忠诚的雇员造成的2011年4月29日星期五 数据挖掘:概念与技术 14

数据挖掘经典教程配套ppt

其它应用运动IBM Advanced Scout分析 分析NBA的统计数据 ( 阻挡投篮 助攻 和犯规 ) 分析 的统计数据 阻挡投篮, 助攻, 获得了对纽约小牛队(New York Knicks)和迈艾米热队 Miami Heat ) 和迈艾米热队( 获得了对纽约小牛队 和迈艾米热队 的竞争优势

天文借助于数据挖掘的帮助,JPL 和 Palomar Observatory 发现了 颗类 发现了22 借助于数据挖掘的帮助 星体(quasars) 星体

Internet Web Surf-AidIBM Surf-Aid 将数据挖掘算法用于有关交易的页面的 将数据挖掘算法用于有关交易的页面的Web访问日志 访问日志, 访问日志 以发现顾客喜爱的页面, 分析Web 销售的效果 改进 销售的效果, 改进Web 站点的组织 站点的组织, 以发现顾客喜爱的页面 分析 等.2011年4月29日星期五 数据挖掘:概念与技术 15

数据挖掘经典教程配套ppt

数据挖掘过程模式评估

数据挖掘: 数据挖掘:KDD的核心. 的核心数据挖掘 任务相关数据 数据仓库 数据清理 数据集成 数据库2011年4月29日星期五 数据挖掘:概念与技术 16

选择

数据挖掘经典教程配套ppt

KDD过程的步骤 过程的步骤学习应用领域: 学习应用领域相关的先验知识和应用的目标

创建目标数据集: 创建目标数据集 数据选择 数据清理和预处理: 可能占全部工作的 数据清理和预处理 (可能占全部工作的 60%!) 数据归约与变换: 数据归约与变换发现有用的特征, 变量归约, 发现有用的特征 维/变量归约 不变量的表示 变量归约 不变量的表示.

选择数据挖掘函数汇总, 分类, 回归, 关联, 聚类. 汇总 分类 回归 关联 聚类

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

KDD过程的步骤 续) 过程的步骤(续 过程的步骤选择挖掘算法 数据挖掘: 数据挖掘 搜索有趣的模式 模式评估和知识表示可视化, 变换 删除冗余模式 等. 可视化 变换, 删除冗余模式,

发现知识的使用

2011年4月29日星期五

数据挖掘:概念与技术

数据挖掘经典教程配套ppt

数据挖掘和商务智能提高支持商务决策的潜能 制定决策 数据表示商务分析人员 最终用户

可视化技术数据挖掘数据分析人员

信息发现数据探查 统计分析, 查询和报告 数据仓库 / 数据集市 OLAP, MDA 数据源 文字记录, 文件, 信息提供者, 数据库系统, OLTP系统2011年4月29日星期五 数据挖掘:概念与技术

DBA

数据挖掘经典教程配套ppt

典型的数据挖掘系统结构图形用户界面 模式评估 数据挖掘引擎 数据库或数据仓库数据清理 数据集成 过滤

知识库

数据库2011年4月29日星期五

数据仓库数据挖掘:概念与技术 20

数据挖掘经典教程配套ppt

数据挖掘:在什么数据上进行? 数据挖掘 在什么数据上进行关系数据库 数据仓库 事务(交易 交易)数据库 事务 交易 数据库 先进的数据库和信息存储面向对象和对象-关系数据库 面向对象和对象 关系数据库 空间和时间数据 时间序列数据和流数据 文本数据库和多媒体数据库 异种数据库和遗产数据库 WWW2011年4月29日星期五 数据挖掘:概念与技术 21

本文来源:https://www.bwwdw.com/article/pln4.html

Top