数据挖掘方法论(SEMMA)
更新时间:2023-08-08 12:41:01 阅读量: 实用文档 文档下载
SAS数据挖掘方法论 ─ SEMMA
(2009-07-20 21:15:48)
Sample ─数据取样
Explore ─数据特征探索、分析和予处理
Modify ─问题明确化、数据调整和技术选择
Model ─模型的研发、知识的发现
Assess ─模型和知识的综合解释和评价
Sample──数据取样
当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。
通过数据取样,要把好数据的质量关。在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性。若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导。若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!
从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。SAS不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验。若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。你还应当从实验设计的要求来考察所取样数据的代表性。唯此,才能通过此后的分析研究得出反映本质规律性的结果。利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。
Explore──数据特征探索、分析和予处理
前面所叙述的数据取样,多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别 这都是要首先探索的内容。
进行数据特征的探索、分析,最好是能进行可视化的操作。SAS有:SAS/INSIGHT和SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。
这里的数据探索,就是我们通常所进行的深入调查的过程。你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系不可能一下子建立起来。一开始,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察。在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察。但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你的先验知识认为不存在的关系。假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系。很可能这里就是发现的新知识!有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。
在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。所幸的是SAS向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反应。免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保持了一个集中的较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力。
Modify──问题明确化、数据调整和技术选择
通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解。对你原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。问题越明确,越能进一步量化,问题就向它的解决更前进了一步。这是十分重要的。因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题,没有问题的进一步明确,你简直就无法进行有效的数据挖掘操作。
在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要。Gartner group在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。
针对问题的需要可能要对数据进行增删;也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。若使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作。
在问题进一步明确;数据结构和内容进一步调整的基础上,下一步数据挖掘应采用的技术手段就更加清晰、明确了。
Model──模型的研发、知识的发现
这一步是数据挖掘工作的核心环节。虽然数据挖掘模型化工作涉及了非常广阔的技术领域,但对SAS研究所来说并不是一件新鲜事。自从SAS问世以来,就一直是统计模型市场领域的领头羊,而且年年提供新产品,并以这些产品体现业界技术的最新发展。
按照SAS提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据结构和内容也有了充分的适应性。SAS在这时也向你提供了充分的可选择的技术手段:回归分析方法等广泛的数理统计方法;关联分析方法;分类及聚类分析方法;人工神经元网络;决策树 等。
在你的数据挖掘中使用哪一种方法,用SAS软件包中什么方法来实现,这主要取决于你的数据集的特征和你要实现的目标。实际上这种选择也不一定是唯一的。好在SAS软件运行效率十分高,你不妨多试几种方法,从实践中选出最适合于你的方法。
Assess──模型和知识的综合解释和评价
从上述过程中将会得出一系列的分析结果、模式或模型。同一个数据源可以利用多种数据分析方法和模型进行分析,ASSESS 的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要对模型进行针对业务的解释和应用。
若能从模型中得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。
你提供的决策支持信息适用性如何,这显然是十分重要的问题。除了在数据处理过程中SAS软件提供给你的许多检验参数外,评价的办法之一是直接使用你原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那末你的决策支持信息的价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。
另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。这次的检验效果可能会比前一种差。差多少是要注意的。若是差到你所不能容忍程度,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身不够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时,那你的数据挖掘应得到很好的评价了。
SAS Enterprise Miner ─ SEMMA
The acronym SEMMA – sample, explore, modify, model, assess – refers to the core process of conducting data mining. Beginning with a statistically representative sample of your data, SEMMA makes it easy to apply exploratory statistical and visualisation techniques, select and
transform the most significant predictive variables, model the variables to predict outcomes, and confirm a model's accuracy.
Before examining each stage of SEMMA, a common misunderstanding is to refer to SEMMA as a data mining methodology. SEMMA is not a data mining methodology but rather a logical organisation of the functional tool set of SAS Enterprise Miner for carrying out the core tasks of data mining. Enterprise Miner can be used as part of any iterative data mining methodology adopted by the client. Naturally steps such as formulating a well defined business or research problem and assembling quality representative data sources are critical to the overall success of any data mining project. SEMMA is focused on the model development aspects of data mining:
Sample (optional) your data by extracting a portion of a large data set big enough to contain the significant information, yet small enough to manipulate quickly. For optimal cost and performance, SAS Institute advocates a sampling strategy, which applies a reliable, statistically representative sample of large full detail data sources. Mining a representative sample instead of the whole volume reduces the processing time required to get crucial business information. If general patterns appear in the data as a whole, these will be traceable in a representative sample. If a niche is so tiny that it's not represented in a sample and yet so important that it influences the big picture, it can be discovered using summary methods. We also advocate creating partitioned data sets with the Data Partition node:
Training -- used for model fitting.
Validation -- used for assessment and to prevent over fitting.
Test -- used to obtain an honest assessment of how well a model generalizes.
Explore your data by searching for unanticipated trends and anomalies in order to gain understanding and ideas. Exploration helps refine the discovery process. If visual exploration doesn't reveal clear trends, you can explore the data through statistical techniques including factor analysis, correspondence analysis, and clustering. For example, in data mining for a direct mail campaign, clustering might reveal groups of customers with distinct ordering patterns. Knowing these patterns creates opportunities for personalized mailings or promotions.
Modify your data by creating, selecting, and transforming the variables to focus the model selection process. Based on your discoveries in the exploration phase, you may need to manipulate your data to include information such as the grouping of customers and significant subgroups, or to introduce new variables. You may also need to look for outliers and reduce the number of variables, to narrow them down to the most significant ones. You may also need to modify data when the "mined" data change. Because data mining is a dynamic, iterative process, you can update data mining methods or models when new information is available.
Model your data by allowing the software to search automatically for a combination of data that reliably predicts a desired outcome. Modeling techniques in data mining include neural networks, tree-based models, logistic models, and other statistical models -- such as time series analysis, memory-based reasoning, and principal components. Each type of model has particular strengths, and is appropriate within specific data mining situations depending on the data. For example, neural networks are very good at fitting highly complex nonlinear relationships.
Assess your data by uating the usefulness and reliability of the findings from the data mining process and estimate how well it performs. A common means of assessing a model is to apply it to a portion of data set aside during the sampling stage. If the model is valid, it should work for this reserved sample as well as for the sample used to construct the model. Similarly, you can test the model against known data. For example, if you know which customers in a file had high retention rates and your model predicts retention, you can check to see whether the model selects these customers accurately. In addition, practical applications of the model, such as partial mailings in a direct mail campaign, help prove its validity.
By assessing the results gained from each stage of the SEMMA process, you can determine how to model new questions raised by the previous results, and thus proceed back to the exploration phase for additional refinement of the data.
Once you have developed the champion model using the SEMMA based mining approach, it then needs to be deployed to score new customer cases. Model deployment is the end result of data mining - the final phase in which the ROI from the mining process is realized. Enterprise Miner automates the deployment phase by supplying scoring code in SAS, C, Java, and PMML. It not only captures the code for of analytic models but also captures the code for preprocessing activities. You can seamlessly score your production data on a different machine, and deploy the scoring code in batch or real-time on the Web or in directly in relational databases. This results in faster implementation and frees you to spend more time uating existing models and developing new ones.
正在阅读:
数据挖掘方法论(SEMMA)08-08
工会换届选举流程07-19
2015-2020年中国白酒行业市场分析与投资前景评估报告 - 图文07-06
心情有些糟糕日记10-29
珠海农用无人机统防统治植保作业工作方案05-26
心中的太阳作文1000字06-28
作弊风波作文1000字06-27
2010年新建电厂12-16
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 方法论
- 数据挖掘
- SEMMA
- 超级实用水管阻力流量计算程序
- 慧鱼创新设计实验报告
- 如何下载外文杂志中的文献
- 技术工艺文件更改通知单 (格式 3.20)
- 中国药典 三水醋酸钠
- 2019年在线票务行业猫眼娱乐分析报告
- 才溪乡调查报告原文(共3篇)
- 优秀社区书记发言稿
- 老外感兴趣的关于中国的话题
- 2020年日历表g(A4免费打印版)
- 2017-2022年中国排风设备行业供需市场调研分析及投资战略研究报告目录
- 兰政办发200882号
- 篮球比赛成绩表
- 鞣质的鉴别方法
- 典范英语7-17读书笔记
- 体育教研组会议记录
- 血透室医院感染监测
- -行业供需分析与趋势预测-目录西藏旅游行业发展预测及投资咨询报告
- 2016-2022年中国二手车行业深度研究与市场供需预测报告
- 毕业生验印底册