r的极客理想 pdf:数据挖掘和数据仓库的关系?

来源:百度文库 编辑:高校问答 时间:2024/04/23 18:43:43
数据挖掘和数据仓库的相关知识

若将Data Warehousing(数据仓库)比喻作矿坑,数据挖掘就是深入矿坑采矿的工作。毕竟数据挖掘不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待数据挖掘能挖掘出什么有意义的信息的。
要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓库的目标是在组织中,在正确的时间,将正确的数据交给正确的人。
许多人对于Data Warehousing和数据挖掘时常混淆,不知如何分辨。其实,数据仓库是数据库技术的一个新主题,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。
数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库 中整合而来的数据,特别是指事务处理系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据昂哭中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed andsummarized data)、历史数据、解释数据的数据。从数据仓库挖掘出对决策有用的信息与知识,是建立数据仓库与使用数据挖掘的最大目的,两者的本质与过程是两回事。换句话说,数据仓库应先行建立完成,数据挖掘才能有效率的进行,因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为数据挖掘是从巨大数据仓库中找出有用信息的一种过程与技术。

数据仓库(DW)与数据挖掘(DM)是20世纪90年代中期兴起的新技术。数据仓库用于决策分析,数据挖掘用于从数据库中发现知识。数据仓库和数据挖掘的结合为决策支持系统(DSS)开辟了新方向,它们也是商业智能(BI)的主要技术。