本系列文章是本人学习数据分析与数据挖掘的学习笔记,参考了许多教材,如果错误欢迎评论区指出,谢谢!
数据分析(Data Analysis, DA)是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,并提取出有用的信息的过程。
数据分析一般具有比较明确的目标,可以根据数据分析得出的结果做出适当的判断,用来为以后的决策提供依据。
数据分析的结果可以通过列表和作图等方法表示。作图法可以明确地表达各数据量之间的变化关系,常见的图有排列图、因果图、散布图、直方图、控制图等。
数据挖掘(Data Mining, DM)是指从海量的数据中通过相关的算法发现隐藏在数据中的规律和知识的过程。
知识发现的过程如下:

图1-2中的“数据预处理”包括“数据清理”和“数据集成”两个步骤。
数据、信息、知识三者的关系如下图所示:

”8,000" 和“10,000"是数据。
“8,000米是飞机飞行最大高度”与“10,000米的高山”是信息。
“飞机无法飞越这座高山”是知识。
“飞机必须飞得比山高”是智慧。
基于数据库的知识发现(KDD) -词首次出现在1989年举行的国际人工智能联合大会IJCAI-89 Workshop。KDD一般指知识发现。 知识发现是从各种信息中,根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有效的、新颖的、潜在有用的知识,直接向使用者报告。



(2)无监督学习:无监督学习可以在没有标记的数据集上进行学习,实质上无监督学习是一个聚类的过程。
(3)半监督学习:半监督学习在学习过程中使用标记和未标记的数据。半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据进行学习,其中,标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界。

数据库系统与数据仓库:
(1)数据库系统:数据库系统是为了解决数据处理方面的问题而建立起来的数据处理系统,注重于为用户创建、维护和使用数据库。
(2)数据仓库:数据仓库汇集了来自多个不同数据源的数据,通过数据仓库可以在不同维度合并数据,形成数据立方体,便于从不同角度对数据进行分析和挖掘。
模式识别:人们在认识事物时,常常要通过将它和其他事物进行对比从而发现其不同之处,并根据对比结果和先前的认知将相似的事物归类。人的这种思维方式就构成了对不同事物“模式”的识别。模式识别的研究内容包括文字识别、语音识别、图像识别、医学诊断以及指纹识别等。模式识别的本质就是抽象出不同事物中的模式,并根据这些模式对事物进行分类或聚类的过程,在很多情况下对数据挖掘有着很重要的借鉴意义。
高性能计算:高性能计算是指突破单台计算机资源不足的限制,使用多个处理器或多台计算机共同完成同一项任务的计算环境。

衡量取样数据质量的标准如下:
对所抽取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需的。可以说,挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。
由于采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等
样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建?这一步是数据挖掘工作的核心环节。
建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。
什么是数据挖掘?讨论以下任务是否属于数据挖掘的范畴。
(1)计算整个班级学生“数据分析与数据挖掘”这门课的平均分。
(2)根据历史信息预测某公司的股票价格,
(3)根据历史销售数据和顾客经常查看的商品,为顾客推荐其可能需要的商品。
(4)将一个很大的数进行质因数分解。
【答】数据挖掘是指从海量的数据中通过相关的算法发现隐藏在数据中的规律和知识的过程。题目中,(2)(3)是挖掘隐藏在数据中的规律和知识的过程,所以(2)(3)是数据挖掘,(1)是数据分析过程。
举例说明数据分析与数据挖掘的区别。
【答】数据分析与数据挖掘的区别为:
(1)数据挖掘处理的是海量的数据,而数据分析处理的数据率不一定很大,比如,根据某企业海量的各种产品产量的数据去预测某企业未来需要生产多少产品就是数据挖掘,而计算某企业去年的平均生产总值就是数据分析,生产总值的数据量不一定很大;
(2)数据分析往往有比较明确的目标,而数据挖掘所发现的知识往往是未知的,比如,数据分析能分析某企业去年的产品生产数量的平均数、中位数等,数据挖掘能通过去年生产产品的数量预测未来需要多少产品,这就是发现了未知的知识。
(3)数据分析着重于展现数据之间的关系;而数据挖掘可以通过现有数据并结合数学模型,对未知的情况进行预测和估计,比如某企业结合去年的产品产量和其销售情况依据数学模型预测未来需要生产多少产品,这是数据挖掘的过程,而通过去年产品产量和销售情况的平均数可以得出去年企业是否盈利等,这时数据分析的过程。
数据库和数据仓库是同一个概念吗?为什么?
【答】数据库系统(DataBase System, DBS)是由一组内部相关的数据(称为数据库)和用于管理这些数据的程序组成,数据库是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现。
数据仓库是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,从数据量来说,数据仓库要比数据库更庞大的多。数据仓库主要用于数据挖掘和数据分析。
数据库 Database (Oracle, Mysql, PostgreSQL)主要用于事务处理,数据仓库 Datawarehouse (Amazon Redshift, Hive)主要用于数据分析。用途上的不同决定了这两种架构的特点不同。
数据挖掘有哪些常用的方法?
【答】(1)统计学方法;(2)机器学习;(3)数据库系统与数据仓库;(4)模式识别;(5)高性能计算。
除本章列举的例子外,还有哪些数据分析与数据挖掘在实际生活中的应用?
【答】预测企业的未来的销售计划。
什么是KDD?
(A)数据挖掘与知识发现
(B)领域知识发现
(C)文档知识发现
(D)动态知识发现
【答】选(A)
“8,000”和“10,000”表示:
(A)数据
(B)信息
(C)知识
(D)智慧
【答】选(A),”8,000" 和“10,000"是数据。
“8,000米是飞机飞行最大高度”与“10,000米的高山”是信息。
“飞机无法飞越这座高山”是知识。
“飞机必须飞得比山高”是智慧。
人从出生到长大的过程中,是如何认识事物的?
(A)聚类过程
(B)分类过程
(C)先分类,后聚类
(D)先聚类,后分类
【答】选(D),人最开始不能根据已存在的训练集去分类,只能是无监督学习去聚类,将聚类结果作为训练集再去分类(监督学习)
“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:
(A)数据
(B)信息
(C)知识
(D)智慧
【答】选(B),”8,000" 和“10,000"是数据。
“8,000米是飞机飞行最大高度”与“10,000米的高山”是信息。
“飞机无法飞越这座高山”是知识。
“飞机必须飞得比山高”是智慧。
“飞机无法飞过高山”表示:
(A)数据
(B)信息
(C)知识
(D)智慧
【答】选(C),”8,000" 和“10,000"是数据。
“8,000米是飞机飞行最大高度”与“10,000米的高山”是信息。
“飞机无法飞越这座高山”是知识。
“飞机必须飞得比山高”是智慧。