数据挖掘和统计是致力于实现这一目标的领域。虽然它们可能重叠,但它们是两种非常不同的技术,需要不同的技能。统计学构成了数据挖掘的核心部分,它涵盖了数据分析的整个过程。统计学有助于识别模式,进一步帮助识别随机噪音和重大发现之间的差异,为估计预测的概率等提供理论。因此,作为数据分析的技术,数据挖掘和统计都有助于更好的决策。hostgator香港主机分享数据挖掘和统计的区别
什么是数据挖掘?
数据科学家Usama Fayyad将数据挖掘描述为 “在数据中识别有效的、新颖的、潜在可用性的、最终可理解的模式的复杂过程”。推荐阅读:《什么是数据库服务器及其用途》
今天的技术已经实现了从数据库中自动提取隐藏的预测信息,以及其他各种前沿或领域的融合,如统计学、人工智能、机器学习、数据库管理、模式识别和数据可视化。
通过数据挖掘,人类能够应用各种统计学、数据分析和机器学习的方法来探索和分析大型数据集,以提取新的、有用的信息,使这些数据的所有者受益。
通过使用数据挖掘,一个组织可以从他们现有的数据中发现可实施的新点子。例如,通过分析社交媒体帖子,一家休闲食品公司可能会惊讶地发现他们最大的市场是单身父亲。
什么是统计学?
统计学是数据挖掘的组成部分,它为处理大量的数据提供了工具和分析技术。它是一门在数据中学习的科学,包括从收集和组织,再到分析和展示数据的一切。统计学的重点是概率模型,特别是推理以及使用数据。
虽然统计学和数据挖掘的目的相似,但据估计,能够处理数据分析师需求的统计学家非常少。目前盛行的两类统计学是描述性统计和推断性统计。描述性统计对样本的数据进行组织和总结,推理统计使用这些总结从整个数据集得出结论。
数据挖掘和统计学有什么相同或不同?
斯坦福大学Jerome H. Friedman的一篇研究论文解释了统计学和数据挖掘之间的联系。
数据挖掘和统计学都与从数据中学习有关。他们都是为了发现和识别数据中的结构,并把数据变成信息。尽管这两种技术的目的是重叠的,但它们的方法是不同的。
统计学只是对数据进行量化。虽然它使用工具来寻找数据的相关属性,但它很像数学,并为数据挖掘提供了必要的工具;另一方面,数据挖掘建立模型来检测数据中的模式和关系(特别是大型数据库的数据)。
为了进一步解开这个谜团,我们列出一些流行的数据挖掘方法和数据分析中的统计类型。推荐阅读:《数据库模型的类型》
数据挖掘的应用
数据挖掘基本上可以作为几个商业系统。今天,数据挖掘被广泛用于几乎所有行业。例如,由于数据是高度可靠的,金融数据分析通常是系统性的。金融数据分析的典型案例包括贷款支付预测、客户信用政策分析、客户分类和聚类以进行目标营销、检测洗钱和其他金融犯罪。
数据挖掘在零售业发挥更重要的作用,它从各种来源收集数据,如销售、客户购买历史、货物运输、消费和服务。在零售业,数据挖掘有助于识别客户行为;有益于设计和构建数据仓库;能够对销售、客户、产品、时间和地区进行多维分析;分析销售活动的有效性;分析客户保留度;分析产品推荐度;物品的交叉引用。
在电信行业,数据挖掘有助于识别电信模式,检测欺诈活动,提高服务质量,还能更好地利用资源。
数据挖掘也为生物数据分析做出了重大贡献,如基因组学、蛋白质组学、功能基因组学和生物医学研究。它通过对异质的、分布式的基因组和蛋白质组数据库的语义整合、关联和路径分析、遗传数据分析的可视化工具等来帮助分析。
数据挖掘还有助于分析来自地球科学、天文学等领域的大量数据。其他科学应用,如气候和生态系统建模、化学工程和流体动力学也都从数据挖掘中受益。
数据挖掘在检测攻击网络资源的入侵和威胁方面以及网络管理方面也发挥了重要作用。数据挖掘可应用于检测的领域有:开发用于入侵检测的数据挖掘算法、关联和相关分析、选择和建立辨别属性的聚合、流数据分析、分布式数据挖掘、可视化工具和查询工具。
数据挖掘的趋势
根据您试图破译的数据类型和信息种类,您可能从这些不同的数据挖掘技术中选择任何一种。
数据挖掘概念演变的一些趋势是:
- 应用探索
- 可扩展和互动的数据挖掘方法
- 可视化的数据挖掘
- 复杂数据挖掘的新方法
- 生物学数据挖掘
- 数据挖掘和软件工程
- 网络挖掘、实时数据挖掘
- 分布式数据挖掘
- 实时数据挖掘
- 多数据库的数据挖掘
- 数据挖掘中的隐私保护和信息安全
结论
本文仅仅对数据挖掘和统计学进行了简单的概述——它们都是信息丰富的庞大学科。若您想了解更多关于数据挖掘和统计的知识,以及它们是如何一起工作的,请查看我们的大数据课程和分析课程,包括数据科学课程和商业分析师课程。推荐相关阅读:《如何备份WordPress数据库?》