什么是数据挖掘?它是如何工作的、好处、技术和示例
什么是数据挖掘?
数据挖掘是搜索和分析大量原始数据以识别模式并提取有用信息的过程。
公司使用数据挖掘软件来了解有关其客户的更多信息。它可以帮助他们制定更有效的营销策略、增加销售额并降低成本。数据挖掘依赖于有效的数据收集、仓储和计算机处理。
数据挖掘的工作原理
数据挖掘涉及探索和分析大量信息,以收集有意义的模式和趋势。它用于信用风险管理、欺诈检测和垃圾邮件过滤。它也是一种市场研究工具,有助于揭示特定人群的情绪或意见。数据挖掘过程分为四个步骤:
1、数据被收集并加载到现场或云服务上的数据仓库中。
2、业务分析师、管理团队和信息技术专业人员访问数据并确定他们想要如何组织数据。
3、定制应用软件对数据进行排序和组织。
4、最终用户以易于共享的格式(例如图形或表格)呈现数据。
数据仓库和挖掘软件
数据挖掘程序根据用户请求分析数据中的关系和模式。它将信息组织成类。
例如,一家餐厅可能希望使用数据挖掘来确定它应该提供哪些特色菜以及在什么日子提供。可以根据客户访问的时间和他们订购的商品将数据组织成类别。
在其他情况下,数据挖掘者根据逻辑关系找到信息集群,或者查看关联和顺序模式,以得出有关消费者行为趋势的结论。
仓储是数据挖掘的一个重要方面。仓储是将组织的数据集中到一个数据库或程序中。它允许组织根据特定用户的需求分拆出数据段以进行分析和使用。
数据挖掘技术
数据挖掘使用算法和各种其他技术将大量数据转换为有用的输出。最流行的数据挖掘技术类型包括关联规则、分类、聚类、决策树、K 最近邻、神经网络和预测分析。
关联规则(也称为市场篮分析)用于搜索变量之间的关系。这种关系本身在数据集中创造了额外的价值,因为它努力链接数据片段。例如,关联规则将搜索公司的销售历史记录,以查看哪些产品最常一起购买;有了这些信息,商店就可以进行计划、推广和预测。
分类使用预定义的类来分配给对象。这些类描述项目的特征或表示数据点之间的共同点。这种数据挖掘技术允许在相似的功能或产品线中更整齐地分类和汇总底层数据。
聚类分析类似于分类。但是,聚类分析可以识别对象之间的相似性,然后根据使它们与其他项不同的原因对这些项进行分组。虽然分类可能会产生“洗发水”、“护发素”、“肥皂”和“牙膏”等组,但聚类可能会识别“护发”和“牙齿健康”等组。
决策树用于根据一组标准或决策对结果进行分类或预测。决策树用于请求一系列级联问题的输入,这些问题根据给出的响应对数据集进行排序。决策树有时被描述为树状视觉对象,在深入研究数据时,它允许特定方向和用户输入。
K 最近邻 (KNN) 是一种算法,它根据数据与其他数据的接近程度对数据进行分类。KNN 的基础植根于这样一个假设,即彼此靠近的数据点比其他数据位更相似。这种非参数的监督技术用于根据单个数据点预测组的特征。
神经网络通过使用节点来处理数据。这些节点由输入、权重和输出组成。数据是通过监督学习来映射的,类似于人脑的相互连接方式。可以对该模型进行编程,以给出阈值来确定模型的准确性。
预测分析致力于利用历史信息来构建图形或数学模型,以预测未来的结果。该技术与回归分析重叠,旨在根据手头的当前数据支持未来的未知数字。
数据挖掘过程
为了最有效,数据分析师通常会在数据挖掘过程中遵循一定的任务流程。如果没有这种结构,分析师可能会在分析过程中遇到一个问题,如果他们早点做好准备,这个问题本来可以很容易地避免。数据挖掘过程通常分为以下步骤。
第 1 步:了解业务
在接触、提取、清理或分析任何数据之前,了解底层实体和手头的项目非常重要。公司试图通过挖掘数据来实现什么目标?他们目前的业务状况如何?SWOT 分析的结果是什么?在查看任何数据之前,挖掘过程首先要了解过程结束时定义成功的因素。
第 2 步:了解数据
一旦明确了业务问题,就该开始考虑数据了。这包括哪些来源是可用的,它们将如何被保护和存储,如何收集信息,以及最终结果或分析可能是什么样子。此步骤还包括确定数据、存储、安全性和收集的限制,并评估这些约束将如何影响数据挖掘过程。
步骤 3:准备数据
数据被收集、上传、提取或计算。然后对其进行清洁、标准化、清理异常值、评估错误并检查其合理性。在数据挖掘的这一阶段,还可以检查数据的大小,因为过大的信息集合可能会不必要地减慢计算和分析的速度。
步骤 4:构建模型
有了干净的数据集,是时候处理这些数字了。数据科学家使用上述数据挖掘类型来搜索关系、趋势、关联或顺序模式。这些数据还可以被输入到预测模型中,以评估以前的信息如何转化为未来的结果。
第 5 步:评估结果
数据挖掘以数据为中心的方面是通过评估数据模型或模型的结果来结束的。分析的结果可以被汇总、解释并呈现给决策者,而到目前为止,这些决策者在很大程度上被排除在数据挖掘过程之外。在此步骤中,组织可以选择根据调查结果做出决策。
步骤 6:实施更改和监视
数据挖掘过程结束时,管理层根据分析结果采取措施。公司可能会认为信息不够有力或调查结果不相关,或者公司可能会根据调查结果进行战略性调整。在任何一种情况下,管理层都会审查业务的最终影响,并通过识别新的业务问题或机会来重建未来的数据挖掘循环。