大数据体系中常用的5种主要的数据挖掘技术

分类:靖凯视点     发布时间:2018-09-19 11:42:14
分享到 :

数据挖掘技术涉及到“如何处理数据和识别信息中的模式与趋势”,根据IBM提供研究报告所述,“数据挖掘技术与原理已经存在了很长的一段时间,但是随着大数据技术的出现和快速发展,数据挖掘显得更加富有意义,因此它变得更加流行了。”


据IBM研究报告所进行的估计,仅过去的两年(2016年至2017年)就产生了世界上百分之九十的数据。每天人们产生 2.5 EB的数据,足以填满1000万个蓝光光盘。


数据挖掘技术帮助专业技术人员了解和应用可用数据集。这些技术可以为企业和组织提供描述性、关联性和预测性的能力。以下就是5种经常使用的大数据挖掘技术。


01关联规则


关联规则使两个或多个项之间的关联以确定它们之间的模式。例如,超市可以通过顾客的消费数据通过关联规则确定顾客在买草莓时也常买鲜奶油,反之亦然。关联通常用于商品销售系统和客户营销系统中,以确定客户与产品之间的共同趋势。


这是一个非常简单的方法,通过关联规则的数据挖掘方法可以帮助企业从日常使用的信息和数据中挖掘出许多具有利用价值的数据,利用这些数据可以用来帮助企业提高经营效率和增加营业收入。


02分类与标签


我们可以使用多个属性来标记特定类别的项。分类将项目分配到目标类别或类(标签)中,以便准确地预测该类别(标签)内部具备什么特性。


某些行业会将客户进行分类。例如,一家信贷公司可以使用分类模型来确定贷款申请人的低、中或高信用风险。其他组织将当前和目标受众分为不同年龄和社会团体进行营销活动。用户画像系统就是根据分类和标签法来为用户建立各种属性的类别和标签, 从而得到用户的应用模型, 为企业的经营提供重要的决策依据。

03聚类


“聚类是将数据记录组合在一起的方法”,根据Alex Berson、Stephen Smith和Kurt Thearling在《Building Data Mining Applications for CRM》这本书中所说。“通常这样做是为了让最终用户对数据库中发生的事情有一个高层次的认识。”


查看对象分组情况可以帮助市场细分领域的企业,在这样的例子中可以使用聚类将市场细分为客户子集。然后,每个子集可以根据簇的属性来制定特定的营销策略,例如在一个簇中与另一个簇中的客户的购买模式的对比。

4决策树


决策树用于分类或预测数据。决策树从一个简单的问题开始,它有两个或多个的答案,每个答案将会引出进一步的问题,该问题又可被用于分类或识别可被进一步分类的数据,或者可以基于每个答案进行预测。


例如,可用应用决策树图分析手机供应商如何分类流失的客户,或不更新手机的客户。Building Data Mining Applications for CRM的作者为决策树图的构建提供了一些有趣的值得借鉴的东西。将数据分成多个叶结点,所有叶结点的数据记录数的加和等于输入数据的记录总数。例如,父结点中的数据记录总数等于其两个子结点中包含的记录总和。当在决策树上上下移动时,流失前和流失后的客户数量是需要存储的。这样能够很容易的理解模型的构建。


如果你需要针对可能流失的客户提供一份市场营销方案,则该模型(决策树模型)非常易于使用。


公司可以发展对其客户群的直觉;例如,可以得出这样的结论,那些多年一直在供应商身边客户和拥有手机的客户往往是忠诚的。


05序列模式


序列模式识别相似事件的趋势或通常情况发生的可能。这种数据挖掘技术经常被用来助于理解用户购买行为。许多零售商通过数据和序列模式来决定他们用于展示的产品。


“根据客户数据,您可以识别客户在一年中不同时间购买的特定的商品集合”,根据IBM研究报告所述,“在购物车的实际应用中,你可以自动地根据用户浏览频率和过去的购买历史记录来预测某些商品会被用户所关注, 可以在用户的购物车应用为用户推荐相关的商品信息”, 这就是利用大数据挖掘技术为用户推荐商品(推荐系统)。