基本概念聚类是一种发现数据之间内部结构的技术。聚类将所有数据实例组织到相似的组中,这些相似的组称为聚类。同一集群中的数据实例彼此相同,不同集群中的实例彼此不同。聚类技术通常被称为无监督学习,因为与监督学习不同,聚类中没有指示数据类别的分类或分组信息。
通过上面的陈述,我们可以将聚类定义为对在某些方面具有相似性的数据成员进行分组的过程。因此,集群是数据实例的集合。这个集合中的元素彼此相似,但都与其他集群中的元素不同。在集群的相关文献中,数据实例有时被称为对象,因为现实世界中的对象可以用数据实例来描述。同时,它有时也被称为数据点,因为我们可以用R维空间中的一个点来表示数据实例,其中R表示数据的属性个数。下图是一个二维的数据集聚类过程,从中可以清楚的看到数据的聚类过程。虽然隐藏在二维或三维数据集中的聚类可以通过目测清晰地发现,但是随着数据集维数的增加,目测很难甚至无法观察到。
SAS聚类分析案例1问题背景考虑以下案例。一名棒球管理员希望根据运动员的兴趣相似性对他们进行分组。显然,在这个例子中没有响应变量。管理者希望能够容易地识别玩家的分组。同时,他也想知道不同组别的选手之间的差异。
本案例的数据集是SAMPSIO库中的DMABASE数据集。以下是数据集中主要变量的描述信息:
在这种情况下,球队,位置,联赛,部门和薪金变量的模型角色被设置为拒绝,薪金变量的模型角色被设置为拒绝,因为其信息已存储在LOGSALAR中。聚类分析和自组织映射不需要目标变量。如果你需要在一个目标变量上识别群体,你可以考虑预测建模技术或者定义一个分类目标。
2聚类方法概述聚类分析常与监督分类相混淆,监督分类是对已定义的分类响应变量预测分组或类别关系。另一方面,聚类分析是一种无监督的分类技术。它可以根据所有输入变量识别数据集中的分组和类别信息。这些组和簇被赋予不同的编号。但是,不能用聚类数来评价类别之间的近似关系。自组织地图试图创建聚类,并在地图上以图形方式绘制聚类信息,我们在这里没有考虑这一点。
1)建立初始数据流
2)设置输入数据源节点
打开输入数据源节点。
从SAMPSIO库中选择DMABASE数据集。
将名称变量的模型角色设置为id,团队,职位,联盟,部门,工资变量设置为rejected。
探索变量的分布和描述性统计。
选择interval variables选项卡,您可以看到只有LOGSALAR和SALARY变量缺少值。选择Category Variables选项卡,注意没有丢失值。在这个例子中,没有涉及到类别变量。
关闭输入数据源节点并保存信息。
3)设置备选节点
虽然并不总是需要处理缺失值,但有时缺失值的数量会影响聚类节点生成的聚类解。为了生成初始聚类,聚类节点往往需要一些完整的观测值。当缺失值过多时,需要使用备选节点来处理。虽然这不是必需的,但在本例中使用了。
4)设置集群节点
打开集群节点并激活变量选项卡。K-means聚类对输入数据很敏感。一般来说,考虑标准化数据集。
在变量选项卡上,选择标准差单选框。
选择聚类选项卡。
据观察,默认选择聚类数量的方法是自动的。
关闭集群节点
5)聚类结果
在群集节点运行流程图以查看群集结果。
6)限制集群的数量
打开集群节点
选择聚类选项卡。
在“分类编号选择”部分,单击“选择标准”按钮。
输入最大分类数10。
单击“确定”关闭群集节点。
7)结果的解释
我们可以定义每一类的信息,结合背景识别每一类的特征。选择箭头按钮,
选择三维聚类图的某个类别,
选择工具栏中的刷新输入均值图表图标,
单击此图标可查看此类别的标准化均值图。
同样,其他类别也可以按照这种方法来解释。
8)使用洞察节点
洞察节点可用于比较不同属性之间的异常。打开insight节点,选择整个数据集,然后关闭节点。
从insight节点运行。
变量_SEGMNT_标识类别,距离标识观测值到类别中心的距离。使用insight窗口的分析工具来评估和比较聚类结果。
首先将_SEGMNT_的测量方法由区间转换为标称。
聚类应用于商业。聚类分析用于发现不同的客户群体,并通过购买模式描述不同客户群体的特征。聚类分析是市场细分的有效工具,也可用于研究消费者行为、发现新的潜在市场、选择实验市场以及作为多元分析的预处理。在生物学中,聚类分析用于对动物和植物进行分类,并对基因进行分类,从而了解种群的内在结构。在地理上,聚类可以帮助在地球上观察到的数据库商趋于相似。在保险行业,聚类分析通过一个较高的平均消费来识别汽车保单持有人的分组,根据房屋的类型、价值、地理位置来识别一个城市的房产分组。在互联网应用中,聚类分析用于对互联网上的文档进行分类,以修复信息。在电子商务中,聚类分析也是电子商务网站建设数据挖掘中非常重要的一个方面。通过对具有相似浏览行为的客户进行聚类,并分析客户的共同特征,电子商务的用户可以更好地了解他们的客户,并为客户提供更合适的服务。
聚类分析应用——市场细分聚类是将数据划分到不同的类或簇中的过程,因此同一簇中的对象具有很大的相似性,而不同簇中的对象具有很大的差异性。
从统计学的角度来看,聚类分析是一种通过数据建模来简化数据的方法。传统的统计聚类分析方法包括系统聚类、分解、加法、动态聚类、有序样本聚类、重叠聚类和模糊聚类。
从机器学习的角度来看,聚类相当于隐藏模式。聚类是搜索聚类的无监督学习过程。与分类不同,无监督学习不依赖于预先定义的类或带有类标签的训练样本,而是需要通过聚类学习算法自动确定,而分类学习的样本或数据对象是有类标签的。聚类是观察性学习,而不是示范性学习。
从实际应用的角度来看,聚类分析是数据挖掘的主要任务之一。而且聚类可以作为一个独立的工具,获取数据的分布情况,观察每一个数据聚类的特征,并针对具体的聚类合作做进一步的分析。聚类分析也可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
聚类分析的核心思想是物以类聚,人以群分。在市场细分领域,不同的顾客在消费同一种商品或服务时有不同的消费特征。通过研究这些特征,企业可以制定不同的营销组合,从而获得最大的消费者剩余,这是客户细分的主要目的。在销售区域的划分上,只有将企业所拥有的子市场合理地划分为几个大的区域,才能有效地制定符合特点的营销策略和策略
业务目标业务理解:数据名称《汽车销售.csv》。本例中使用的数据是一个汽车数据文件,其中包含各种品牌和型号的汽车的销售价值、定价和物理规格。价格和物理规格可以从edmunds.com和制造商处获得。它的定价是美国国内的价格。如下所示:
经营目标:准确定位市场,为汽车设计和市场份额预测提供参考。
数据挖掘目标:通过聚类对现有的汽车类型进行分类。
通过数据探索了解数据质量和字段分布的数据准备,并消除有问题的行或列以优化数据质量。
第一步:我们使用“统计”节点来检查数据的质量,从检查结果中,我们发现存在缺失数据,如下图所示:
第二步是处理缺失数据,我们选择使用缺失填充节点删除这些记录。配置如下:
在建模中,我们选择分层聚类的方式进行分析,尝试将各种汽车按照销量、价格、发动机、马力、轴距、车宽、车长、制动、排量、油耗进行分类。
因为层次聚类不能自动确定类别数,所以我们需要用自定义的方式来定义最终聚类中的类别数。分层集群节点配置如下(默认配置):
您可以使用交互式表格或右键单击分层聚类节点来查看聚类结果,如下图所示:
然后用饼状图看每个班级的规模,结果如下:
从图中可以看出,分成三类的样本数量相差太大,cluster_0和cluster_1都只包含1,所以这个分类没有意义,需要重新分类。我们尝试在层次聚类节点的配置中指定一种新的聚类方法:complete。新的聚类样本数分布如下:
cluster_0和cluster_1、cluster_2的样本数分别为:50和9、93。
执行后输出树形/冰柱图,从上到下都可以看到。一开始是一个大类,然后往下分两类。越往下的类别越细分,最后每条记录就是一个类别,如下图:
我们可以用柱状图来查看每个品类的销量和均价,如下图所示:
各品类总销量分布图
各品类平均销量分布图
每个类别的平均价格分布图
我们再来看看各个品类的销售分布。首先,我们需要使用Java代码段节点或者派生节点来生成销售字段,配置如下:
然后使用饼图检查销售分布情况。cluster_0和cluster_1、cluster_2的市场份额分别为32.39%、0.53%和67.08%,如下图所示:
案例总结通过这个案例,我们可以发现聚类分析真的很简单。聚类计算后,主要通过图形探索来评价聚类的合理性,确定聚类后分析每一类的特征。
标签:数据聚类聚类分析