如何用spss做聚类分析（spss聚类分析标准化处理）-全百科

如何用spss做聚类分析（spss聚类分析标准化处理）？如果你对这个不了解，来看看！

如何用SPSS对公众号文章进行聚类分析？，下面是爱数据网给大家的分享，一起来看看。

如何用spss做聚类分析

文末赠送

拉钩数据报告

在公众号的日常运营中，我们经常需要对文章进行数据分析，其中最有代表性的就是双高（高打开率、高分享率）、双低分析。

这个分析可以非常好地帮助我们了解哪些文章既是选题比较好（包括标题），而同时内容又是比较受用户欢迎的。那具体我们该如何进行双高双低分析呢？

常规的分类统计法及存在的问题

按照最常规的思路，我们可以先将文章进行分类，然后统计不同类别文章的平均打开率、分享率，通过Excel里面的透视图就可以很直观地了解哪类文章属于双高，而哪些又属于双低。

分类的方式有很多种，比如可以按照文章所属栏目、作者甚至是星期几；另外一种思路就是通过不同维度给文章打标签，比如内容标签（属于什么类型的内容）、类型标签（文章属于什么类型，科普文、鸡汤文等）、情感标签（正向、负向；开心、焦虑、恐惧等）。

下图就是一个通过内容标签对文章进行分类，然后在Excel里得到的透视图，通过这个图我们可以很直观地看出双高文章标签是「个人成长」、「话题讨论」，「金融投资」和「商品推广」则是双低。

利用标签分类法进行双高双低分析

这种对事物先进行分类，进而归纳并发现其规律是一种非常简单且实用的方法，但也有自身的局限性，主要表现在两个方面：

1. 凭经验和专业知识不能准确地分类

比如对公众号打标签，标签有很多维度，一篇文章是属于标签A还是B很多时候往往凭主观因素判断。

2. 单元变量很难反映事物的全部特征

即使按照某种规律进行了分类，但是这种分类并不能完全反映背后的规律。还是上图为例，虽然「话题讨论」类文章「阅读数」、「在看数」最高，但是这个标签里仍然有数据比较差的文章，甚至低于「商品推广」类的某些文章。

那除了分类法，还有什么其他的统计方法可以进行双高双低分析吗？

有的，这就是我们今天要介绍的聚类分析法。

什么是聚类分析法

1. 定义

聚类分析也称群分析或点群分析，它是研究多要素事物分类问题的数量方法，是一种新兴的多元统计方法，是当代分类学与多元分析的结合。其基本原理是，根据样本自身的属性，用数学方法按照某种相似性或差异性指标，定量地确定样本之间的亲疏关系，并按这种亲疏关系程度对样本进行聚类。

通俗的讲，聚类分析就是根据事物彼此不同的属性进行辨认，将具有相似属性的事物聚为一类，使得同一类的事物具有高度的相似性。应用到公众号文章上，我们认为双高文章一定具备某些类似属性（可能已知，也可能未知），利用聚类分析就可以很好地把这些好文章给找出来。

常用聚类方法：系统聚类法，K-均值法，二阶聚类法等。

聚类分析法背后的数学原理比较复杂，我们可以直接拿过来用，不用太深究其背后的原理。

2. 聚类分析法和标签分析法的区别

通过上面的介绍，我们可以很明显地看出聚类分析和标签分析法的区别：

标签分析法要先找出规律，然后分类，最后统计数据

聚类分析法完全不用先假设条件，通过对文章数据（打开率、分享率）分析，找出拥有双高特征的文章，然后我们才对双高文章进行分析并从中找出规律来

如何使用SPSS进行聚类分析

1. 安装SPSS软件，比如IBM SPSS Statistics

可以从官网下载试用版，或者网上搜索下载链接。

2. 数据准备

可以利用壹伴等工具将公众号后台数据导出来，把需要分析的维度保留下来。下表就是一个最简单的数据表格，仅包括「话题讨论」、「打开率」和「分享率」。

文章数据表格

3. SPSS软件使用

（1）将上述数据拷贝到SPSS软件的「数据视图」表格里。

注意：拷贝完成后点击「变量视图」查看一下各个变量（默认是VAR00001、VAR00002格式，可以改成有意义的名字）的类型和宽度。

比如“标题”（默认是VAR00001，手动修改）宽度默认是51（25.5个中文），可能不够，我们将其调整为80。另外「打开率」、「分享率」的类型是「字符串」，应该改成百分比，这个点击类型无法直接修改。我们可以通过菜单「数据」——「定义变量属性」来进行修改。

（2）在「数据视图」中选中「标题」、「打开率」和「分享率」这三列，点击菜单「分析」——「分类」——「K-均值聚类」。

在弹出的对话框中将「打开率」、「分享率」设置为变量，然后点击「保存」按钮，复选其中两个复选框。「聚类数」设置为4，因为这里我们希望得到「高高」、「高低」、「低高」和「低低」这四类文章。点击「确定」按钮系统就自动开始运算。

（3）系统运行完成后，会弹出一个界面，里面显示了本次聚类的结果（因为「聚类数」设置为4，所以有4类结果）。

通过「打开率」和「分享率」这两个数据，我们可以看出聚类2属于双高，共有11篇文章，而聚类4属于双低，共有48篇文章。

（4）这个时候，我们再回到「数据视图」，发现表格里多了两列「QCL_1」和「QCL_2」，其中「QCL_1」代表的就是所属的聚类。

（5）将这个表格存为Excel文件，在Excel里通过透视图就能很直观地看出哪些文章属于双高，哪些文章属于双低。然后我们可以对双高文章进行进一步分析，比如利拥NLPIR工具分析词频和标题情感，我们还可以对这些文章再进行分类（比如按标签，按作者），我们可以得出双高分钟里哪些标签占比比较高，哪些作者写的文章比较多。

End.

作者：三少爷的见

来源：简书

扫描图片上二维码领取

拉钩数据报告

深圳线下·爱数据社区工具系列课程

工具课程：真实数据分析师如何解决实际问题

「MySQL实战案例讲解」

活动时间：1月12日 13:00-17:00

温馨提示：课程需要现场操作，请参加课程的

同学记得携带笔记本电脑

spss聚类分析标准化处理

每个人在做数据分析时都有自己的风格和特点，也许思路不同，也许方法不同。但在有些方面要注意的问题都是类似的，因为数据分析的思想是相通的。

一、要注意每种统计分析方法的适用范围。

许多分析方法对数据的要求很高，如果样本的分布不符合要求，样本量数量不足，或者存在大量的伪样本，都会造成最后结果的偏差甚至是完全错误。比如，我们经常要使用的因子分析、聚类分析，如果样本量不足，虽然也能够通过SPSS获得分析结果，但实际上这样的分析结果没有意义。

二、在选择一种数据分析方法的同时，要按照方法的要求整理数据库。

错误的数据库格式对于研究有时是灾难性的。我们在使用任何研究模型之前，都要考虑数据的适用性。同样，数据的合理转换也很重要。比如，我们经常会提问被访者的出生年份而不是周岁年龄，这样将会较少回答的偏差。我们把收集到的数据进行简单的转换，得到被访者的年龄。出于计算的需要，我们还经常把几个变量合并（或整理）成一个或者另外几个变量。

三、如果必要，可以使用不同的研究方法对同一问题进行解释，来互相验证结论的真伪。

如果出现互相矛盾，一定要找到矛盾的原因，去伪存真。任何的分析模型和方法都有其使用的局限性，在一定场合会失效。片面的相信任何高级分析方法，哪怕是世界上最先进的分析模型，研究失误都是必然的

四、数据分析结果要使用通俗易懂的语言或图表进行描述，繁琐高深的公式和过程不应该经常成为最终研究报告的一部分。

我们知道数据分析工作的最大难度在于数据处理，但是即使再精确的数据分析结果，如果选择了不友好的可视化也是无济于事。

在选择数据工具时可以从图表样式、可视化界面，动态交互等几方面来考虑。工具可大胆选择，但要考虑数据信息的安全性，尤其是随着一批云数据处理产品的出现。简易的使用感也是要考虑的，有些工具可能还带着原始的SQL取数；有些都集成在功能块中，自助分析，比如FineBI。

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

如何用spss做聚类分析（spss聚类分析标准化处理）

如何用spss做聚类分析

spss聚类分析标准化处理

猜你感兴趣

推荐阅读