关键词不能为空

当前您在: 主页 > 英语 >

IBMSPSSStatistics操作进阶

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-02 13:59
tags:

-

2021年3月2日发(作者:god)













第一部分



SPSS


数据分析基础







1





数据分析方法论简介



1.1



三种数据分析方法论



所有的数据分析 工作都需要在一定的方法论指导下才能正确进行。随着社会的进步,


科学技术的发展,统 计学的应用已经渗透到人们工作和生活的各个环节,


但不同领域所需要

< br>的方法论体系有所差别,这些方法论体系大致可分为如下


3


种:



?



严格设计支持下的统计方法论。



?



半试验研究支持下的统计方法论。



?



偏智能化、自动化分析的数据挖掘应用方法论。



IBM SPSS Statistics


作为全球最为出色的 统计软件之一,在功能上完全支持上述


3


种方

< br>法论体系,


并满足绝大多数情况下的统计分析需求,


Mo deler


则倾向于数据挖掘方法论的具


体实现需求。由于对方 法论的理解比对分析方法体系的掌握更为重要,因此本章首先对此


进行扼要介绍。用户在 遇到实际分析需求时,需要首先判断在各自所属的领域中哪种方法


论更为合适,并有针对 性地加以学习和研究。



1.1.1



严格设计支持下的统计方法论



严格设 计支持下的统计方法论也称为经典统计方法论,它之所以经典,不仅因为其发


展较早,而 且可使研究者在整个研究体系中尽量掌控一切,具体特征如下:



?



这类研究都具有非常严密的研究设 计,并且严格遵循七大步骤,即试验设计、数


据收集、数据获取、数据准备、数据分析、 结果报告和模型发布。七大步骤中以


试验设计步骤最为关键,它直接影响整个研究的成败 。



?



在此 类研究项目中,试验设计中会充分考虑需要控制的影响因素,并采用多种设


计方案来对非 研究因素的作用加以控制,比如配伍、完全随机抽样、随机分组等。



?



数据在设计完毕后开始采集,整个 试验过程会在尽量理想的情况下进行,从而在


试验及数据获取过程中对无关因素的作用加 以严格控制。例如在毒理学实验中可


以对小白鼠的种系、周龄、生活环境、进食等做出非 常严格的设定。



?



原始数据往往需要从头采集,数据质量完全取决于试验过程是否严格依从设计要


求,以及试验设计本身是否合理等因素。当然,这也意味着每个原始数据的成本


都非常高 。





?



在分析方法上,最终采用的统计模 型应当基于相应的试验设计所定制的分析模型。


由于在试验设计和试验实施过程中已经对 非研究因素的影响做了充分考虑和控


制,因此而在很多情况下往往可以只利用非常简单的 统计方法


(



t


检验、卡方检


验等


)


来得到最终结论 。各种复杂高深的统计模型不是没有用武之地,但它们不是


至关重要的工具。

< p>


此类统计方法论的应用在实验室研究、临床试验等领域最为常见,所使用 的分析方法


常常是单因素分析方法,或者针对一些复杂设计使用一般线性模型

< p>
(


方差分析模型


)


的定制


框架。



1.1.2



半试验研究支持下的统计方法论


< /p>


经典统计分析方法论对整个流程的控制和干预非常严格,但这在许多情况下是无法满


足的,因此往往退而求其次,形成了所谓半实验研究支持下的统计分析方法论,其具体特


征如下:



?



研究设计具有明显的向实际情况妥协的特征,所谓七大步骤可能不被严格遵循,


例如在数据存在的情况下,数据收集过程就会被省略。总体而言,七大步骤中从


数据准备开始的后三步的重要性比经典统计分析方法论高。



?



研究设计可能无法做到理想化,例 如抽样与分组的完全随机性,试验组及对照组


干预措施的严格控制都可能无法严格满足。 举个最典型的例子,药物研究中理想


状况应当设立安慰剂对照组,但是如果是治疗恶性肿 瘤的药物,又怎么忍心让肿


瘤病人吃安慰剂呢?此时往往设定标准治疗药物对照组,甚至 在一些极端情形下


不设对照组。虽然这样做在统计设计上并不理想,但更符合医疗道德的 要求。



?



整个数据采集过程难以做到理想化,


举一个简单的例子,


定点调 查


(Central Location


Test)


是市场研究常用的样本采集方式,严格地说,调查地点、调查时间,甚至当


天的天气都可能会对样本的代表性以及数据结果产生影响,但它们最终只能凭借


访问者 的责任心和运气来尽量加以保证,而从设计本身是很难控制的。



?



部分数据可能先于研究设计而存在 ,整个研究中需要在这些数据的基础上补充所


需的其他部分信息。另一方面,这些数据可 能不完全满足分析需求,但这种缺陷


却无法得到修正。例如,利用全国各省的经济和人口 数据进行省级综合发展程度


排序,可以考虑使用因子分析来做,因子分析原则上要求至少 有


50


个案例才能保


证结果比较稳健, 但全国只有


34


个省级行政区,难道为了这个统计分析再请有关


部门弄出十几个新的省市来吗?这显然是不切实际的。



?



在分析方法上,由于试验设计难以 做到完美,因此各种潜在影响因素的作用可能


并不明确,需要以各种可能的影响因素中进 行筛选和探索。可能用到的统计方法


颇为繁杂,从简单的统计描述到复杂的广义线性模型 都可能用到,因此对影响因


素的筛选成为很多分析项目的重点任务之一。事实上,很多复 杂的多因素分析模



4





1





数据分析方法论简介



型就是在这类研究的实际分析需求刺激下产生并蓬勃发展的。但无论如何,可以


使用的方法仍然以经典统计分析方法为主。



此类统计方法论 的应用范围目前最广泛,在社会学、经济学研究中特别常见。



1.1.3



偏智能化、自动化分析的数据挖掘应用方法论



此类分析方法论是随着近年来计算机技术的飞速发展而诞生的,一方面数据库技术使

得许多行业出现了业务系统,有了自动积累的海量业务数据库,相应地诞生了大批新的分

析需求,但其数据量却使传统方法很难有效满足。另一方面,人工智能和计算能力的发展

也催生了一批全新的分析方法,例如


Bootstrap(


自助法


)



Bayes(


贝叶斯


)


方法与


MCMC(


马氏


链蒙特卡罗


)

方法、神经网络、遗传算法、树模型与随机森林等,它们赋予了分析人员全新


的能力 。在这些因素的相互作用下,一种新的分析方法论——数据挖掘方法论应运而生了。


< /p>


一般认为,数据挖掘是近年来由计算机人工智能、统计学和数据仓库技术交叉发展而


来的一种新的方法体系,它通过采用各种自动或半自动化的分析技术,从海量数据中发现


有意义的行为和规则,迅速找到大量资料间的关联与趋势。其最大的特点是自动化、智能


化,即充分利用计算机人工智能技术,自动


/


半自动地分析数据间的复杂联系,探寻一种独


特的、通过其他方法可能难以发现的模式, 以便快速发现有价值的信息。整个分析框架是


动态、可更新的,并且在分析结果的验证上 提供了许多新的思路。



一位博士师兄在


20


世纪末向我们介绍数据挖掘方法体系的时候,


曾经用一句 很精



辟的话对其出身进行了总结:一部分是新的,一部分是旧 的,一部分是借的。



和前两种较为传统的分析方法论相比,数 据挖掘方法论的特点可归纳为:完全以商业


应用需求为导向。



可认为传统方法论和数据挖掘方法论的最大区别在于:前者需要方法体系


/


逻辑正确,


然后慢工出细活。后者由于需要处理的数 据量大、时间要求高,只需要结果正确,分析方


法的理论正确性并不重要,算法细节也可 以是灰箱甚至黑箱。正所谓无论白猫还是黑猫,


只要抓住老鼠就是好猫。



数据挖掘所需要解决的问题往往具有很强的时间要求,


例如消费者在网上购物时,



页面上往往会出现“购买此商品 的顾客也同时购买”之类的推荐栏目。其中的商


品就是利用快速的数据挖掘算法筛选出来 的。虽然这类分析的准确率能高一些最


好,但是相比之下,网站更愿意选择


2


秒钟就能反馈给浏览者的弱关联算法,而


不是采用


10


分钟才能计算出准确结果的强关联算法,因为买家等不起!



?



分析流 程出现了很大的变化,不再是线性的七大步骤,而是周而复始的循环结构,


且非常强调前 期的商业理解,以及后期的模型发布与应用。在几种常见的数据挖


掘方法论中,以


CRISP-DM


最具代表性。




5




?



由于数据往往来源于业务系统,比 如超市的


POS


机,银行的


A


TM


机、电信公司


的业务数据库,因此数据采集 过程是全自动的,完全先于整个研究项目而存在。


这也意味着这些数据根本不是为数据分 析准备的,因而难以做到理想化。例如在



POS


机数据进行分析时,如果知道购物者的年龄、性别、家庭收入状况等,将


可以 得到更有价值的分析结果,但即使关联了会员卡数据,这些背景资料也几乎


是不可能补全 的,更不用说还存在退休的父母拿着子女的会员卡去购物这种常见


的情况了。

< p>


?



由于业务系统的数 据会动态增加,因此几乎不可能考虑另行加以人工收集希望补


足的数据,而只能看菜吃饭 ,否则整个项目将永无止境,失去其实际价值。



?



在分析方法上,由于极端强调商业 应用,因此分析方法的选择其实并不重要,往


往采取多种方法并行,从中择优的分析思路 。例如,对于一个客户流失预测项目,


完全可以同时采用判别分析、

Logistic


回归、神经网络、支持向量机


(SVM)



Bayes


分析、树模型等多种方法 平行分析,然后采用投票或者优选的方式得到最终的预


测模型及结果。

< br>


在完全以满足商业需求为目标的背景之下,很多被认为非常经典和基础的统计方 法,


比如参数估计和常规的假设检验等方法在数据挖掘中反而不一定被用到。另一方面, 由于


海量数据库、动态增量、平行分析等特点的存在,意味着数据挖掘中非常强调自动化 ,即


使在项目期间会有很多人脑的智力投入,但最终项目结束时提交的一定是自动化的业 务流,


即以硅脑代替人脑,软件代码代替人工操作。



最后,能否满足商业需求,或者说模型是否能够在业务系统中得到真正的发布和应用,

< p>
则是判断整个数据挖掘项目是否成功的唯一标准,这一点和传统方法论有非常鲜明的区别。



1.2



CRISP-DM


方法论介绍



1.2.1



概述



商用数据挖掘是一个从商业中来 到商业中去的过程,


如图


1.1


所示。


分析师或客户首先


提出一个商业问题,然后在企业或者组织中需 要结合三方面的资源——高质量的数据、业


务知识和数据挖掘软件进行数据挖掘,从而从 大量数据中获取有业务价值的洞察力,继而


将这些业务洞察力以某种形式嵌入到业务流程 中,从而达到业务目标的实现。例如销售收


入或者利润的提高,成本的下降,运行效率的 提升等。



在这个过程中,尽管数据挖掘的各种算法是数据挖掘 过程的核心步骤,但是并不是全


部,为了保证数据挖掘项目的成功实施,还有很多决定性 因素,例如商业问题如何界定、


数据如何选取、生成的模型如何嵌入到现有的业务流程中 等问题都将直接影响数据挖掘是


否能够取得商业上的成功。




6




结合三方面资源


进行数据挖掘


< p>
1





数据分析方法论简介





业务问题


业务知识


业务洞 察力


业务目标实现


数据挖掘软件




1.1



数据挖掘应用过程逻辑图



为了使数据 挖掘过程更加标准化,


产生了很多指导数据挖掘过程的方法论,


CRISP-DM


就是其中的优秀代表。


CRISP- DM



CRoss Industry Standard Process for Data Mining(


跨行业


数 据挖掘标准流程


)


的字母缩写,整个方法论的概貌如图


1.2


所示,它将整个数据挖掘过程


分解为商业 理解、数据理解、数据准备、建立模型、模型评估和结果部署


6


个步骤。该方


法论认为:


数据挖掘过程是循环往复的探索过程,


6


个步骤在实践中并不是按照直线顺序进


行,而是在实际项目中经常会回到前面的步骤。例如在数据理解阶段发现现有的数据无法


解决商业理解阶段提出的商业问题时,就需要回到商业理解阶段重新调整和界定商业问题;

到了建立模型阶段发现数据无法满足建模的要求,则可能要重新回到数据准备过程;到了

模型评估阶段,当发现建模效果不理想的时候,也可能需要重新回到商业理解阶段审视商

业问题的界定是否合理,是否需要做些调整。



商业理解< /p>


数据理解


数据准备


结果部署


数据


建立模型


模型评估




1.2



CRISP-DM


数据挖掘方法论的


6


个步骤




7





1.3


是在


CRISP-DM


方法论中,各个阶段的任务与输出的参考模型,其中粗体字部


分是各个阶段要 完成的任务,普通宋体字部分是完成这些任务应有的输出内容。在进行实


际的数据挖掘过 程中,分析师不一定需要对每个任务和输出都做书面记录,但是应该对这


些内容予以充分 关注,从而保证项目成功完成。



商业理解

确定商业目标


背景


商业目标


商业成 功标准


数据理解


数据准备


建立模型


选择建模技术


模型技术


模型要求与假设


生成检验设计


检验设计


建立模型

< p>
模型参数设置


模型描述


评估模型

< br>模型评估


修正模型参数设置


模型评估

结果部署


数据的初步采集


选择数据


数据初步采集报告


数据进入


/


剔除的逻


辑与标准


数据描述


数据描述报告


数据清洗


形势评估


数据清洗报告


资源需求、假设和


数据探索性分析


约束


数据探索分析报告


数据构建


风险和应急方案


衍生变量


术语


验证数据质量

生成新的记录


成本与收益


数据质量报告

整合数据


确定数据挖掘目标


数据合并


数据挖掘目标


数据挖掘成功标准


数据格式化

< br>重整数据


项目实施计划


项目计划


数据集


工具和技术的初步


数据集描述


评 估


评估结果


规划部署方案


从商业成功标 准的


部署方案计划


角度进行数据挖掘结


果评估


规划监控和维护方案


经确认的模型


监控和维护计划


过程回顾


生成的最终报告

对数据挖掘过程的


最终报告


回顾


最 终报告演示


确定下一步的步骤


可能的行动列表

< br>项目回顾


项目经验总结




1.3



CRISP- DM


的任务与输出参考模型



1.2.2



商业理解



商业理解


(Business Understanding)


阶段主要完成对商业问题的界定,以及对企业内外部


资源的评估 和组织,将产生如下主要文档


(


结果


)




?



确定商业目标。包括商业背景、商业目标、成功标准等。



?



形势评估。包括企业拥有资源、需 求、假定和限制、风险偶然性、专业术语、成


本收益等。



?



确定数据挖掘目标。包括数据挖掘目标、数据挖掘成功标准等。



?



制订项目计划。包括项目计划、工具方法评估等。



1.2.3



数据理解



数据理解


(Data Understanding)


阶段主要完成对企业数据资源的初步认识和清理,


将产生


如下主要文档


(


结果


)




?



收集原始数据,产生数据收集报告。



?



数据描述,产生数据描述报告。




8





1





数据分析方法论简介



?



数据探索性分析,产生探索性数据分析报告。



?



数据质量描述,产生数据质量报告。



1.2.4



数据准备



数据准备


(Data Preparation)


阶段主要完成在建立数据挖掘模型之前对数据的最后准备工


作,数据挖掘模型 要求的数据将是一张二维表,而在现实企业中,数据往往被存储在不同


的部门、不同的数 据库或者数据库中的不同数据表中。这一步骤将把这些数据集整合在一


起,生成可以建立 数据挖掘模型的数据集和数据集描述。这个阶段将产生如下文档


(


结果


)




?



选择数据。不是所有数据都会适合 数据挖掘,在数据准备阶段要确定数据挖掘应


该包含及剔除的数据。


?



数据清理。在建立模型之前 ,必须对数据进行适当的清理,即对不符合实际情况


的数据进行调整或者剔除,并生成数 据清理报告。



?



数据重构。生成新的字段和记录。



?



整合数据。对相关的数据进行合并处理。



?



格式化数据。使之适合数据挖掘的需要。



1.2.5



建立模型



建立模型

< br>(Modeling)


是数据挖掘工作的核心阶段,按照大类来分,数据挖掘模型 可以分


为数据描述和汇总


(Data


description


and


s ummarization)


、细分


(Segmentatio n)


、概念描述


(Concept


d escription)





(Classification)





(Prediction)


< p>






(Dependency


analysis)


等。这一步骤具体产生如下文档


(


结果


)




?



选择建模技术。模型的假定和要求以及对模型技术进行评估。



?



产生检验设计。从技术角度分析如何对模型效果进行检验。



?



建立模型。完成模型参数的设定, 建立模型并对模型做适用性概述。



?



模型评价。对模型使用的评价以及对各参数做调整。



1.2.6



模型评价



模型评价

< br>(Evaluation)


是数据挖掘整个流程中非常重要的环节,这一步将直接 决定模型


是否达到了预期的效果,模型是否可以发布应用,还是必须重新进行调整。模型 评价可以


分为两个部分:一个是技术层面,主要由建模人员从技术角度对模型效果进行评 价;另一


个是商业层面,主要由业务人员对模型在现实商业环境中的适用性进行评估。这 一阶段将


产生如下文档


(


结果


)





9




?



结果评估。评估产生的数据挖掘模 型,从中筛选出被认可的数据挖掘模型。



?



数据挖掘过程回顾。查找是否存在疏忽和遗漏之处。



?



确定下一步的工作内容。列出所有 可能的行动方案,以进行决策。



1.2.7



结果部署



结果部署


(Deployment)


阶段是运用数据挖掘结果解 决现实商业问题的过程,


这一阶段将


实现数据挖掘的商业价值, 具体产生如下文档


(


结果


)

< p>



?



结果发布计划。



?



监测和维护模型计划。随着商业环 境的变化,模型的适用性和效果也可能发生改


变,必须建立对模型进行监测和维护的机制 。



?



生成最终的数据挖掘报告。



?



项目回顾。总结项目中的经验教训 ,为以后的数据挖掘项目进行经验积累。




10






2





数据分析方法体系简介


< p>
本章将概括介绍目前常见的数据分析方法,


以及这些方法在


IBM SPSS Statistics



IBM


SPSS Modeler


中的实现位置。无论哪一种分析方法 ,都离不开数据的计算机化及存储操作,


因此我们将从数据的存储类型讲起。

< p>


2.1



统计软件中的数据存储格式




2.1.1



二维数据表



对于比较复杂的分析项目 ,特别是基于业务系统的分析项目,所需的数据很可能是以


一个结构复杂的数据仓库的形 式出现,统计软件需要从中提取所需的数据并加以分析。但


实际上,我们可以将问题简化 ,因为对于一个具体的分析项目,统计软件所面对的必然是


一个标准的关系型数据库下的 二维数据表,每一行代表一个案例,每一列代表一个变量。


统计软件所需完成的工作,就 是寻找行


(


案例


)

与列


(


变量


)

之间的数量联系,从而基于这些统


计信息辅助研究人员作出业务决策。



简化到二维表形式的数据集是最基本的统计分析用数据格式,也是包括


Statistics


以及


Modeler


在内的统计软件最常见的输入格式。对于一张二维表,


所有变量 的属性定义构成了


其数据结构,也就是该表格的框架部分,所有案例都将按照此结构来添 加数据。




IBM SPSS St atistics


为例,


其数据窗口实际上由两个视图构成


(


见图


2.1)



变量视图用


于显示及管理数据表的结构,其中每行代表一个变量 的具体属性;数据视图用于显示及管


理具体的数据,每行代表一个观测个案的取值情况。





2.1



IBM SPSS Statistics


数据窗口的数据视图和变量视图






2.1.2



变量的存储类型



根据统计软件的不同 需求,对变量的存储类型可以有多种设定,但基本的形式有两种:


数值型和字符型。例如 工资、年龄、成绩等变量都可以按照数值型数据来存储,而姓名、


住址等则是典型的字符 型变量。此外还有多种衍生类型,例如日期型变量,在绝大多数统


计软件中实际上就是一 种特殊的数值型变量。



IBM SPSS Statisti cs


中也不例外,


其中存储


的是相应时 间与


1582



10

< br>月


14


日零点相差的秒数,如


1 582



10



15


日这一时间在变


量中存储的就是


60


?


60


?


24=86400


,只要将变量类型变换为数值型就可以看到。




IBM SPSS Statistics

< br>中,变量的存储类型在变量视图的“类型”列处加以设定。在变


量视图中选择“类 型”列中的单元格时,右侧会出现形如


的省略号按钮,单击它会弹出

变量类型对话框,用于选择变量的存储类型,以及变量宽度、小数位数等。



2.1.3



变量的测量尺度



如果只使用变量类型 ,很多时候并不能准确地说明变量的含义和属性,因此还需要进


一步给变量增加测量尺度 这一属性。在统计学中,按照对事物描述的精确程度,将所采用


的测量尺度从低级到高级 分为


4


个层次:定类尺度、定序尺度、定距尺度和定比尺度。< /p>



1.


定类尺度



定类尺度


(Nominal Measurement)


是对事物的类别或属性的一种测度,


按照事物的某种属


性对其进行分类或分组。定类变量的特点是其值仅代表事物的类别和属性,仅能测度类别


差,不能比较各类之间的大小,所以各类之间没有顺序或等级之分,例如变量“血型”就


是一个定类尺度的变量。而对于“性别”这种两分类变量,一般仍然将其归为定类尺度变


量。但是两分类变量较为特殊,即使将其归为其他类型,一般也不会影响后续分析。


2.


定序尺度



定序尺度


(Ordinal Measurement)


是对事物之间等级或顺序差别的一种测度,可以比较优


劣或排序。定序 变量比定类变量的信息量多一些,不仅含有类别的信息,还包含次序的信


息。例如,按照 小学、中学、大学这种方式来对“学历”加以记录,它就是一个典型的定


序变量。



3.


定距尺度和定比尺度



定距尺度


(Interval Measurement)


是对事物类别或次序之间间距的测度。定距变量的特点


是其不仅能将 事物区分为不同类型并进行排序,而且可以准确指出类别之间的差距是多少,


最典型的定 距尺度变量就是温度。定比尺度


(Scale Measurement)


则更进一步,和定距尺度的


差别在于它有一固定的绝对“零点”


。比如温度,


0


℃只是一个普通的温度


(


水的冰点


)


,并非


没有温度,因此它只是定距变量,而重量则是真正的定比变量,


0kg


意味着没有重量可言。



12





2





数据分析方法体系简介


< p>
由于这两种测量尺度在绝大多数统计分析中没有本质的差别,因此很多时候没有做严格


区分。



4. IBM SPSS Statistics


中的相应功能




IBM SPSS Statistics

< br>中,变量的测量尺度在变量视图的“度量标准”列处加以设定。


在变量视图中选择 “度量标准”列中的单元格时,会弹出下拉列表,从中选择所需的测量


尺度即可。不过目 前这种选择只会影响制图和制表过程,而对绝大多数统计分析过程的使


用没有太大影响。




3


种尺度 在许多统计书籍中会有更为通俗的称呼:无序分类变量、有序分类变


< br>量和连续性变量。从实用的角度出发,本书将同时采用这两种命名体系。



2.2



数据的统计描述与参数估计



2.2.1



连续变量的统计描述



当数据量较少, 比如只有


5


个人的身高,或者


7


个人的性别资料时,研究者可以通过


直接观察原始数据来了解所有的信 息。但是,实际工作中所接触的数据量往往远大于人脑


可以直接处理、记忆的容量,此时 就必须借助汇总后的统计指标才能了解数据的全貌。统


计指标可以反映数据几个方面的特 征:集中趋势、离散趋势、分布特征以及其他趋势。



1.


集中趋势的描述指标



集中趋势用于描 述数据的平均水平,这可能是人们希望了解的最基本的汇总信息,在


统计学中用于描述集 中趋势,或者说数据分布的中心位置的统计量就被称为位置统计量


(Location Statistic)



针对不同的数据分布状况,

< p>
统计学家提供了多种统计量来代表原始数据


的中心趋势,比如平均值、中位 数和众数等。



?



算术均数


(Arithmetic Mean)


:是常用的描述数据分布集中趋势的统计指标,往往将


其直接简称为均数。


总体均数用希腊字母


?


表示,


样本均数常用


X


表示。


对一 组数



X


1


,


,


X


n


而言, 均数的算法为各数据直接相加,再除以例数


n


。均数是最常用< /p>


的集中趋势描述指标,但它不适用于对严重偏态分布的变量进行描述,只有单峰

< p>
和基本对称的分布资料,使用均数作为集中趋势描述的统计量才是合理的。



?



中位数


( Median)



将全体数据按大小顺序排列,


在整个数列中处于中间位置的那个


值。它把全部数值分成两部分,比它小和比它 大的数值个数正好相等。中位数适


用于任意分布类型的资料,但由于中位数只考虑居中位 置,对信息的利用不充分,


所以当样本量较小时数值会不太稳定。因此对于对称分布的资 料,分析者会优先


考虑使用均数,仅仅在均数不能使用的情况下才用中位数加以描述。< /p>



?



几何均数


(Geometric Mean)

< br>:用


G


表示,适用于原始数据分布不对称,但经对数转< /p>



13




换后呈对称分布的资料。可以发现,几何均数实际上就是对数转换后的数据

< br>lg


X


的算术均数的反对数。



?



截尾均数


(Trimmed Mean)



由于均数较易受极端值的影响,


因此可以考虑按照一定


比例去掉两端的数据,然后再计算均数。如果截尾均数和原均数相差不大,则说


明数据不存在极端值,或者两侧极端值的影响正好抵消。常用的截尾均数有


5 %



尾均数,即两端各去掉


5%


的数据。



?



其他集中趋势描述指标:除了上述最常用的几种指标外,还会遇到众数、调和均


数等,前者是指样本数据中出现频次最大的那个数字,后者是指观察值


X


倒数之


均数的倒数,这些指标的实际应用都比较少见。



2.


离散趋势的描述指标



显然,仅仅反映 数据的集中趋势是远远不够的,还要反映数据的离散趋势,即数据的


波动范围,描述该趋 势的统计量称为尺度统计量


(Scale


Statistic )


,常用的尺度统计量有标准


差、方差、四分位间距等。



?



全距


(Range)


:全距又称为极差,即一组数据中最大值与最小值之差, 它是最简单


的变异指标,但因其过于简单,因此一般只用于预备性检查。



?



方差

< br>(Variance)


和标准差


(Standard D eviation)


:总体和样本的标准差分别用


?

< p>



s



表示,方差即标准差的平方,这两个指标是应用最广泛的离散程度描述指标,由


于标准差和方差的计算利用到每个原始变量值,所以它们反映的信息在离散指标


中是最全 的,因此也是最理想、最可靠的变异描述指标。但也正是由于标准差和


方差的计算用到每 一个变量值,所以它们会受到极端值的影响,当数据中有较明


显的极端值时不宜使用。实 际上,方差和标准差的适用范围应当是服从正态分布


的数据。



?



百分位数、四分位数与四分位间距 :百分位数


(Percentile)


是一种位置指标,用


P


x


表示。一个百分位数

< br>P


x


将一组观察值分为两部分,理论上有


x


%


的观察值比它小,



(100


-


x


)%


的观察值比它大。前面学习过的中位数实际上就是一个特定的百分位

数,即


P50


。除中位数外,常用的百分位数还有四分位数 ,即


P25



P50

< br>和


P75



位数的总称。这


3


个分位数正好能够将总体单位按标志值的大小等分为四部分,



P25



P75


这两个分位数间包括中间


50%


的观察 值,因此四分位间距既排除了


两侧极端值的影响,又能够反映较多数据的离散程度,它是 当方差、标准差不适


用时较好的离散程度描述指标。



?



变异系数


(Coefficient


of


Variation)


:当需要 比较两组数据离散程度大小的时候,如


果两组数据的测量尺度相差太大,或者数据量纲不 同,直接使用标准差来进行比


较不合适,此时就应当消除测量尺度和量纲的影响,而变异 系数可以做到这一点,


它是标准差与其平均数的比。


CV


显然没有量纲,同时又按照其均数大小进行了标


准化,这样就可以进行 客观比较了。




14





2





数据分析方法体系简介



3.


分布特征、其他趋势的描述指标



除了以上两大基本趋势外,随着对数据特征了解的逐步深入,研究者常常会提出假设,< /p>


认为该数据所在的总体应当服从某种分布。那么,针对每一种分布类型,都可以由一系列< /p>


的指标来描述数据偏离分布的程度。例如对正态分布而言,偏度系数和峰度系数可以用来< /p>


反映当前数据偏离正态分布的程度。相对而言,这些分布指标使用得较少。



由于假定的分布不同,所使用的分布特征描述指标也会有所差异,这里我们只 简单介


绍和正态分布有关的偏度系数及峰度系数的概念。



?



偏度


(S kewness)


:用来描述变量取值分布形态的统计量,指分布不对称的方向和程


度。样本的偏度系数记为


g


1


,偏度是与正态分布相比较而言的统计量。


g


1


>0


分布


为正偏或右偏,即长尾在右,峰尖 偏左;


g


1


<0


分布为负偏或左偏,即长尾在左,


峰尖偏右;


g


1


=0


分布为对称状态。



?



峰度


(K urtosis)


:用来描述变量取值分布形态陡缓程度的统计量,是指分布图形的


尖峭程度或峰凸程度。样本的峰度系数记为


g


2


。峰度也是与正态分布相比较而言


的统计量,


g


2


>0


即峰的形状比较尖 ,比正态分布峰要陡峭;


g


2


<0


即形状比正态分


布平坦;


g


2


=0


分布为正态峰。



除上述几类指标外,统计描述中还可能需要描述一些上文未提到的数据趋势,比如数


据呈单峰还是双峰分布,数据是否存在极端值等,常用的有专门针对异常值数据进行描述


的极端值


(Outlier)


列表等。



4. IBM SPSS Statistics


中的相应功能



Statistics


中的许多模块均可完成统计描述的任务,


除各种用于统计推断的过程会附带进


行相关的统计描述外,主要涉及统计描述的有以下< /p>


3


个子菜单如图


2.2

< br>所示。



?


< br>“分析”


?


“报告”


:从属于< /p>


Base


模块的几个制表过程,它提供了从最基本的变量


值标签代码本、对原始数据进行列表,到将原始数据汇总为数据立方体进行数据

< br>透视、针对数据计算一些常用的描述统计量并制作精细定义的输出表格等多种统


计 报表功能,可以满足用户的各种苛刻要求。其中比较特殊的是在汇总项中提供


了几何均数 、调和均数等指标的直接输出。



?



“分析”


?


“表”

:这是


SPSS


专门为生成出版级报表而设计的模块,可以 根据用户


需求产生复杂的多层或嵌套表格。和上面几个从属于


B ase


模块的过程相比,它不


仅功能更为强大和灵活,而且还提 供了完全交互式的操作界面,使用上更为方便、


快捷。



?



“分析”


?


“描述统计”


:常用的几个连续变量统计描述过程都被集中在 该子菜单


下。频率


(Frequencies)


过程用于产生原始数据的频数表,并能计算各种百分位数。


它所提供的统计描述 功能非常全面,且对话框布置很有规律,基本上按照数据的


集中趋势、离散趋势、百分位 数和分布指标四大块对各描述指标进行了归类。描



(Desc riptive)


过程用于进行一般性的统计描述,相对于频率过程而言,它不能绘



15




制统计图,所能计算的统计量也较少,但使用频率却是最高的。实际上从统计选


项可以看出,


该过程适用于对服从正态分布的连续性变量进行描述。

< p>
探索


(Explore)


过程用于对连续性资料分 布状况不清时的探索性分析,它可以计算许多描述统计


量,除常见的均数、百分位数之外 ,还可以给出截尾均数、极端值列表等,并能


绘制出各种统计图,是功能最为强大的一个 描述过程。


P-P


图和


Q-Q


图过程则是


用图形方式来直接观察样本数据分布是否服从假设的理论分布 ,它们是更为直观


的数据分布趋势描述工具。






2.2



Statistics


分析菜单下的 报告、表和描述统计子菜单




描述统 计子菜单下的比率


(Ratio)


过程用于对两个连续性变量计 算相对比指标,




中位数、均值、加 权均值等常见指标外,还可以计算出一系列专业指标,例如


离差系数

(COD)


、以中位数为中心的变异系数、以均值为中心的变异系数、价格


相关微分


(PRD)



平均绝对偏差


(AAD)


等。


这些指标 过于专业,


在实际工作中应用


较少。



2.2.2



连续变量的参数估计



通过统计描述, 研究者应该已经对样本数据的情况有了详细的了解。但研究的真正目


的是考察样本所代表 的总体情况,这样就会涉及总体参数估计的问题。



1.


参数的点估计



参数的点估计就是选定 一个适当的样本统计量值作为参数的估计值,例如将样本均数


作为总体均数的点估计值。 常见的点估计方法有如下几种。



?



矩法:矩法的名称比较专业,实际上其含义非常简单,指在许多情况下,样本统


计量本身就是相应总体参数的最佳估计值,此时可以直接取相应的样本统计量作

< br>为总体参数的点估计值。例如样本均数、方差、标准差都是相应总体均数、方差、


标准差的矩估计量。对常用的正态分布而言,矩法几乎可以满足全部参数的点估


计需求, 教科书上所说的点估计实际上就用了矩法。



?



极大似然法:极大似然法是另一种 更好的参数估计方法,其优点在于估计量常能


满足一致性、有效性等要求,且具有不变性 。不变性是指当对原始数据做某种函



16





2





数据分析方法体系简介


< p>
数变换后,相应估计量的同一函数变换值仍然是新样本的极大似然估计量。



?



稳健


(R obust)


估计:矩法和极大似然法虽然能够很好地满足点估计的需要,但也有


明显的缺陷,就是估计值受异常值的影响十分显著,或因数据分布的偏离而使估


计值产生较大变化。稳健估计法就是针对这种情况的解决方案之一,即当观测数


据不符合假定模型或与假定模型有偏离时,分析结论仍然保持稳定且正确的统计


方法。稳 健估计指的是该统计量受数据异常值的影响较小,而且对大部分分布而


言都很好


(


当然,这种万金油特征意味着它不会对每个分布都是最佳的

< p>
)




?



Bootstrap


法:该方法希望解决的问题和稳健估计类似,也是当观测数据不符合假


定模型 或与假定模型有偏离时,仍然可以得到正确且基本稳定的分析结论,该方


法的原理将会在 随后的案例章节中结合实例加以介绍。



2.


基于标准误的参数区间估计



显然,仅 仅有参数的点估计是不够的,比如打靶,打了两枪,平均


9


环; 打了


100


枪,


平均也是


9


环,显然人们更相信后者的确是个好枪手,而对前者的水平则可能产生怀疑 。


这就涉及参数的估计值究竟有多大的误差,这方面的常用方法为基于标准误

< p>
(Standardized


Error)


的区间估计方法。



虽然原始数据可能服从各种各样的分布,


但根据中心极限定理,


当样本量


n


足够大时


(



n


>50)

,其抽样均数都会近似服从正态分布,此正态分布所对应的标准差就可用来表示抽样


误差的大小,


即标准误


(


也称标准误差


)



结合样本量和标准误就可以确定一 个在设定可信度


(



95%

< p>


99%)


包含总体参数的区间,该区间称为总体 参数的


(1


?


?


)%


可信区间或置信区间


(Confidence Inte rval



CI)


< br>


下面看一下可信区间是如何求得的,以常用的


95%< /p>


双侧可信区间为例,其计算公式为



X< /p>


?


1


.


96


?


/


n


?


?


?


X


?


1


.


96


?


/


n



上述公式看起来很完美 ,但有一个问题,就是


?


也是未知总体参数,计算中必须要使用


样本标准差


s


来代替,这样一来公式必 须加以修正。统计学家发现此时样本均数


X


按照前


述标准化公式变换后服从的是


t


分布而不是


u


分布,相应的可信区间公式修改为



X


?


t


?


,


?


s


/

< br>n


?


?


?


X


?


t


?


,


?


s


/


n



上述公式就是常用的可信区间计算公式,


显然在使用中


t


分布的界值需要根据自由度

ν


来确定,非常麻烦,好在现在用


SPSS


进行分析,软件可以替我们完成这些烦琐的工作,使


用者只需理解如何阅读结果 即可。



可信度的概念往往会引起误解,它仅仅是大量重复抽样 时的一个渐近概念。认为


是个错误的理解。


这里得到的区




95%


的可信区 间包括真实参数值的概率为


0.95



间是固定的,而总体参数值也是固定的,因此只有两种可能:包含或者不包含,


这当中没 有任何概率可言。


95%


的可信度只是说如果我们能够大量重复 试验,则


平均下来所计算的每


100


个 可信区间中,会有大约


95


个覆盖真实值。



17




3.


基于


Bootstrap


方法的区间估计



该方法是另一种完全不同的区间估计求解方法,适用于一些分布比较特殊,导致传统


的标 准误区间估计结果可能不太准确的情况。不仅如此,由于该方法采用计算统计学的方


式来 求解,因此对一些经典统计学很难解决的特殊参数的区间估计问题,例如中位数、四


分位 数、标准差、变异系数等都可以进行简单且准确的参数区间估计,所以它成为经典统


计学 的有力补充。



4. IBM SPSS Statistics


中的相应功能



基于标准误的区间估计一般是在


SPSS


的描述过程中实现,< /p>


具体表现为对标准误,


或者


直接对指定可 信度的可信区间的计算,前述的几乎所有统计描述用过程都可以计算出相应


的结果,除计 算出均数的标准误之外,其比较独特的功能如下。



?



描述


(D escriptive)


过程:该过程较为特殊的一个功能就是将原变量变换为标准正态


分布下的得分,只需要选中主对话框左下角的“将标准化得分另存为变量”复选


框即可。



?



探索


(Explore)


过程:


该过程不仅会计算标准误,


还可以直接给出均数


95 %


可信区间,


而对均数的点估计,还可直接提供稳健估计值,显 然更为专业。



?


< br>对于


Bootstrap


估计,


SPSS


将其作为一个单独的软件模块提供,


会在相应描述过程


的主对话框上增加


Bootstrap


按钮,只要在该按钮对应的子对话框中要求进行指定


次数的


Bo otstrap


抽样,


就可以对所有的描述统计量进行相应的< /p>


Bootstrap


点估计和


区间估计。



2.2.3



分类变量的统计描述和参数估计



相对 于连续变量而言,分类变量的统计描述指标体系非常简单,主要是对各个类别取


值进行各 自的频数和比例计算,再进一步计算一些所需的相对数指标。



1.


频数分布


对于分类变量,分析中首先应当了解各类别的样本数有多少,以及各类别占总样本量


的百分比为多少。这些信息往往会被整理在同一张频数表中加以呈现。对于有序分类变量,


除给出各类别的频数和百分比外,研究者往往还对累积频数和累积百分比感兴趣,即低于


或高于某类别取值的案例所占的次数和百分比。但需要注意的是,统计软件只能按类别编


码从小到大进行频数和百分比的累计,如果编码不符合要求,则研究者只能手工加以统计。


2.


集中趋势



除原始频数外,研究者如果希望了解哪一个类别的频数最多,还可以使用众数


(Mode)


来描述它的集中趋势。显然,众数只反映频数最多的类别的情况,而浪费了 所有其他信息,


因此只有集中趋势显著时,众数才较有价值。而当变量的类别数不多时, 原始频数表的观



18





2





数据分析方法体系简介



察并不复杂,此时众数的使用价值并不高。



3.


离散趋势


分类变量基本上不需要专门分析其离散趋势,因为对分类数据而言,其数据的离散程


度实际上和集中趋势有关联,它们受同一个参数的控制,因此不需要分别描述。



4.


相对数指标


< br>除以上比较简单的频数、比例外,研究者还经常为分类数据计算一些原始频数的相对


指标,用于统计描述,这些指标称为相对数,这里简单介绍常用的


3

< br>种相对数。



?




(Ratio)


:指两个有关指标之比

< p>
A


/


B


,用于反映这两个 指标在数量和频数上的大小


关系。事实上,比也可以被拓展到连续变量的范畴,例如本月 销售额与销售人


员数。



?



构成比


( Proportion)


:用于描述某个事物内部各构成部分所占的比重,其取值在


0%



100%


之 间。事实上,前面提到的百分比就是一个标准的构成比,而累积百分


比则是构成比概念的 直接延伸。



?



(Rate)


:一个具有时间概念,或者说具有速度、强 度含义的指标,用于说明某个


时期内某个事件发生的频率或强度,其计算公式为



某事件的发生率


?


观 察期内发生某事件的


对象数



该时期开 始时的观察对


象数


准确地讲,


“率”应 当是一个时间点上的强度测量,但在实际工作中很难做到,因此一


般按一个时段来测量。 它的分子往往是一个时期的累计数。



以上相对数在使用时应当 注意适用条件,比如样本量较大时相对数才会比较稳定,基


数不同的相对数不能直接相加 求和等。



5.


多个分类变量的联合描述



在工作中, 往往需要对两个甚至多个分类变量的频数分布进行联合观察,此时涉及多


个分类变量的联 合描述。例如两个分类变量的类别相互交叉,就会构成一张二维交叉表,


表格中的每个单 元格除给出两变量分别取值为某种类别时的原始频数外,还可能给出行百


分比、列百分比 和总百分比等,分别用于反映该单元格频数占所在行、列及总样本的构成


比情况。



6.


多选题的统计描述



多选题是调查问卷 中极为常见的调查题目类型,



SPSS


中需要用多个变量联合记录其


数值情况。常规做法是多重二分法,即对应每个选项都定 义一个变量,这些变量各自代表


某个选项的选择结果,其中有一个类别代表该选项被选中 。在分析的时候,分析者可以对


每一个题项或变量进行统计描述,但这样做是不全面的, 因为这些变量实际上回答的是一


个问题,将选项割裂开来可能会导致不正确的分析结果, 而且无法计算一些汇总指标。在


多选题分析中比较特别的描述指标有以下


4


个。




19




?



应答人数


(Count)


:指选择各选项的人数,或者说原始频数。



?



应答人数百分比


(Percent of Cases)


:选择该项的人占总人数的比例,应答人数百分


比可以反映该选项在人 群中的受欢迎程度。



?


< p>
应答人次


(Responses)



指选择各选项的人次,


对于单个选项,


应答人次和应 答人数


是相同的,但是对整个问题而言,应答人次可能远远大于应答人数,因为如果一< /p>


个受访者选择了两个选项,则将会被计为


1


个人数,


2


个人次。



?



应答次数百分比


(Percent of Responses )


:在所有选择中,选择该项的人次占总人次


的比例。应答次数 百分比可用以比较不同选项的受欢迎程度。



7.


分类变量的参数估计



分类变量的参数 估计同样会涉及点估计和区间估计的问题,只是对分类变量而言,由


于只能取若干个离散 的值,因此参数估计关心的是各类别在总体中的比例,或者当从中进


行一次抽样时,抽得 相应类别的概率。在各种分类变量的分布中,二项分布最为常见,本


书将以其为准加以介 绍。



如果一个随机变量


X

< p>
,它的可能取值是



0,1,


,


n


,相应的取值概率为



k


n


?

< p>
k



P


(


X


?


k


)

?


(


n


k


)


?


(1


?


?


)


k


n


?


k


由于


(


n


是二项式



[


?


+(1


-


?


)]< /p>


n


展开式中的各项,


故称此随机变量


X


服从以


n



k


)


?


(1


?


?


)


?

< p>
为参数


的二项分布,


记为


X



B


(


n< /p>


,


?


)


。对该变


量而言,


有均数


?

X


?


n


?


,方差


2


?


X


?


n


?


(1


?


?


)


,标准差


?


X


?


n


?< /p>


(1


?


?


)


。显然,对于样本量


n


确定的情形,均数和 标准差


间存在明确的换算关系,它们只受


?

的影响,这也是为什么我们在前面不对离散趋势加以


描述的依据。

< br>


在实际问题中,对一个二项分布的总体而言,其试验次数


n


是可以人为确定、控制的,


因此只要对参数


?


加以估计,就可以明确整个分布的情况。由中心极限定理可知,当

< p>
n



大、


?


不接近


0


也不接近


1



(


一般认为这个界限是

n


>40



np



nq


均大于


5)


,二项分布


B


(


n


,


?


)


近似正态分布,这样就可以利用正态分布中的相应成果来进行参数估计,相应的


100(1


-


α


)%


可信区间为


P


?


1.96


P


(1


?


P


)/


n




当不满足正态近似的条件时,可以直接利用二项分布的概率分布规律来计算相应的可


信区间。



利用


Boots trap


抽样方法进行参数区间估计的原理和连续变量完全相同,这里不再重复


介绍。



8. IBM SPSS Statistics


中的相应功能



Statistics


中的许多模块均可完成分类变量统计描述的任务,


前述用于连续变量统计描述


的报告子菜单、表子菜单项下的过程均可完成从频数 表、交叉表,到各种复杂组合表格的


描述工作,但最常用的仍然是描述统计子菜单下的几 个过程。




20





2





数据分析方法体系简介



?



频率过程:第

1


章已经学过本过程,针对单个分类变量输出频数表是其基本功能,


从中可以得到频数、百分比和累积百分比统计量。除原始频数表外,该过程还可


给出描述集中趋势的众数,以及直接绘制用于分类变量的条图和饼图等。



?



交叉表过程:用于对两个或多个分 类变量的联合描述,可以产生二维至


n


维列联

< br>表,并计算相应的百分比、汇总指标等。



此外,针对多选题的统计描述需求,还专门有下面两处来满足。



?



“多重响应”


(Multiple Response)


子菜单项:


该子菜单项专门用于对多选题变量集进

行设定和统计描述,包括多选题的频数表和交叉表均可制作,可以满足基本的多


选题 分析需求。



?


“分析”


?


“表”


子菜单项:


该菜单项下的多响应集用于进行多选题变量集的设定,


在完成变量集 设定工作后,可以在制表过程中利用其非常强大的制表功能来对多


选题进行统计描述。< /p>



2.2.4



统计图形体系



严格地说,统计图应当 属于一种统计描述,但由于其表现形式和操作方式都比较特殊,


在此单独加以阐述。



统计图的分类方法有多种,但和统计学体系最为贴近的分类方法是 首先按照其呈现变


量的数量大致分为单变量图、双变量图、多变量图等,随后再根据相应 变量的测量尺度进行


细分。虽然这种分类方法会将许多图形分成更细的小类,但是这样做 有利于将来正确使用。




SPSS< /p>


系列软件中创建图形时,变量的测量尺度很重要,如果对变量的测量尺


度定义有误,则可能无法生成相应的图形。目前


SPSS


将绘图用变量主要分为三


类:无序、有序和连续性变量。同时又 将多选题变量集作为一类特殊的无序变量


进行处理。



1.


单变量图:连续性变量



单变量图是指的是通过图形元素的位置高低、范围大小等来对某个变量的数值或类别

< p>
分布情况进行呈现,常用于描述、考察变量的分布类型。绘制这类图形时只需一个变量。

< p>
如图


2.3


所示为描述连续变量的几种常用单变量 图。




直方图



箱图




P-P






2.3



用于描述连续变量的几种常用单变量图示意




21



< /p>


对于一个连续性变量的分布特征描述,常用的图形工具就是直方图,它通过直条在各


个取值区段的分布范围和长度来直观地显示连续变量的数量分布规律,图形中的横轴代表


不同的取值区段,纵轴表示相应区段的频数。对于样本量较小的情形,直方图会损失一部


分信息,此时可以使用茎叶图进行更精确的描述。


< br>除直方图外,箱图也常用于连续性变量的描述,它主要使用百分位数指标,例如中位


数、四分位数等来对该变量的分布规律进行呈现,还可帮助用户进行对称性、极值判定。



对于更为深入的统计分析,研究者往往还希望考察该连续性变量是否服从某种理论分


布,例如考察其是否服从正态分布。除进行假设检验外,


P-P


图和


Q-Q


图可以直观地达到


这一目的。



2.


单变量图:分类变量



分类变量的描述 可以分为两种情况:展示分类变量各类别的频数,或者表示各部分占


总体的构成比例。对 前者而言,常用的工具是简单条图,它使用等宽直条的长度来表示相


互独立的各类别的频 数高低。换言之,横轴表示不同的类别,纵轴则和直方图一样,用于


表示频数的多少。< /p>



在表示各部分的构成情况时,饼图是常用的工具,它使用饼块的 大小来表示各类别的


百分比构成情况。



对于一些特殊的问题,研究者可能希望在一幅图中同时表示该变量各类别的原始频数


和 百分比构成,


Pareto


图就可以满足这一要求,

< p>
它在图形中使用直条代表频数高低,


同时使


用折线 来表示累计百分比的变化情况。



如图


2.4


所示为描述分类变量的几种常用单变量图。




饼图



简单条图




Pareto






2.4



用于描述分类变量的几种常用单变量图示意



3.


双变量图:连续因变量



顾名思义,绘制这类图形需要两个变量,而图形也主要是用于呈现这两个变量在数量

< p>
上的联系方式,或者说当一个变量改变时,另一个变量会如何变化。该图形常用于对不同

< p>
亚群


(Subgroup)


的研究对象进行比较。



为方便起见,这里首先考虑因变量为连续变量的情形。此时因 变量一般会使用纵轴的


高度加以呈现,而我们所关心的指标可能是其均数或者标准差等。 当另一个主动变化的变



(


自变量


)


为无序分类变量时,


所用的图形工具实际 上还是简单条图,


只是此时每个直条的


高度代表的是相应类别的 该因变量统计指标的高低。




22





2





数据分析方法体系简介


< p>
当自变量为有序分类变量,特别是代表年代或时间时,统计学中习惯用线图来对其关


联进行呈现,用于直观地表现随着有序变量的变化,相应的因变量指标是如何上升或下降


的。显然,这一问题用条图似乎也可行,主要是一个使用习惯的问题。最后,如果自变量


也是连续性变量,则所用的工具就是大家所熟悉的散点图。它使用散点的疏密程度和变化


趋势来对两连续变量间的数量联系进行呈现。



4.


双变量图:分类因变量



当因变量为分 类,自变量为连续时,目前尚没有很好的图形工具可以利用,常见的处


理方法是将自变量 和因变量交换后使用条图来进行呈现。当自变量也是分类变量时,实际


上所使用的图形工 具比较单一,基本上以条图为主。但是,按照其具体的呈现方式,又可


分为复式条图、分 段条图和马赛克图


3


种。复式条图重点呈现两个分类变量的各个 类别组


合情况下的频数情况;分段条图主要突出一个分类变量各类别的频数,并在此基础 上表现


两个类别的组合频数情况;马赛克图也是以一个分类变量为主,它呈现的是一个变 量在不


同类别下,另一个变量各类别的百分比变化情况。



事实上,以上介绍的仅仅是正规和常见的双变量统计图。实际上,当读者掌握了单变


量图的特性后,完全可以将其加以充分利用,在自变量为分类变量时,分类别绘制相应的


单变量图进行数值特征的呈现,以达到对数据更为充分和深入的展示。常见的情况有分组


箱图、复式饼图、直方图组等,对此感兴趣的读者可自行加以创造,这里不再详述。



5.


多变量图



当在一幅图形中需要呈现出


3


个及

< p>
3


个以上变量的数量关联时,所构成的图形称为多


变量图。一般而言,由于一个坐标轴只用于呈现一个变量的数值特征,因此用常见的二维


平面统计图表示两个变量的特征是比较合适的。如果要表现


3


个 变量的关联,最好采用三


维坐标的立体统计图。但是,由于实际上仍然是在纸平面或者显 示器平面上对三维图形进


行呈现,立体图在使用上并不方便。因此,当其中有变量为分类 变量时,统计学家往往采


用图例方式来对二维图进行扩充,使二维图能够表现更多的信息 。例如在散点图中用点的


形状或者颜色区分不同的类别,这样就在一幅带图例的散点图中 同时呈现了两个连续变量


和一个分类变量的数量关联信息。类似的图形还有多线图等。当 然,如果所有变量均为连


续变量,则图例并不能解决问题,仍然需要使用高维的散点图才 能对其关系加以呈现。为


了方便分析时对高位散点图的观察,


S PSS


提供了一系列的功能,例如散点图矩阵、立体散


点图的动 态旋转等。图


2.5


所示为几种常见的多变量图。




线图



散点图




复式条图





2.5



几种常见的多变量图示意




23




< /p>


读者在具体应用多变量图时要注意“度”的问题,切勿将统计图做得太复杂,因

< p>


为这样会丢弃统计图直观明了的优点,将得不偿失。



6.


其他特殊用途的统计图



除以上可按照统计原则加以归类的图形外,针对一些特殊的应用领域和分析目的,



SPSS


还提供了一系列专用统计图,它们或者用 于满足某一行业的特殊需求,或者用于完成


某种专门的统计分析问题,

< br>如图


2.6


所示。


例如用于将统 计数据与地域分布相结合的统计地


图,用于工业质量控制的控制图,用于股票分析的高低 图;后者的例子有用于描述样本指


标可信区间或分布范围的误差条图,用于诊断性试验效 果分析的


ROC


曲线,用于时间序列


数 据预分析的序列图等。这些工具我们将会有选择地在相应章节中加以介绍。




控制图



ROC


曲线




2.6



特殊用途的统计图示例




7.


统计图在


Statistics


中的实现



IBM SPSS Sta tistics


提供了完备的统计图功能,其实现方法大致有如下两种。



?



“图形”菜单项:是主 要的绘图操作入口,提供了绝大多数统计图形的实现方式。


该菜单下的图表构建程序提供 了可视化的图形生成器,它是一个画布式的全交互


对话框,其界面全部采用非常便捷的拖 放方式操作,大大提高了用户的学习和操


作效率。



?



“分析”菜单项:对于一些和统计 方法关联较密切,或者本身含有一定的统计分析


功能的图形,


S PSS


将其放置在分析菜单项之下。


例如涉及统计分布的


P-P


图和


Q-Q


图 就被放置在描述统计子菜单项下,


ROC


曲线被放置在分析菜单 项的最下面,生


存曲线图、序列图、自相关图和互相关图等则分别放置在相应的生存分析


(


生存函



)


和时间序列分析


(


预测


)


菜单项之下。



2.3



常用假设检验方法



完成了统计描述和参数估计工作之后,研究者往往会进一步探讨一些基于专业知识和

数据特征而提出的假设,并期望验证其是否成立,这就会涉及假设检验的工作。




24





2





数据分析方法体系简介



2.3.1



假设检验的基本原理



经过上百年的发 展,经典统计学对假设检验的原理、操作流程已经非常明确,相关的


内容如下。



1.


小概率事件的概念



在讨论假设检验的 基本思想之前,首先需要明确小概率事件这一概念。衡量一个事件


发生与否的可能性的标 准用概率来表示,通常概率大的事件容易发生,概率小的事件不容


易发生。习惯上将发生 概率很小,比如


P



0.05


的事件称为小概率事件,表示在一次实验


或观察中该事件发生的可能性很 小,因此如果只进行一次试验,可以视为不会发生。



这里需要 澄清一个事实:一次试验中小概率事件不应当发生,并不表示小概率事



件不可能发生。也就是说,这里有一个前提:只进行一次试验,结果应当不会是


小概率事件。如果进行多次


(


可能无穷多


)


试验,那么小概率事件就肯定会发生。


或者说,小概率事件 在一次试验中不大可能发生,然而在大量试验中几乎必然发


生。瞎猫也有逮住死耗子的时 候,但是不能指望瞎猫每次都可以逮住死耗子!



2.


小概率反证法原理



假设检验的基本思 想是统计学的“小概率反证法”原理:对一个小概率事件而言,其


对立面发生的可能性显 然要大大高于这一小概率事件,可以认为小概率事件在一次试验中


不应当发生。因此可以 假定需要考察的假设是成立的,然后基于此进行推导,计算在该假


设所代表的总体中进行 抽样研究,


得到当前样本


(


及更极端样 本


)


的概率是多少。


如果结果显


示这是一个小概率事件,则意味着如果假设成立,则在一次抽样研究中竟然就发生了小概


率事件!这显然违反了小概率原理,因此可以按照反证法的思路推翻所给出的假设,认为


它们实际上是不成立的,这就是小概率反证法原理。



3.


假设检验的标准步骤



根据大量的实践经验,假设检验的步骤一般可以归纳如下:



(1)


建立假设。根据问题的需要提出原假设


H


0


,以及其对立面备选假设


H


1




(2)


确立检验水准。设立小概率事件的界值,称为


?


水准。这一步一般非常简单,习惯


上会使用< /p>


0.05


作为界值。



(3)


进行试验。得到用于统计分析的样本,并以该试验的结 果作为假设检验的根据。



(4)


选 定检验方法,计算检验统计量。所谓各种假设检验方法,其主要差异之一就是所


使用的统 计量并不相同,但其应用目的却都是一致的,即通过统计量的概率分布得到


P

< p>
值。



(5)


确定


P


值,做出推断结论。这里的


P

< p>
值对应的是当原假设


H


0


成立时,进行试验得


到现有样本这种情况,以及比现有样本情况更极端的情形的累计概率 。当


P


值小于或等于


检验水准


?


时,


意味着小概率事件


A


在一次试验中发生了,


这与小概率事件实际不应该发生


的原理相矛盾,从而推翻原假设


H


0


,接受其对立面


H


1


;反之,若


P


值大于


?


,则找不到任


何理由来推翻原假设,因此最终的结论只能是不能拒绝无效假设, 这等于什么也没说!当



25




然,从实用的角度出发,在检验所得到的概率值非常大时,研 究者往往会将结果引申为接



H


0


,但这仅仅是一个引申,和统计学已经无关了。



2.3.2



单变量假设检验方法



假设检验的分类 方法有许多种,一般比较常见的分类方法是按照研究设计的种类进行


分解,但这种分类方 法只适用于第


1


章所提及的


3


种分析方法论中的第一种,即具有严格


设计的情形,随着越来越多的实际 分析需求先于研究设计而出现,这种分类方法的局限性


也越来越突出。为便于读者理解, 也便于将来正确使用,这里仍然采用类似于统计图形体


系中的分类方法,先来看一下单变 量假设检验都有哪些常见种类。



所谓单变量假设检验方法,是 指在检验中只涉及一个变量的数值特征,常称为单样本


检验。其分析目的是考察该变量所 抽取的样本所在总体的某方面特征是否符合我们所给出


的假设。根据变量的类型和分析目 的不同,相应希望考察的总体假设可能是均数等于某个


数值、标准差等于某个数值、分布 符合某种指定分布,也可以是某个类别的比例不高于某


个指定值,或者大于某个数值的样 本比例等于某个指定数值这类很奇怪的设定。在现代统


计学的强大支持下,这些问题都可 以在


SPSS


系列软件中得到解决。



对单变量的假设检验大致可以分为


3


种 情况:针对数据独立性或随机性的检验、针对


分布类型的检验,以及在假定分布类型之后 针对某个分布参数的检验。在实际工作中,有时


很难将某种具体方法明确划分为某一类, 因为许多方法的功能可能同时横跨上述两种分类。



1.


针对数据独立性或随机性的检验



许多 时候,研究者关心的不仅仅是分布的位置或形状,也希望考察样本的随机性。因


为如果样 本不是从总体中随机抽取的,那么所作的任何推断都将变得没有价值。对于此类


需求,最 简单的方法就是进行游程检验。



游程检验


(Runs Test)


是对 二分变量的随机检验,用于判断观察值的顺序是否随机。对于


两分类变量,连续数个相同 取值的记录称为一个游程,比如下面这个序列:



0 0 1 1 0 1 1 1 0 0 0 1 0 0 1 0 0 0 1 0


它有


6



0


的游程,长度 为


1



2


和< /p>


3


的各有两个,并有


5

< br>个


1


的游程,其中


3

< p>
个长度



1


,一个长度为


2


,一个长度为


3

。上面的序列共有


11


个游程。根据游程检验的假设,如< /p>


果序列是真随机序列,那么游程的总数应当不太多也不太少,比较适中。如果游程的总数< /p>


极少,就意味着样本由于缺乏独立性,内部存在一定的趋势或结构,这可能是由于观察值< /p>


间不独立


(


如传染病的发病


)


,或者来自不同总体;若样本中存在大量的游程,则可能有系统

< p>
的短周期波动影响观察结果,同样不能认为序列是随机的。通过游程统计分布可以得知其

< p>


H


0


假设成立的情况下 所对应的


P


值,从而做出检验结论。在


IBM SPSS Statistics


中,游


程检验可以在 “非参数检验”


?


“单样本”中加以实现。


对于连续性变量,如果希望使用游程检验考察其随机性,则需要首先将其转换为分 类


变量。


除游程检验外,


< p>
“回归”


?


“线性”


过程 中还有考察残差独立性的


Durbin- Watson(




26





2





数据分析方法体系简介


< p>


-


瓦特森


)

< p>
检验,在“预测”


?


“自相关”过程中还可以在绘 制序列自相关图或偏相关图的


同时进行序列数据间自相关及偏相关情况的检验。由于这些 检验方法和相应的复杂方法联


系比较紧密,这里不再详述。



2.


针对分布类型的检验



该类型检验的常见情况是检验某个连续变量所在总体的分布是否服从正态分布,因为


正态分布是很多后续统计分析方法的前提,因此需要在使用相应分析方法之前对该前提加


以考察。在


IBM SPSS Statistics


中,这些分布类型检验方法主要在“非参数检验”


?


“单样< /p>


本”中实现。



?



二项分布检验:二项分布检验


(Binomial

< p>
Test)


是对二分类变量的拟合优度检验,它


考 察每个类别中观察值的频数与特定二项分布下的预期频数间是否存在统计学差


异。二项分 布检验采用与


K-S


检验相同的原理,只是这里检验的是二分变 量,即


一个离散分布的情况。



?



卡方检验:卡方检验是以


x


2


分布为基础的一种常用假设检验方法,在分 布检验中


用于分类变量


(


特别是多分类 变量


)


的分布状况考察。它的无效假设


H


0


是观察频数


与期望频数没有差别。 该检验的基本思想是首先假设


H


0


成立 ,基于此前提计算出


x


2


值,它表示观 察值与理论值之间的偏离程度。根据


x


2


分布及自由度,可以确定



H


0


假设成立的情况下获得当前统计量及更极端情况的概率


P

< p>



?



K-S


检验:


Kolmogorov- Smirnov(


单样本检验


)


是一种 主要用于连续变量的分布拟合


优度检验,其方法是将一个变量的累积分布函数与特定分布 进行比较,其检验统


计量代表理论频数分布和实际频数分布间的差异,并据此计算出


P


值以得出检验


结论。在

< br>IBM SPSS Statistics


中,


K-S< /p>


检验既可以在“非参数检验”


?


“单样本 ”


中实现


(


见图


2.7)


,也可以在“描述统计”


?


“探索”过程的绘制子对话框中利用


“带检验的正态图”复选框来实现

< br>(


此处还可同时输出另一种用于分布类型检验的


Shap iro-Wilk


检验


)


< p>




2.7



单样本非参数检验过程中的检验方法




27




3.


假定分布类型之后针对某个分布参数的检验


< br>对于假定服从二项分布的二分类变量,以及类别数更多的无序分类变量,前述二项分


布检验、卡方检验方法实际就是相应的对其分布参数进行考察的检验方法,但是对有序分


类变量和连续性变量,这里有新的方法可以使用。



?



单样本


W ilcoxon


符号秩和检验:对于有序分类变量,其平均水平可以用中位数表


达,因此就会出现考察其中位数是否等于某个假定数值或类别的情形,此类需求

< br>可以使用秩和检验来满足。事实上,该方法的基本逻辑非常简单,如果数据的确


来 自假定中位数的那个总体,则样本中应当大致有一半大于该中位数,另一半小


于该中位数 ,且这些数值和中位数的距离应当基本对称


(


这在检验中用秩次 来表



)



如 果两侧秩和的分布过于悬殊,则我们就有理由拒绝


H


0


。具体对应的


P


值需


要 通过相应秩和的统计分布来确定。在


IBM SPSS Statistics


中,该检验可以在“非


参数检验”


?

< p>
“单样本”中实现。



?



单样本


t


检验:


对于连续性变量,


研究者最关心的往往是其均数是否等于某个假定

数值,


此时单样本


t


检验是常用的 方法。


该方法通过将样本均数和假定总体均数的


差值进行标准化


(


具体做法是该差值除以相应的标准误


)


,然后利用


t


分布计算出相



H


0


总体中抽得当前 样本


(


及更极端情况


)


的概率大小,


从而做出统计推断。


< br>IBM


SPSS Statistics


中,该检验在 “比较均值”


?


“单样本


t

< p>
检验”中实现。



?


< /p>


Bootstrap


抽样:在一些研究问题中可能会涉及对一些特 殊分布参数的检验,比如


该样本对应分布的标准差是否等于某个假定值,或者其变异系数 是否等于某个数


值。对于此类检验方法,经典统计学的方法体系不是很完善,相应的方法 也不常


用,但随着计算统计学的发展,研究者完全可以利用


Bo otstrap


抽样来轻松解决相


应的分析需求。



IBM SPSS Statistics


中,< /p>


Bootstrap


抽样可以通过调用相应对话框


中的


Bootstrap


子对话框来实现。

< p>


2.3.3



双变量假设检验方法



在涉及两个变量 的检验方法中,大多数情况下这两个变量可以分出主次,相应地在统


计模型中它们就会被 设定为自变量和因变量。当无法进行区分时,则使用相关分析方法。



1.


无序分类因变量的检验方法



?



当自变量为两分类或无序多分类变 量时,两个变量相互交叉构成了典型的交叉表,


此时以卡方检验最为常用。当然卡方检验 本身存在样本量的要求,具体而言,一


般认为对于卡方检验中的每一个单元格,


需要其最小期望频数均大于


1



且至少有


4/5


的单元格期望频数大于


5


,此时使用卡方分布计算出的概率值才是准确的。如


果数据不符合要求,可以采用校正卡方,或者直接利用确切概率法进行概率的计


算。在< /p>


IBM SPSS Statistics


中,这些方法都是使用 “描述统计”


?


“交叉表”



“统


计量”子对话框左上角的“卡方”选项实现的。



28





2





数据分析方法体系简介



?



当自变量为有序多分类变量时,几 乎没有恰当的方法可以充分利用数据信息,比


较常见的做法是暂时忽略其有序特征,先按 照无序变量的方式进行卡方检验,然


后在结果解释时考虑序列信息。另外一种可选的思路 是,如果数据的专业背景允


许,则可将变量交换后采用秩和检验等方法来分析。



?



当自变量为连续 性变量时,简单的统计方法已经对此无能为力,可以考虑使用两


分类或者多分类的


Logistic


回归模型来分析,


这些方法 在


“回归”


?


“二元

< br>Logistic



和“回归”


?


“多项


Logistic


”中实现。



2.


有序分类因变量的检验方法



?



当自变量为两分类或无序多分类变 量时,研究目的往往是考察这些类别组的因变


量中位数是否相同,


此时应当使用两样本秩和检验


(


W


检 验


)


或者多样本秩和检验


(

< p>
H


检验


)


进行分析。在< /p>


IBM


SPSS


Statistic s


中,这些方法在“非参数检验”


?


“ 独立


样本”中实现,如图


2.8


所示。



?



当自变 量为有序多分类变量时,如果希望利用序列特征,则可以按照两有序变量


的相关分析指标 体系来分析。


也可以利用


CMH


卡方来 完成相应的分析,


但后者在


SPSS


中 没有提供相应的功能。



?



当自变量为连续性变量时,简单的统计方法对此无能为力,此时可以考虑使用因

< br>变量为有序分类的


Logistic


回归模型来分析,< /p>


该方法在


“回归”


?

“有序”


中实现。



?



对于其他特殊检验需求,可以一律 考虑使用


Bootstrap


方法来实现。




2.8



二样本或多样本非参数检验过程使用的检验方法




29




3.


连续性因变量的检验方法



?



当自变量为两分类变量时,研究目 的往往是考察两组间的因变量均数是否相同,


此时应当使用两样本


t


检验来进行分析。当然,两样本


t


检验有正态性、方差齐性


等要求,当方差不齐时可以考虑进行校正。在

< br>IBM SPSS Statistics


中,两样本


t



验、方差齐性检验、校正


t


检验等方法都在“比较均值”


?


“独立样本


t


检验”中


实现。



?



当自变量为无序分类变量时,研究 目的往往是考察多组间的因变量均数是否相同,


此时应当使用单因素方差分析,并且在方 差分析结果有统计学意义的时候进行后


续的两两比较。方差分析是基于变异分解的思想进 行的,通过比较处理因素或分


组因素所导致变异是否明显大于随机变异,可以得知分组因 素是否确有作用。单


因素方差分析也有正态性、方差齐性等要求,当方差不齐时可以考虑 进行校正。



IBM SPSS Statistics


中,单因素方差分析、方差齐性检验、校正方差分析等方法


都是在“比 较均值”


?


“单因素


ANOV


A


”中实现。



?



当自变量为有序多分类变量时,几 乎没有恰当的方法可以充分利用数据信息,比


较常见的做法是暂时忽略其有序特征,先按 照无序变量的方式进行单因素方差分


析,然后在结果解释时考虑序列信息。



?



当自变量为连续性变 量时,由于相应统计方法的基本框架要考虑线性关联,因此


首先需要确认两变量间的数量 关联趋势究竟是线性的还是曲线的,然后利用线性


回归方法来考察自变量对因变量的数量 影响。



IBM SPSS Statistics

< p>
中,


线性回归


在“回归”


?


“线性”中实现。如果确认是曲线关联,则可以利用回归菜单中的

曲线估计过程或者非线性回归过程来拟合相应的回归方程。



4.


相关分析的指标体系



尽管在提及相关分析时往往考察的都是两个连续变量的相关关系,但实际上对任何类


型的变量,都可以使用相应的指标进行相关关系的考察。在


IBM SPSS Statistics


中,这些方


法主要是在“描述统计”


?


“交叉表”



“ 统计量”子对话框中实现,如图


2.9


所示。

< br>




2.9



交叉表过程的统计量子对话框中的相关指标




30





2





数据分析方法体系简介



?



名义变量的相关指标:对于名义变 量,实际上卡方检验中的


x


2


值就用于 测量两个


变量的相关性,而这里介绍的专业指标实际上多数也是从


x


2


值进一步衍生来的。


常见的是列 联系数


(Contingency Coefficient)


,其值介于


0



1

之间,越大表明两变


量间相关性越强。


此外还有

< p>
Phi


系数、


Cramer



s V



?


系数、


不确定系数


(Uncertainty


Coefficient)


等,均做了进一步的校正。



?



有序变量的相关指标:对于有 序的等级资料的相关性,我们往往称其为一致性,


所谓一致性高,就是指行变量等级高的 列变量等级也高,行变量等级低的列变量


等级也低。如果行变量等级高而列变量等级低, 则称为不一致。此类相关指标中


最常用的是


Gamma


统计量,其取值介于


-


1



1


之间。当观察值集中于对角线处


时,其取值为


-


1


< br>1


,表示两者取值绝对一致或绝对不一致;如果两变量完全无

关,则取值为


0


。此外还有


Ken dall



s


?

a



?


b



?


c


系数,


Somer



s D


等一些衍生指


标,均做了进一步的校正。



?



连续变量的相关指标:此时一般使 用积差相关系数


(


又称


Pearson


相关系数


)


来表示

其相关性的大小,其数值介于


-


1



1


之间。当两变量相关性达到最大,散点呈一


条直线时取值为


-


1



1


,正负号表明了相关的方向;如果两变量完全无关,则取

< p>
值为


0


。严格地讲,该系数只适用于两变量呈线性 相关的情况。此外,作为参数方


法,积差相关分析有一定的适用条件,当数据不能满足这 些条件时,分析者可以


考虑使用


Spearman


等级相关系数来解决问题。



?



其他特殊指标:除以上较为系统的 指标外,当希望测量一个名义变量和连续变量


间的相关程度时,还可以使用一个叫作


Eta


的指标。实际上,


Eta

< p>
的平方表示由组


间差异所解释的因变量的方差的比例,即

< br>SS


组间


/SS


总。此外,针对 变量间的关


联强度,


还有


Kappa< /p>



OR



RR< /p>


等统计指标可用,


因相对较为复杂,


这里 不再详述。



2.4



多变量模型



这里所说的多变量模型指 的是在模型中可以区分出自变量、因变量,并且模型中可以


有多个自变量或因变量,建模 的目的是考察各自变量对因变量的作用强弱,最终对因变量


取值进行预测的统计模型。< /p>



2.4.1



方差分析


/


一般线性模型



典型的方差分析模型对应的是因变量为连续性变量,而自变量为分类变量的情形。通


过扩展,


该模型框架也可以处理含有连续性自变量


(


协变量


)


的情形。

由于其模型框架为线性


相加结构,因此也称为一般线性模型。




31




1.


单因变量的方差分析模型



以只有一个分类自变量的情形为例,每个个案的因变量测量值


Y


ij


可以表达为如下:


< br>Y


ij


?


?

?


?


i


?


?


ij



其中,


μ


表示总体的平均水平;


?


i


表示影响因素在


i


水平下对因变量的附加效应 ,并假设所



?


i

之和为


0



?

ij


为一个服从正态分布


N


(0,


?


2


)


的随机 变量,代表随机误差。通过考察上述


模型中各个


?


i


是否等于


0


,可以得知不 同类别间是否存在差异。



如果考虑两因素的情形,则模型如下:



Y


ijk


?


?


?


?


i


?


?


j


?


?


i


?


j


?


?


ijk



其中


?


i



?


j

< p>
分别表示


A


因素


i


水平和


B


因素


j


水平的附加效应,


?


i

?


j


则为两者的交互效应。




IBM SPSS Statistics

< br>中,


单因变量的方差分析模型是在


“一般线性模型”


?


“单变量”


中实现的。

< br>


2.


多因变量的方差分析模型



上述单因变 量方差分析模型的框架很容易扩展到多因变量的情形中,从其基本原理而


言,实际上就是 对每个因变量构建上述的方差分析模型,然后将所有的模型联立求解。当


然,该模型实际 上要求各因变量之间确实存在数量关联,否则直接拆开分析即可,没有必


要联立求解。不 过,由于该模型过于复杂,在实际工作中该模型的应用并不常见。


SPSS


中有两个过程可以进行多元方差分析,在“一般线性模型”


?


“多变量”中可以


实现基本的多因变量方差分析模型 ,


更复杂的模型则可以在编程方式下用


MANOV


A


过程来


实现。



此外,在多因变量的方差分析模型中有一个特例,即重复测量的方差分析模型。在该


模型中,对同一个变量的多次不同时点的观测被作为不同的因变量来加以建模,该方法是


在“一般线性模型”


?


“重复度量”中实现的。



2.4.2



广义线性模型和混合线性模型



这里所 涉及的模型基本上都是发源于对一般线性模型的直接扩展,但扩展之后的应用


领域则远大 于一般线性模型。



1.


广义线性模型



广义线性模型


(Generalized Linear Mo del)


可认为是传统一般线性模型的延伸。经典的一


般线性模 型假定模型残差呈正态分布,且因变量为可取任意实数值的连续性变量,在某些


情况下这 并不合理,而广义线性模型则主要从两个方面扩展了线性模型:



?



通过指定因变量的分布,


将因变量的分布范围从正态分布扩展到二项分布、


Poisson


分布、负二项分布等指数分布簇。




32





2





数据分析方法体系简介



?



通过设定不同的连接函数,把因变 量取值变换到自变量的线性预测的取值范围


(


-


?



+


?

)


中,把指数分布簇的变量统一到一个模型框架中,具有极大的灵活性。

< p>


这样,通过选定不同的因变量概率分布、方差函数、连接函数和线性预测 函数,可以


得到各种不同的广义线性模型。


例如,


传统的线性模型、


Logistic


回归模型簇、< /p>


Poisson


回归、


Probit


回归等都可以被看作是广义线性模型的特例。




IBM SPSS Statistics

< br>中,广义线性模型是在“广义线性模型”


?


“广义线性模 型”中


实现的。



2.


广义估计方程



广义估计方程


(Generalized Estimating Equations)


是在广义线性模型的基础上发展起来的< /p>


处理纵向数据的统计模型,所谓纵向数据


(Longitudin al


Data)


,就是按时间顺序对个体进行


重复测量得到的资料。比如儿童的生长监测资料,出生后每月测量其体重


(


Y


变量


)


以及影响


体重发育的因素


(


X

< br>变量,如性别、喂养、疾病等


)


,这样每个儿童的多次测 量值称为纵向数


据的一个簇


(Cluster)



包括一组体重和一组


X


变量 。


多个这样的簇就构成了一个纵向数据集。


同一对象的多次观测 之间呈相关倾向,这是纵向数据的最大特点。



广义估计方程在 用于纵向数据分析时有很多优势,其中最为重要的是其估计值的稳健


性,即分析者即使对 重复测量间的相关结构指定不正确,其参数估计值和标准误估计值仍


然是稳定的。




IBM SPSS Statistic s


中,广义估计方程是在“广义线性模型”


?

< br>“广义估计方程”中


实现的。



3.


混合线性模型



混合线性模型


(Mixed


Linear


Model)


是针对一 般线性模型在另一方面的扩展。工作中遇


到的许多资料都具有层次结构,例如在市场研究 的抽样调查中,受访者会来自不同的城市,


这就形成了一个层次结构,高层为城市,低层 为受访者。显然,同一城市内的受访者在各


方面的特征应当更加相似。换言之,所谓层次 是指基本的观察单位聚集在更高层次的不同


单位中,例如同一城市的受访者特征间具有相 关性,传统的线性模型没有对这些问题进行


考虑,都是假设不同个体间的数据完全独立, 这样当数据组内聚集性较强时可能会得出错


误结论。



另一方面,


在传统的统计分析方法中,


对集中趋 势


(


均数


)


的 分析方法已经发展到了比较


完善的地步,但对离散趋势的分析还处于起步阶段。即我们可 以准确地推断哪些因素对因


变量的均数有影响,却无法分析哪些因素对因变量的变异程度 有影响。这一问题现在越来


越受到重视,已成为统计理论的一个重要发展方向。



混合线性模型是


20


世纪


80


年代初针对资料的非独立性问题发展起来的一类模型, 由


于该模型的理论起源较多,根据所从事的领域、模型用途和师承关系,也可能将其称为 多


水平模型


(Multilevel


Models)


,甚至和广义估计方程也有很大的交叉。这种模型充分考虑到

< p>
数据聚集性的问题,可以在数据存在聚集性的时候对影响因素进行正确的估计和假设检验。



33



< p>
不仅如此,它还可以对变异的影响因素加以分析,即哪些因素导致了数据间聚集性的出现,


哪些又会导致个体间变异增大。由于该模型成功地解决了长期困扰统计学界的数据聚集性


问题,


20


年来已经得到了飞速的发展,也成为


SPSS


等权威统计软件的标准统计分析方法

< br>之一。




IBM SPSS Statistics


中,


一般意义的混合线性模型在


“混合模型”


?


“线性”


中实现,


而更为复杂的非线性模型则是在“混合模型”


?


“广义”中实现的。



2.4.3



回归模型



大部分的回归模型可以被纳入一般线性模型或者广义线性模型的框架中,但是从应用


的角 度讲,将其单独介绍会更容易理解。



1.


线性回归模型



实际上,线性回归模型 和方差分析模型是完全等价的,只是其对应的自变量为连续变


量。


通过扩展


(


将分类变量转化为哑变量组


)



该模型框架也可以处理含有分类自变量的情形。



所谓线性回归,指的是所有自变量对因变量的影响均呈线性关系,假设 希望预测因变



y


的取值,诸影响因素 为自变量


x


1



x


2


、…、


x


m


,则自变量和因变量间存在如下关系:


< br>?


?


a


?


b


1


x


1


?


b


2


x


2


?


y


?


b


m


x


m



上式中表述的为


y


的估计值,如果希望用该公式精确 地表示每一个体的测量值,则假


?


上下波动,即


y


i


设在相应的自变量取值组合下,相应的个体因变量 实测值围绕平均水平


y


可表示如下:



?


?


e


i


?


a


?


b


1


x


1


i


?


b


2


x

< br>2


i


?


y


i


?


y


?


b


m


x


mi


?< /p>


e


i



其中,< /p>


e


i


为随机误差,被假定为服从均数为< /p>


0


的正态分布。即对每一个体而言,在知道了所

< br>有自变量取值时,我们只能确定因变量的平均取值,个体的具体取值在其附近范围内。



IBM SPSS Statistics

< p>
中,线性回归模型是在“回归”


?


“线性”中实现 的。



2.


线性回归的衍生模型



线性回归模型有 自身的使用条件,比如线性关联、残差正态性等。但是实际数据往往


不会很好地服从以上 假定,此时可以使用一些衍生模型来对数据进行更好的拟合。



?



曲线直线化:在线性回归中,各自 变量和因变量之间均应呈线性关联趋势。当该


条件被违反时则必须采取相应的处理措施, 其中最简单和常用的方法就是曲线直


线化,其基本原理是将变量进行变换,从而将曲线方 程化为直线回归方程进行分


析。对于一些常见的曲线关联,也可以直接采用“回归”


?


“曲线估计”来实现。



?



加权最小二乘法处理方差不齐:标 准的线性回归模型假设在所研究的整个总体中


方差是恒定的,即因变量的变异不随自身预 测值或者其他自变量值的变化而变动。


在有的研究问题中,这一假设可能被违反,因变量 的变异会明显地随着某些指标



34





2





数据分析方法体系简介


< p>
的改变而改变,此时如果能够找到一些可供预测变异大小的指标,从而能够根据

变异的大小对相应数据给予不同的权重,则能够提高模型的精度,达到更好的预


测效 果。该方法可以在“回归”


?


“权重估计”中实现。

< p>


?



岭回归方法处理多 重共线性:共线性指的是各自变量间存在强相关,并因此影响


到回归模型的参数估计。除 对自变量进行主成分分析来解决共线性之外,岭回归


是一种专门用于共线性数据分析的有 偏估计回归方法,它实际上是一种改良的最


小二乘法,通过放弃最小二乘的无偏性,以损 失部分信息、降低精度为代价来寻


求效果稍差但回归系数更符合实际的回归方程。故岭回 归所得剩余标准差比最小


二乘回归大,


但它对病态数据的耐受性 就远远强于最小二乘法。



SPSS


中 没有为


岭回归分析提供对话框界面,但为之编制了一套完整的宏程序,名为


Ridge



,通过调用该宏程序可以完成相应的分 析。



?



最 优尺度回归以优化对分类自变量的建模:线性回归模型中要求因变量为数值型,


但现实问 题中大量的数据为分类资料,虽然统计学上标准的做法是采用哑变量


(Dummy Va riable)


进行拟合,然后根据分析结果考虑对结果进行化简。但是,哑变


量分析的操作比较麻烦,而且对分析者的统计知识要求较高,而最优尺度变换专

< br>门用于解决在统计建模时如何对分类变量进行量化的问题,其基本思路是基于希


望 拟合的模型框架,为原始分类变量的每一个类别找到最佳的量化评分,随后在


相应模型中 使用量化评分代替原始变量进行后续分析。该方法可以在“回归”


?

“最佳尺度


(CA


TREG)


”中 实现。



3.


路径分析与结构方程模型



多重线性回 归只是基于一个方程建立模型,反映的是自变量与因变量之间的直接作用,


而不能反映因 素间的间接关系。但是,变量间的关系往往错综复杂,采用一个简单的多元


回归方程有可 能无法正确反映这种错综复杂的关系。路径分析是多重线性回归模型的扩展,


它的主要特 征是根据专业知识,假设模型中各变量的具体联系方式,这种联系一般会被绘


制为一张路 径分析图。随后按照相应的因变量分别拟合各自的多重线性回归方程。也就是


说,路径分 析模型是由一组线性方程所构成,它描述的变量间的相互关系不仅包括直接的,


还包括间 接的和全部的关联。



与路径分析有一定联系,但功能更为强大 的是结构方程模型,结构方程模型是一种建


立、估计和检验因果关系模型的方法。模型中 既包含可观测的显在变量,也可能包含无法


直接观测的潜在变量。结构方程模型可以替代 多重回归、通径分析、因子分析、协方差分


析等方法,清晰分析单项指标对总体的作用和 单项指标间的相互关系。简单地说,与传统


的回归分析不同,结构方程分析能同时处理多 个因变量,比较及评价不同的理论模型,并


检验它是否吻合数据。




IBM


SPSS


系列产品中,路径分析和结构方程模型是通过


AMOS


软件来实现的,未


来该软件很可能被直接作为


IBM SPSS Statistics


的一个模块来提供。




35




4.


非线性回归模型



线性回归模型及其衍生模型可以处理大多数分析需求,但是针对无显式表达式的方程,


或者更为特殊的一些拟合方法则无法实现,非线性回归就是针对以上的复杂问题而提出的


一个通用模型框架,它采用迭代方法对用户设置的各种复杂曲线模型进行拟合,同时将残


差的定义从最小二乘法向外扩展,为用户提供极为强大的分析能力。



非线性回归模型一般可以表示为如下形式:


< br>?


?


e


i


?


f


(


x


,


?


)


?


e


i



y


i


?


y


其中,


f


(


x


,


?


)


为期望函数,该模型的结构和线性回归模型非常相似,不同的是期望函数< /p>


f


(


x


,


?


)


可能为任意形式,在有的情况下甚至可以 没有显式表达式。



由于期望函数并非直线,因此非线性回归模 型可能无法直接计算出最小二乘估计的参


数值,一般采用高斯


-


牛顿法进行参数估计。这一方法是对期望函数做泰勒级数展开,以达

到线性近似的目的,并反复迭代求解。




IBM SPSS Statistics

< br>中,非线性回归模型是在“回归”


?


“非线性”中实现的 。



5. Logistic


回归模型



Logi stic


回归模型的基本架构直接来自多重线性回归模型。在实际工作中,我们经常会< /p>


遇到因变量为分类变量的情况,比如发病与否、死亡与否等,需要研究该分类变量与一组< /p>


自变量之间的关系。此时,若对分类变量直接拟合回归模型,则实质上拟合的是因变量某< /p>


个类别的发生概率,参照线性回归模型的架构,可以很自然地写出下面形式的回归模型:< /p>



?


?


?


?


?


x


?

< p>
?


?


?


x



P


1


1

m


m


该模型可以描述当各自变量变化时,因变量的发生概率 会怎样变化,可以满足分析的


基本需要。但是会出现预测概率值超过

0



1


的有效区间,以及残差不应 当服从二项分布等


问题,为此


Cox


引 入了


logit


变换,成功地解决了上述问题。所谓

< p>
logit


变换,就是


logit


P


?


ln(


P


/(1


?


P


))


,通过变换,


logit


P


的取值范围被扩展为以


0


为对称点的整个实数区



(-


?



+


?


)


,使得在任何自变量取 值下,对


P


值的预测均有实际意义。相应的包含


p


个自


变量的


logisti c


回归模型如下:



logit(


P


)


?


?


0


?


?


1


x


1


?


?

< br>?


p


x


p




IBM SPSS Statistics


中,


因变量为两分类的


logistic

< p>
模型是在


“回归”


?


“二 元


Logistic



中实现的。对于 因变量为有序多分类或者无序多分类的情形,上述模型也会做进一步的扩


展,相应的方法 分别在“回归”


?


“有序”和“回归”


?


“多项


Logistic


”中实现。



2.4.4



其他常见模型



基于上述的线性模型框 架,根据实际数据的特征,还可能出现下列衍生模型,研究者


可以使用它们来解决一些特 定的分析需求。




36





2





数据分析方法体系简介



1.


生存分析模型



生存分析是对生存时间进行分析的统计技术的总称。简单地说,在此类分析方法所需

考虑的问题中,生存时间的长度和生存的最终结局都是关键的观测指标。之所以采用生存

分析这个术语,可能是由于这种统计技术常用于医学研究中病人在接受某种治疗后其存活

时间分析的缘故。除了医学生物领域外,其他领域生存时间的例子还有:一个工人从下岗

后到实现再就业的时间;一台机器从开始使用后到发生第一次故障的时间,等等。生存分

析的目的就是刻画生存时间的分布,并就各影响因素的作用加以分析。


< p>
在生存分析中,最重要的多变量模型是


Cox


模型 ,其基本形式如下:



h


(

< p>
X


,


t


)


?


h


0


(

t


)exp(


?


T


X


)


?


h

0


(


t


)exp(


?


1


x


1

?


?


?


p


x


p


)



显然 如果两侧同时取对数,模型结构就会非常类似于一般线性模型。




IBM SPSS Statistics

< br>中,


Cox


回归模型是在“生存函数”

< br>?



Cox


回归”中实现的,< /p>


而带有时间依存协变量的


Cox


模型则是 在“生存函数”


?



Cox

< p>
依时协变量”中实现的。



2.


对数线性模型



对数线性模型专门用于 多个分类变量之间关联性的分析,该方法假设每个单元格的观


察频数服从多项

< p>
(Multinomial)


分布。


以两分类变量 构成的交叉表为例,


如果将单元格频数取


自然对数,则假定各因 素对单元格频数的影响服从下面的公式:



ln(


?


ab


)=ln(


常数


)+ln(A


的主效应


)+ln(B


的主效应


)+ln(A


B


的交互作用


)



ln(


常数


)


< p>
?


..



ln(A


的主效应


)



α


a



ln(B


的主 效应


)



β


b



ln(A



B


的交互作用


)


(


??


)


ab

,则上式变为



ln


?

< p>
ab


?


?


..

< p>
?


?


a


?


?


b


?


(

??


)


ab


这就是二维列联表的对数线性模型。上述模型称为饱和模型


(Saturated Model)


,通过检


验各参数是否为


0



并且将其中无统计学意义的参数项从饱和模型中去除,


就可以得出所需


的分析结论。


< p>
对数线性模型在架构上实际上没有区分自变量和因变量,而是在分析中由研究者决定


应当如何解释分析结果。


由于对数线性模型在使用和结果解释上比较复杂,



Logistic


模型

< br>又得到了广泛的应用


(


特别是后者还可以处理连续性自变 量


)



因此该方法的使用相对来说并< /p>


不多见。




IBM SPSS Statistics

< br>中,非线性回归模型是在“分析”


?


“对数线性模型”子 菜单中


实现的。



3.


时间序列模型



时间序列就是以相等时 间间隔,按顺序排列的一系列变量值。大量的社会经济指标都


是按年、季、月、周、日等 时间单位统计的。随着时间的推移,得到的数据慢慢积累就形


成了该统计指标的时间序列 。因此,可以认为时间序列是某一个或某几个统计指标长期变



37




动的 数量表现。时间序列分析就是用适当的统计方法分析时间序列中蕴含的统计规律性,


并根 据这种统计规律性预测序列将来的变化。在时间序列分析中,预测是最终的目的。



对时间序列的预测,最简单的思路就是将时间作为自变量,对相应的指标进行回归建


模,但序列数据间显然具有相关性,违反了回归模型的基本假定,需要采用某种方法进行


处理,将这种序列数据的自相关纳入模型框架之中,这就是时间序列模型需要解决的问题。



时间序列模型有很多种类,


目前应用较多的 是


ARIMA


模型。


此外,

< p>
根据时间序列模型


的建构思路,又可分为时域模型


(Time


domain)


和频域模型


(Frequency


domain)


等,这里我们


不再展开介绍。




IBM SPSS Statistics

< br>中,时间序列模型是在“分析”


?


“预测”子菜单中实现 。



2.5



多元统计分析模型



这里的多元统计模 型是指在模型中难以区分出自变量、因变量,这些模型的分析重点


是放在探讨各变量或元 素的内在关联结构,或者对其进行有效分类上。



2.5.1



信息浓缩



在实际工作中,为了全面、系统地反映问题,往往收集了较多变量,因此会出现所收


集的 变量间存在较强相关关系的情况。这些变量间存在着很多的信息重复,直接用它们分


析现 实问题,不但模型复杂,还会因为变量间存在的多重共线性而导致极大的误差。



为了能够充分而有效地利用数据,人们希望用较少的新指标代替原来较多的旧变量,

< p>
同时要求这些新指标尽可能地反映原变量的信息。主成分分析正是解决此类问题最有效的

< p>
多元统计方法,它通过将原来的


p


个指标作线性组 合,形成新的综合指标


(


主成分


)


。这些主


成分间互不相关,而原始信息量


(


方差


)


则在这些主成分中重新分配,且 方差递减。在实际应


用中,通常只选前面几个最大的主成分来代表绝大部分的原始信息, 从而既减少了变量的


数目又抓住了主要矛盾,有利于问题的分析和处理。




IBM SPSS Statistics


中,主成分分析可以在“降维”


?


“因子分析 ”中实现。



2.5.2



变量间内在关联结构的探讨



1.


多个变量间关联结构的探讨



因子分析 是探讨多个变量间关联结构的常用方法,它在某种程度上可以看成是主成分


分析的推广和 扩展,但是对问题的研究更为深入。它将具有错综复杂关系的变量


(

或样品


)


综合为数量较少的几个因子,以再现原始变量与因 子之间的相互关系,探讨多个能够直接


测量,并且具有一定相关性的实测指标如何受少数 几个内在独立因子所支配,同时根据不



38





2





数据分析方法体系简介


< p>
同因子还可以对变量进行分类,属于多元分析中处理降维的一种统计方法。



因子分析通过研究多个变量间相关系数矩阵


(

< br>或协方差矩阵


)


的内部依赖关系,


找出能综


合所有变量的少数几个随机变量,这几个随机变量是不可直接测量的,通常称 为因子。之


后根据相关性的大小把变量分组,使得同组内的变量之间的相关性较高,但不 同组变量间


的相关性较低。



和从主成 分分析中提取出主成分类似,因子分析所提取的各个因子间互不相关,所有


变量都可以表 示成公因子的线性组合,但是往往难以直接对各公因子给出一个合理的解释,


此时需要进 一步作因子旋转,以求旋转后得到更加合理的解释。



在求出公 因子后,还可以用回归估计等方法求出因子得分的数学模型,将各公因子表


示成变量的线 性形式,进一步计算出因子得分,对各案例进行综合评价。




IBM SPSS Statistics

< br>中,因子分析可以在“降维”


?


“因子分析”中实现。< /p>



这里所讨论的因子分析也称为探索性因子分析,如果希望进行更 为精确的验证性因子


分析,则需要在


AMOS

< br>软件中用拟合结构方程模型来实现。



2.


变量组间关联结构的探讨



前面曾经提 到,研究两个随机变量之间的线性相关关系,可以用简单相关系数。当问


题更为复杂时也 有方法,如研究一个随机变量与多个随机变量之间的线性相关关系,可以


用复相关系数< /p>


(


通过回归模型加以计算


)



但如果要研究两组变量的相关关系,


这些统计方法


就无能为力了,此时应当使用典型相关分析来解决。



典型相关分析是研究两组变量之间相关关系的一种多元统计分析方法,其基本思路是


采用类似于主成分分析的做法,从每一组变量中选择若干个有代表性的综合指标


(


变量的线


性组合


)


,通过研究两组综合指标之间的关系来反映两组变量之间的相关关系。首先在每组


变量中找出变量的线性组合,使其具有最大相关性,然后从每组变量中找出第二对线性组


合,使其与第一对线性组合不相关,而第二对本身具有最大相关性,如此继续下去,直到


两组变量之间的相关性被提取完毕为止。这些综合变量被称为典型变量或典则变量,第Ⅰ


对典型变量间的相关系数称为第Ⅰ典型相关系数。一般来说,只需要提取


1

< p>


2


对典型变量


即可较为 充分地概括样本信息。




IBM SPSS Statistics


中可以用两种方法来拟合典型相关分析,第一种是采用


Manova


过程来拟合,第二种是采用专门的宏程序


Canonical


来拟合。



2.5.3



数据分类



对数据进行分类也是数据分 析中常见的需求,当事先不知道具体的类别情况,需要从


数据中总结出类别特征时,一般 使用聚类分析来解决问题。如果事先已经有了明确的分类,


分析目的是将未知分类的样品 进行归类,则以判别分析最为常用。




39




1.


聚类分析



人以类聚,物以群分,人们 总是试图把大千世界中的事物按照各自的不同属性和特征


分成有限的类别,从而方便进一 步的认识和研究。聚类分析就是满足上述分析需求的常用


方法,通过聚类分析,我们可以 把数据分成若干类别,使得类别内部的差异尽可能小,类


别间的差异尽可能大。聚类分析 可以同时处理有多个变量情况下的分类问题,此外除了将


个案进行归类之外,聚类分析类 法也可以对变量进行归类。



在聚类分析中最重要的问题就是如 何描述差异,通常的做法是通过距离或者相似性来


描述。统计学家发明了各种各样描述距 离和相似性的方法,



SPSS


提供的 距离和相似性度


量就有


30


余种之多, 从最简单的欧几里得空间距离到最复杂的似然函数对数值,其中应用


比较广泛的是欧几里 得距离的平方,大多数常用的聚类过程都默认采用这样的距离度量。


< br>传统的聚类方法大致可以分为两大类:一类是层次聚类法


(Hierarchic al)


,另一类是重新


定位聚类法


(R elocation)


,也称非层次聚类法。随着数据挖掘技术的发展,还出现了两步聚


类、基于神经网络技术的


SOM


聚类方 法


(Self-


Organization


Map


,又称


Kohonen


网络


)


等,


但是和前面介绍过的大多数 统计方法不同,聚类分析是一种探索性的统计分析方法,它没


有过多的统计理论支持,也 没有很多的统计检验对聚类结果的正确性“负责”


,仅仅是按照


所定义的距离将数据进行归类而已。从应用的角度讲,针对某一个特定问题,我们很难得


出一个完全确定,也能够得到理论完全支持的结论,更多的时候是依据聚类结果在问题中


的“有用性”来判断模型效果的好坏,这也是聚类分析在使用时难以掌握的一点。在笔者


看来,聚类分析虽然原理非常简单,但却是最难被正确应用的方法之一。




IBM SPSS Statistics

< br>中,聚类分析可以在“分析”


?


“分类”子菜单中实现, 其中分


别实现了两步聚类、非层次聚类法中的


K-


均值聚类、层次聚类法中的系统聚类,以及数据


挖掘中的最近邻元素分析法。


SOM


方法则需要在


IBM SPSS Modeler


中实现。



2.


判别分析



当已知具体的分类方式,分 析目的就是将所有的个案分别归类至具体的类别中时,所


使用的方法就是判别分析。判别 分析的因变量是分类变量,以此把样本划分为不同的类,


而自变量可以是任何尺度的变量 。其目的在于建立一种线性组合,使得用最优化的模型来


概括分类之间的差异。其用途是 可以根据已知的样本分类情况来判断待判样本的归属问题。


例如,信用风险的判别、市场 细分中的客户分类、地质层的判断、模式识别的问题等,是


应用相当广泛的多元统计技术 。



实际上,


从其用途可知,


该方法所解决的问题和


Logistic


回归模 型有着相当程度的重复。


事实的确如此,而且由于后者目前应用非常广泛,反而成为实际 应用较多的一种判别分析


方法。



判别 分析的模型按照判别的不同准则可以分为典型判别分析、贝叶斯判别分析、非参


数判别分 析


3


种不同模型。其实由于判别分析的内容相当丰富,其方法体 系几乎可以覆盖


多元统计的所有内容,但是其中以典型判别分析更为常用。其基本思想和 因子分析中提取



40





2





数据分析方法体系简介


< p>
公因子非常类似,只不过在因子分析中寻求的是提取信息量的最大化,而典型判别分析则

< p>
要寻求类间差异的最大化。




IBM SPSS Statistics

< br>中,判别分析可以在“分类”


?


“判别”中实现。



2.5.4



分析元素间的关联



这里所指的元素可 以是个案,也可以是变量,或者是变量的不同取值类别。实际上,


前述因子分析、聚类分 析等也具有某种程度的元素关联分析功能,但此处展示的方法则专


门用于此类目的。



1.


对应分析



研究分类变量间的联系是统计分析中常见的工作,卡方检验、二分类

logistic


模型等都


是常用的方法。当涉及的分类变 量类别较多,或者分类变量个数较多时,这些方法就会显


得力不从心。例如,研究全国< /p>


56


个民族的职业分布规律,通过抽样收集到数据后,我们可


以很容易地使用卡方检验得出各民族间职业分布有差异的结论。但是,这样的结论又有什


么用呢?我们更希望得知各个民族更倾向于从事何种职业,例如蒙古族倾向于从事农牧业、< /p>


朝鲜族倾向于教师职业等,这种结论才是真正有用的。要得到这种精确、全面的结果,也< /p>


就是要对分类变量各类别间的联系进行清晰呈现,就需要在方法学上有相应的突破。人们< /p>


也一直在寻找针对此类问题的适当统计分析方法,而对应分析就是其中一种解决方法,它< /p>


采用图形化呈现的方式,将交叉表转换为相应的对应分析图,从而将表格中包含的类别关< /p>


联信息用散点空间位置关系的形式表现出来。这样虽然没有涉及假设检验,无法得到确切< /p>


的统计结论,但是结果更为直观,而且操作简单、对结果的解释也更加容易。



对应分析可根据所分析变量的数目分为简单对应分析和多重对应分析两种: 简单对应


分析用于分析两个分类变量间的联系,在


IBM SPSS Statistics


中可以使用“降维”


?


“对应


分析”来实现。多重对应分析则用于分析多个分类变量之间的类 别联系,


SPSS


提供的是基


于最优尺 度变换的多重对应分析,可以通过“降维”


?


“最优尺度”来实 现。



2.


多维尺度分析



在工作中常常会遇到这 样的情况:有


n


个由多个指标反映的个体,但是反映个体的指< /p>


标个数是多少却不清楚,甚至指标本身是什么也是模糊的,更谈不上直接测量或观察它们,


仅仅知道这


n


个个体之间的某种距离< /p>


(


相异性


)


或者 某种相似性。


我们希望仅由这种距离或者


相似性给出的信息出发 ,


在较低维的欧氏空间把这


n


个个体< /p>


(


作为几何点


)


的相似程度用图形


表达出来。从而通过相关的专业知识揭示这


n


个个体之间的真实结构关系,这就是多维尺


度分析所要研究的问 题。



多维尺度分析


(Multidimensional


Scaling



MDS)

是基于研究现象之间的相似性或距离将


研究对象在一个低维


(


一般为二维到三维


)


的空间形象地表 示出来,进行聚类或维度内含分


析的一种图示法。它涉及这样的问题:当


m


个指标中各对应项目之间的相似性或距离给定


时,求 这些项目在低维空间中的表示,并使项目间的接近程度与原先的相似性或距离大体



41




匹配 。简单地说,就是从客体间的相似性或相异性数据出发,用低维空间中的点结构来表


示研 究客体,从而揭示数据的潜在结构。




IBM SPSS Statistics

< br>中,


MDS


分析可以在“分析”


?


“度量”子菜单中实现,多维


展开


( PREFSCAL)



多维尺度


(PR OXSCAL)


和多维尺度


(ALSCAL)

< br>菜单项实现的均为


MDS



型, 只是在复杂程度和模型适用范围上有所差异而已。



3.


信度分析



在各种调查研究中,对调查 问卷的结果进行统计分析之前必须先对其信度和效度进行


分析。只有当信度和效度在研究 范围内可以接受时,问卷统计分析结果才是可靠和准确的。


信度最早由斯皮尔曼


(Spearman)



1904


年将其引入心理测量,指测验结果的一致性程度或


者可靠性程度。如果用直观 的方式来表达,信度指的就是测量结果的稳定性,如果多次重


复测量的结果都很接近,则 可以认为测量的信度很高。




IBM SPSS Statistics


中,信度分析可以在“度量”


?


“可靠性分析”中实现。



2.6



智能统计分析


/

数据挖掘方法



这里列出的方法实际上应当被纳入多变量模 型或者多元模型体系中,但是由于它们主


要应用于数据挖掘领域,并且可能不具有简单的 模型表达式,因此将其单独归类加以介绍。



2.6.1



树模型



树 模型也称决策树或者树结构模型,是数据挖掘领域应用非常广泛的一种模型。其原


理并不 复杂,基本思想和方差分析中的变异分解极为相近,其基本目的是将总研究样本通


过某些 特征


(


自变量取值


)

< br>分成数个相对同质的子样本。


每一子样本内部因变量的取值高度一


致,相应的变异


/


杂质尽量落在不同子样本间。所有树 模型的算法都遵循这一原则,差异只


在于对变异


/


杂质的定义不同,比如使用


P


值、方差、熵、


Gini


指数


(


即基 尼指数


)



Deviance


等作为测量指标。



根据所预测的因变量类型, 树结构模型可以分为分类树和回归树两大类,而树模型常


用的算法有

CHAID


算法,


CRT


算法,< /p>


QUEST


算法、


C5.0


算法等。



?



CHAID


:是


CHi- squared Automatic Interaction Detector


的 缩写,也是树模型中发展


最早的一种算法。简单地说,就是用卡方检验作为树分类的基本 方法。从其原理


可知,


CHAID


应当 只适用于分类自变量,因此用途受限。


SPSS



CHAID


做了扩


展,提供了穷举

< br>CHAID


方法,分析效果更好,但仍然只能用于分类自变量。

< br>


?



CRT

< br>:


即分类树与回归树的缩写,


当因变量为分类变量时,< /p>


即为分类树,


若因变量


为连续变量则为回 归树。其基本目的是将总研究人群通过某些特征


(


自变量取值< /p>


)


分成数个相对同质的亚人群。每一亚人群内部因变量的取值高度 一致,相应的变



42





2





数据分析方法体系简介


< p>


/


杂质尽量落在不同亚人群间。简单地说,就是 按照预测误差最小化的原理,依


次按照二分法将总样本划分为多个子样本的过程。



?



QUEST< /p>


:即


Quick



Unbiased



Efficient


Statistical


Tree


的 缩写。它是


Loh



Shih



1997


年对


CHA ID


算法加以改进,提出的一种新的二叉树算法,该算法将变量


选择和分叉点选择分开进行,


可适用于任何类型的自变量,


同时 克服了


CHAID



法的某些缺点,在 变量选择上基本无偏。



?



C5.0


算法:是


C4.5

算法的升级,主要在执行效率和内存使用方面进行了改进,是


适用于大数据集上的一 种分类算法。


C5.0


算法以信息熵的下降速度作为确定最佳< /p>


分支变量和分割阈值的依据,通常不需要很长的训练次数进行估计,而且在面对

< p>
数据遗漏和输入字段很多的问题时非常稳健。




IBM SPSS Statistics

< br>中,可以在“分类”


?


“树”中利用

CHAID


算法、


CRT


算法和< /p>


QUEST


算法拟合树模型,而


C5.0


算法则需要在


SPSS Modeler


中实现。



2.6.2



神经网络



人工神经网络


(Artificial


Neural


Networks


,< /p>


ANNs)


简称为神经网络,是一种模仿动物神

< br>经网络行为特征,进行分布式并行信息处理的数学模型。这种网络依靠系统的复杂程度,

< br>通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。在理论上,神经

< br>网络可以很容易地解决具有上百个参数的问题,为解决高度复杂度问题提供了一种相对比

< br>较有效的简单方法。



在结构上,可以把一个神经网络划 分为输入层、输出层和隐含层。输入层的每个节点


对应预测变量。


输出层的节点对应目标变量,


可有多个。


在输入层和输出层之 间是隐含层


(



神经网络使用者不可见


)


,隐含层的层数和每层节点数决定了神经网络的复杂度。最初 ,网


络中的所有权重都是随机生成的,并且从网络输出的结果很可能没有意义,但是网络 可通


过学习训练样本中的信息来变得有价值:向该网络重复应用已知结果的示例,并将网 络给


出的结果与已知结果进行比较。从此比较中得出的信息会传递回网络,并逐渐改变权 重。


随着训练的进行,该网络对已知结果的复制会变得越来越准确。一旦训练完毕,就可 以将


网络应用到未知结果的案例中。



神经网络在应用中也遇到了很多问题,最大的问题是过度拟合,即网络对训练样本的


预测 效果很好,但是对验证样本的预测效果则较差。




IBM SPSS Statistics

< br>中,可以在“分析”


?


“神经网络”中实现相应的方法, 其中多


层感知器实现的是常用的


BP


网 络,而径向基函数实现的则是


RBFN


网络。

< br>


2.6.3



支持向量机



Support Vector Machine(SVM)


是一项功能强大的分类和回归技术,


可最大化模型的预测



43




准确 度,而不会像神经网络那样过度拟合训练数据。


SVM


特别适用 于分析预测变量字段非


常多


(


数千个< /p>


)


的数据。



支 持向量机方法建立在统计学理论的


VC


维理论和结构风险最小原 理基础上,


根据有限


的样本信息在模型的复杂性


(


即对特定训练样本的学习精度


)

和学习能力


(


即无错误地识别任


意 样本的能力


)


之间寻求最佳折中,以期获得最好的推广能力。< /p>




IBM SPSS Statist ics


中未包括


SVM


方法,但可以在


Modeler


中实现。



2.6.4



贝叶斯网络



贝叶斯网络又称信度网络 ,是


Bayes


方法的扩展,它对解决复杂设备不确定性和关联


性引起的故障有很大的优势,是目前不确定知识表达和推理领域最有效的理论模型之一。



贝叶斯网络是一种图形模型,


可显示 数据集中的变量


(


通常称为节点


)


以及概率,


还可以


显示这些变量之间的条件 和独立性。贝叶斯网络可呈现节点之间的因果关系,但网络中的


链接

(


也称为


arcs)


没有必要呈现 直接因果关系。例如,当指出是否存在某些症状并提供其他


的相关数据时,如果图形中所 显示的症状和疾病之间的概率独立性属实,则贝叶斯网络可


用来计算患者患有某种特殊疾 病的几率。这种网络非常稳健,即使在信息缺失时,也可以


利用现有的任何信息作出最佳 预测。




IBM SPSS Sta tistics


中未包括贝叶斯网络方法,但可以在


Model er


中实现。



2.6.5



最近邻元素分析



最近邻元素分析


(Nearest


Neighbor


Classification)


是根据观测值与其他观测值的类似程


度分类个案的方法。在机器学习中, 将其开发为识别数据模式的一种方法,而不需要与任


何存储模式或观测值完全匹配。相似 个案相互邻近,非相似个案则相互远离。因此,两个


观测值之间的距离是其不相似性的测 量依据。



有一个很简单的比喻可以帮助大家理解最近邻分析的 原理:如果有一个动物,它的腿


像猫,身体像猫,尾巴也像猫,那么它应当被判断为是什 么动物呢?显然最佳答案是猫。



最近邻元素分析既可以用于判 别预测,也可以用于聚类,该方法还可用于计算连续目


标的值。在这种情况下,使用最近 邻元素的均值或中位数目标值来获取新个案的预测值。




IBM SPSS Statistics

< br>中,最近邻分析可以在“分类”


?


“最近邻元素”中实现 。



2.6.6



关联规则与序列分析



1.


关联规则



关联规则主要应用于零售业 的购物分析,有时候它会和购物篮分析


(Market


Basket


Analysis)


这 一术语混用,


购物篮指的是超级市场内供顾客购物时使用的装商品的篮子,


当顾



44





2





数据分析方法体系简介


< p>
客付款时这些购物篮内的商品被营业员通过收款机一一登记结算并记录。所谓的购物篮分

< p>
析就是通过这些购物篮子所显示的信息来研究顾客的购买行为。也就是说,当一个消费者

< p>
购买其中一个产品的情况下,有多大的可能性会同时购买另外一个或多个产品。


关联规则方法可以将特定结论


(


特定产品的购买


)


与一组条件


(


若干其他产品的购买


)


关联

< br>起来。例如,下列规则:



啤酒



<=


罐装蔬菜



&


冷冻食品



(173, 17.0%, 0.84)


表述的是:啤酒经常 与罐装蔬菜和冷冻食品一起被购买。该规则可靠率为


84%


,并 适


用于


17%


的数据或分析用数据集中 的


173


条记录。




IBM


SPSS


Statistics


中未包括关联规则方法,但可以在


Modeler


中实现,具体包括


GRI


Apriori



CARMA< /p>


等方法。



2.


序列分析



序列分析可以被看作是关联 规则中的一类特殊形式,同样以购物行为举例,购物序列


分析是指通过分析买家对商品的 先后购买顺序来研究顾客的购买行为。也就是说,当一个


消费者在先前已经购买过某种或 某些商品的情况下,有多大的可能性会在未来一定时期内


购买另外一种或多种产品。显然 ,购物序列的分析结果可以非常有效地应用在老客户身上,


以最大限度地发掘老客户的潜 在购买需求。



除购物序列外,序列分析还可用于网站访问行为 的监测和界面优化,通过分析访问者


经常采用的页面访问顺序,可以得知网站界面和架构 应当进行怎样的修改,以改善使用者


的感受。




IBM SPSS Statistics

< br>中未包括序列分析方法,但可以在


Modeler


中实现 。实际上,该


方法是基于关联规则中的


CARMA


进行分析的。




45






3





IBM SPSS Statistics


操作入门



学习建议




2


章,对统计方法体系做基本了解。



本案例需要用到


IBM SPSS Statistics


的一些基本数据管理和统计分析功能。


在本案例中,研究者需要定期 向客户提交一些固定的报表,内容包括性别、


案例导读



年龄分布,


推荐度题目的频数分布和均值等。


案例中采用


IBM SPSS Statistics


的基本统计描述功能完成相应工作。



分析方法



频数表、均数、多选题描述。



转换:计算变量、重新编码;



分析过程



多重响应:定义变量集、频率数据;



描述统计:频率、描述。



学后建议




4


章,数码产品顾客购买习惯问卷调查。



6


章,酸奶饮料新产品口味测试研究案例。



本章将用一个简单的案例,


介绍


IBM SPSS Statistics


在数据分析上的基本操作。


本 书所


使用的


Statistics


版本 为


20.0


中文版,其余版本的具体操作和功能可能会略有区别 ,使用时


应注意。



3.1











2008


年,某连锁零售企业为了提高各分店的服务质量,面向全国范围开展了客户满意



监测项目


,该项目


针对


所有门店


进行,定


期用


CA


TI(Computer


Assisted


Telephone


Interrview

< br>,电脑辅助电话访问系统


)


随机抽样的方式,对近期有过 门店购物行为的会员进行


回访,就其购物行为的满意度进行调研,其中部分问卷如下:< /p>



顾客售后满意度调研问卷


(

< p>
节选


)



S2


请问您的年龄是



(


单选


)




1. 18


岁以下

< br>(


终止访问


)



2. 18



39





3. 40



60





4. 60


岁以上

< br>(


终止访问


)



S3


记录顾客的性别



(


单选


)






3





IBM


SPSS


Statistics


操作入门



1.


男性




2.


女性





Q1


请问您有多大可能向您的家人或朋友推荐×××商店?



(1



10



)




10


分代表肯定会推荐,


0


分代表肯定不会推荐】




Q9


在 过去的


3


个月中,平均来讲,您到×××商店购物的频次是?< /p>



(


单选


)


1.


每天都来




2.


每周


5



6





3.


每周


3



4




4.


每周


1



2





5.


每月


2



3





6.


每月


1


次或以下




Q10


请问您通常采用何种交通方式去×××商店购物?



(


最多限三项


)


1.


步行




2.


公交车




3.


自行车




4.


自有摩托车




5.


自己开车




6.


出租车


(


打的


)



7.


商场的免费购物班车




8.


出租摩托车




9.


人力三轮车




10.


电瓶车


/

电动车




11.


地铁




12.


轻轨




13.


其他方式

< br>(


请具体说明


)




作为定期执行的监测项目,研究者每周期需要向客户提交一些 固定的报表,内容包括:



?



受访者的性别、年龄分布。



?



Q1


推荐度题目的频数分布和均值。



?



受访者的购物频次分布和均值。



?



受访者购物使用的交通工具。



在实际 项目中,研究者还需要提交不同地区门店的数据比较,以及和上一周期相比的


数据比较报 表。在本案例中,我们只对其中某个城市的


490


例数据进行分 析,具体数据见


“顾客满意度


.sav





3.2



数据文件的读入与变量整理



3.2.1



SPSS


的基本操作界面



1.


启动


IBM SPSS Statistics


无论下一步是什么,分析者要做的第一件事情显然是首先进入< /p>


IBM


SPSS


Statistic s



统。以


Windows

< p>
系统为例,在“开始”菜单中找到


IBM SPSS Statistic s



(


老版本则可能为


SPSS


Inc



)


,选择其中的启动项


IBM


SPSS


Statistics


20.0(


老版本则可能为


SPSS


for


Windows)


,启动


IBM SPSS Statistics


,打开


SPSS


的数据编辑窗口。




47


-


-


-


-


-


-


-


-



本文更新与2021-03-02 13:59,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/690163.html

IBMSPSSStatistics操作进阶的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文