-
SPSS
的基本统计功能
1
、数据的预处理
2
、描述性统计和探索性统计
3
、假设检验(包括参数检验、非参数检验等)
4
、方差分析(包括一般的方差分析和多元方差分析)
p>
5
、相关分析
6
、回归分析
7
、多元统计分析,包括聚类分析、判别分析、因子分析、对应分析、主成分分析等<
/p>
8
、时间序列分析
9
、信度分析
10
、数据挖掘:决策树与神经网络
SPSS
统计分析的一般步骤
1
、建立
SPSS
数据文件
:
在【变量视图】定义
SPSS
p>
数据文件的结构,在【数据视图】进
行录入数据文件的录入。
2
、
SPSS
p>
数据的管理数据的预处理
:
集中于【数据】和【转换】两个菜单项。
3
、
SPSS
数据的统计分析阶段
:
在【分析】菜单中选择正确的统计方法。
4
、
SPSS
分析结果的阅读和解
释
:
<
/p>
读懂
SPSS
输出窗口中的分析结果
p>
5
、明确其统计含义,并结合背景知识做
出合理的解释。
第
2
章
SPSS
统计分析前的准备
一、
SPSS
数据文件的特点
< br>
1
、
SPSS
数据文件是一种有结构的数据文件
(一般文本文件仅有纯数据部分,
而没有关于结
构的描述)
;
2
、由数据的结构和内容两部分构成;
3
、其中数据的结构记录数据类型、取值说明、数据缺失等必要
信息(在【变量视图】
,每一
列大家都要明白你在定义什么,有
什么用)
;
4
、数据的内容是那些待分析的具体数据;
5
、在【数据视图】每一列代表一个变量
(variable)
< br>,变量名显示在表格顶部;
6
、在【数据视图】的每一行代表一个记录(
case
)
(即一个案例,或称一个对象、一个观察、
一个个体)
< br>
,记录序号显示在表格的左侧;
7
、
在【数
据视图】可以输入和编辑数据,但是不能输入数学表达式和函数
二、定义变量
1
、
【数据视图】
是进行数据输入、
数据编辑的界面,
对应的表格用于查看、
录入和修改数据。
p>
2
、
【变量视图】
是定义数据文件的变量的界面,
对应的表格用于输入和修改变量的定义。
3
< br>、用
SPSS
读取其他格式的数据:
1
)数据文件:
*
。
sav
语法文件:
*
。
sps
结果文件:
*
。
spo
脚本文件:
*
。
sbs
2
)文件
-
打开
-
数据,可打开多种文件类型(。
sav
、
。
xls
、
。
dbf
、
。
txt
、
。
dat
等)
注:要想顺利打开<
/p>
txt
文档,
txt
文档最好有
固定的分隔符
,如
一个
空格或
一个
逗号等。
< br>
三、
数据的编辑
在
SPSS
中,数据文件的编辑、整理等功能被集中在了【数据】和【转换】两个菜单项
中:
1
、数据的增删、复制、剪切、粘贴;
2
、数据的排序,
Sort
Cases
排序便于数据的浏览,快
捷找到最大值或最小值,迅速发现数
据的异常值;
四、
文件的拆分
:
文件的拆分相当于统计学中的
数据分组
< br>,
即将数据按一个或几个分组变量
分组。
五、数据选取
:
数据选取(个案选取)的基本方式
按指定条件选取(
If condition is
satisfied
)
随机抽样
(Random sample of cases)
选取某一区域内
(Based on
time or case range)
六、
个案加权:
记录加权是对观测数据赋以权重,常用于频数表资料;
七、
文件的合并:
合并文件是指将外部
数据中的记录或变量合并到当前的数据文件中去。
合
并数据文件
包括两种方式:
从外部数据文件增加记录到当前数据文件中<
/p>
——
纵向合并或称追加记录。
从外部数据文件增加变量到当前数据文件中
——
横向合并或称追加变量。
八、变量
的计算和变换:
【
转换】
-
【计算变量】
九、数据的重新编码
recode
统计分组
将字符型变量转换为数值型变量
将几个小类别合为一个类别
将数值型变量转换为字符型
十、
统计结果的保存为
word
文件:
【文件】
-
【导出】
第
3
章
SPSS
描述性统计
1.
Frequencies
(频率)过程的特色是产生频数表;功能
产生频数分布表;
绘制条形图、饼图、直方图;
计算集
中趋势与离散程度、分布形状(峰度和偏度的意义)等统计量;
按要求给出分位数;
对数据的分布趋势进行初步分析
(注
:对于定性变量来说,一般来说产生频数分布表,制作条形图,饼图即可)
;
2.
描述分析(
Descriptives
过程
)
适用的分析对象:定量变量,测度
为
scale
。
功能:
调
用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等;
<
/p>
并可将原始数据转换成
Z
分数(
(
原始值
-
均值
)/
标准差)
。
3.
Explore
(探索)过程用于对数据概况不清时的探索性分析,定量变量;
在一般描述性统计分析的基础上,增加有关数据其他特征的文字与图形描述。
提供茎叶图、箱线图、
PP
图、
QQ
图等;
指出异
常值(
Outliers
)
,可检查数据是否有错误,剔除异常值和错误数据;
进行点估计和区间估计,计算均值的置信区间,
;
检验一组数据是否呈正态分布;
4.
列联表分析
(
1
)列联表分析的适用条件
对一个
定量变量的描述和分析,一般用频数分析(频数分布表、饼图、直方图、条形图)
;
p>
对两个定性变量的描述和分析,通常使用列联表、对应分析,或使
用卡方检验;
对两个以上定性变量的描述和分析,通常使用高维列联表。
<
/p>
(
2
)期望频数的分布
< br>
如果行变量和列变量是独立的,
可以计算出列联表中每
个格子里的频数应该是多少,
称为期
望频数;
< br>
(
3
)列联表分析的基本思路
检验列
联表中的行变量与列变量之间是否独立(或是否相关)
。
p>
原假设为行变量与列变量之间独立(或不相关)
。
< br>
比较观察频数与期望频数的差。
如果两者的差越大,
表明实际情况与原假设相去甚远;
如果
差越小,
表明实际情况与原假设
越相近。
对于这个假设的检验,可以采用卡方分布,进行卡方检验。
(
4
)列联
表分析的步骤
检验列联表中的行变量与列变量之间是否独立(是否相关)
提出假设
H0
:行变量与列变量独立(不相关)
H1
:行变量与列变量不独立(相关
计算检验的统计量
统计决策
进行决策:
P
值决策
P<0
。
05
,则拒绝原假设
H
0
,否则,接收原假设。
(
5
)
Pearson
卡
方检验的应用条件
所有单元的期望频数应该大于
1
,或不应有大量的期望频数小于
5
的单元格。
如果列联表中有
20%
以上的单元格中的期望频数小于
5
,则一般不宜用卡方检验。
Pearson
卡方检验最普遍
第
4
章
SPSS
的均值比较过程
1
。
Means
过程
对准备比较的各组计算描述指标,进行预分析,也可直接比较,定量变量。
(
1
)
Means<
/p>
过程是专门计算各种平均数,并对平均数进行简单比较的;
p>
(
2
)虽然
Des
criptive
Statistics
(描述统计)菜单项
中的几个过程也能计算均数,但
Means
过程的输出结果是将
各组的描述指标
放在一起
的,便于相互比较;
< br>
(
3
)
Means
过程必须设置
分组变量
,若没有分组变量的话,可以使用
Descriptive <
/p>
Statistics
菜单项中的几个过程。
(
4
)适用于测度水平为
SCALE
的变量。
2
。
单样本
T
检验
(
1
)目的
检验某变量的总体均值与指定的检验值之间是否存在显著差异。
(
2
)适用条件
样本来自的总体服从正态分布
(
3
)基本步骤
H0
:
μ
=
μ
0
H1
:
μ
≠
μ
0
构造检验统计量
统计决策
如果
P
值
<
α
(
α
一般取值为
0
。
05
)
,拒绝原假设;
如果
P
值
>
α
,接受原假设;
3
。
独立样本
T
检验
(
1
)目的
p>
通过比较两个样本均值差的大小来确定两个总体的均值是否相等。
(
2
)适用条件
独立性:两个样本相互独立,且均为大样本;
正态性:
如果两个样本相互独立但都是小样本,
或
有一个样本是小样本,
则要求总体服
从正态分布;
方差齐性
(
3
)基本步骤
a
、方差
齐性
F
检验
原假设:两个总体方差相等;
备则假设:两个总体方差不相等;
P
值
<0
。
05
时,拒绝原假设,说明方差不齐;否则两个总体方差无显著性差异。
b
、对两总体的均值提出假设
H0
:
μ<
/p>
1
=
μ
2
H1
:
μ<
/p>
1
≠
μ
2
c
、统计决策
在
SPSS
中进行两独立样本
t
p>
检验时,应首先对
F
检验作判断。如果方差
相等,观察分
析结果中
Equal
variances
assumed
列的
t
检验相伴概率值;如果方差不相等,观察
Equal
variances not assumed
< br>列的
t
检验相伴概率值。
p>
如果
P
值
<
α
,拒绝原假设;
如果
P
值
>
α
,不能拒绝原假设;
4.
配对样本的
T
检验
配对样本是指对同一样本的某个
变量进行前后两次测试所获得的两组数据,或是对两个
完全相同的样本在不同条件下进行
测试所获得的两组数据。
其差别在于抽样不是相互独立的,而是互相关联的。
(
1
)配对样本通常有两个特征:
第一,
两组样本的样本数相同;
第二,
两个样本记录的先后顺序一一对应,不能随意更改。
(
2
)适用条件
两样本数据必须两两配对
两总体服从正态分布
配对样本的录入
方式是:每对数据在同一个
case
的两个配对的变量上
(
3
)检验步骤<
/p>
a
、提出假设
H0
:
μ<
/p>
1
=
μ
2
H1
:
μ<
/p>
1
≠
μ
2
b
、统计决策
如果
P
值
<
α
,拒绝原假设;
如果
P
值
>
α
< br>,不能拒绝原假设;
第
5
章
方差分析
如何对一个或两个总体的均
值进行检验,
我们可以用均值比较,
如果要讨论多个总体均
p>
值是否相等,我们所采用的方法是方差分析。
方差分析中有以下几个重要概念。
(
1
)因素(
Factor
)
:是指所要研究的变量,它可能对因变量产生影响。如果方差分析
只针对一个因素进行,
称为单因素方差分析。
如
果同时针对多个因素进行,
称为多因素方差
分析。
(
2
)水平(
Level
)
:水平指因素的具体表现,如销售的
四种方式就是因素的不同取值
等级。
(
3
)单元(
Cell
)
:指因素水平之间的组合。
(
4
)元素(
Element
)
:指用于测量因变量的最小单位。一个单元里可以只有一个元素,<
/p>
也可以有多个元素。
(
5
)交互作用(
Interaction
)
:如果一个因素的效应大小在另一个因素不同水平下明显
< br>不同,则称两因素间存在交互作用。
1.
单因素方差分析
单因素方差分析也叫
一维方差分析,
它用来研究一个因素的不同水平是否对观测变量产
生了显著影响,
即检验由单一因素影响的一个
(或几个相互独
立的)
因变量由因素各水平分
组的均值之间的差异是否具有统计
意义。
(
1
)适用条件
在各个水平之下观察对象是独立随机抽样,即
p>
独立性
;
p>
各个水平的因变量服从正态分布,即
正态性
;
各个水平下的总体具有相同的方
差,即
方差齐性
;
< br>(
2
)基本原理
SST
(总的离差平方和)
=SSA
(组间离差平方和)
+SSE
(组内离差平方和)
如果在总的离差平方和中,
组间离差平方和所占比例较大,
说
明观测变量的变动主要是
由因素的不同水平引起的,
可以主要由
因素的变动来解释,
系统性差异给观测变量带来了显
著影响;<
/p>
反之,
如果组间离差平方和所占比例很小,
说明观测变量的变动主要由随机变量因
素引起的。
SPSS
将自动计算检验统计量和相伴概率
P<
/p>
值,若
P<
α
,
则拒绝原假设,认为因素的不
同水平对观测变量产生显著影响;
反之,
接受零假设,
认为因素的不同水
平没有对观测变量
产生显著影响。
另
外,
SPSS
还提供了多重比较方法,多重比较是通过对总体均
值之间的配对比较来进
一步检验到底哪些均值之间存在差异,最常用的多重比较方法是<
/p>
LSD
。
(<
/p>
3
)检验步骤
a
、提出假设
H0
:
各个总体的均值无显著性差异。
H1
:
各个总体的均值有显著性差异。
b
、统计决策
方差齐性检验结果,
P
值
>0
。
05
,方差齐,否则,方差不齐;
单因素方差分析表,
P
值
>
α
,接受
H0
,都则,拒绝
H0
,接受
H1
。
2.
多因素方差分析
多因素方差分析是对
一个独立变量是否受一个或多个因素或变量影响而进行的方差分
析。
它不仅能够分析多个因素对观测变量的独立影响,
更能够分析多个因素的交互作用能
否
对观测变量产生显著影响。
(
p>
2
)基本原理
由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,
< br>而且因素其交互
作用和一些随机因素都会对变量产生影响。
因此观测变量值的波动要受到多个控制变量独立
作用、控制变量交互作用及随机因素等
三方面的影响。以两个因素为例,可以表示为:
Q
总
=
Q
控
1
+
Q
控
2
+
Q
控
1
控
2
+<
/p>
Q
随
其中,
Q<
/p>
表示各部分对应的离差平方和。多因素方差分析比较
Q
控
1
、
Q
控
2
、
Q
控
1
控
2
、
Q
随
占
Q
总
的比例
,
以此推断不同因素以及因素之间的交互作用
是否给观测变量带
来显著影响。
(
< br>3
)基本术语
a
、
Dependent
Variable
观测变量或因变量
主要指研究中的定量变量
如:移动话费、学生成绩、销售量、亩产量等
b
、
Fixed Factor
固定效应因素,固定因素,控制因素
主要指研究中的定性变量
如:资费等级、客户类型、漫游类型、促销策略等
c
、
Random Factor
随机效应因素、随机因素
人为无法对其水平值进行准确控制,
只是能够直观观测到
如:话费水平、
收入水平
、
消费
习惯等
d
、
Interaction
交互作用、交互效应
如果一个因素的
效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互
作用。
当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一
个因素的不同
水平研究该因素的作用大小。例如:饮食习惯、适量运动对减肥的作用;<
/p>
e
、
main
effect
与交互效应相对应的
主效应就是每个因素对因变量的单独影响(
main
effect
)
f
、
Covariates
协变量
指对应变量可能有影响,需要
在分析时对其作用加以控制的连续性定量变量
当模型中存在协
变量时,一般是通过找出它与因变量的回归关系来控制其影响
(
3
)应用条件
等方差;
各样本的独立性:只有各样
本为相互独立的随机样本,才能保证变异的可加性(可分
解性)
;
正态性:即所有观察值系从正态总体中抽样得出;
(
4
)基本步骤
提出假设
H0
:因素
A
中的
r
个水平的均值相等(因素
A
对因变量无显著性影响)
H1
:因素
A
中的
r
p>
个水平的均值不全相等(因素
A
对因变量有显著性影响)
统计决断
P
值检验法
依次查看各
F
值的
P
< br>值,
p-
值
< br><
α
,应拒绝原假设;
如果其
P
值大于显著性水平,
则不能拒绝
H0
,
可以认为相
应不同水平的控制变量或交
互影响没有造成均值的显著差异
;<
/p>
第
6
章
非参数检验
非参数检验(
nonparametric
test
)
,又称为任意分布检验(
distribution-free
test
)
;
不依赖于总体的分布类型,
对样本所来自总体的分布不作严格假定的统计推断方法,<
/p>
称为非
参数检验(
nonparamet
ric test
)
它不考虑研究对
象总体分布的具体形式,也不对总体参数进行统计推断;
而是
通过检验样本所代表的总体分布位置及分布形状是否一致来得出统计结论。
特点
参数检验条件不满足时的处理方法
不对均数等参数检验,而是检验分布是否相同
在总体分布未知的情况下,利用样本数据对总体的分布形态进行推断。
非参数检验的着眼点不是总体参数,而是总体的分布情况
非参数检验研究目标总体的分布是否与已知理论分布相同
非参数检验研究各样本所在总体的分布位置,形状是否相同
优点
第一,具有较好的稳健性;
第二,受限条件少:对数据要求不像参数检验那样严格
第三,
适用范围广:
可应用于各种不同的情况
,不受总体分布形状的限制,
适合处理无法精
确数量化的定性数
据和小样本数据
第四,计算通常较简单,且容易理解
缺点
第一,将定量数据转换为定性数据时,漏失了数据的一些信息
第二,检验的敏感度和效果,均不如参数检验好。
检验效率低于参数检验,主要是犯第二
类错误的可能性加大。
第三,
参数检验适用的数据,非参数方法会降低检
验效能;当数据满足参数检验条件时,效
能低于参数法,不满足参数法条件时,处于“优
势”
非参数检验的应用场合
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;
定量数据,其分布类型无法获知,且为小样本;
定量数据,极度偏态,或个别数值偏离过大;
各组离散度相差悬殊
一端或两端存在不确定数值的定量数据
定序数据,比较各组间等级强度的差别;
非参数检验的主要方法
单个样本的非参数检验
卡方检验(
Chi-
Square
过程)
二项检验(
Binomial
过程)
游程检验(
Runs
过程)
柯尔莫哥洛夫—斯米诺夫检验(
l-Sample
K-S
过程)
两个独立样本的非参数检验
多个独立样本的非参数检验
两个配对样本的非参数检验
多个配对样本的非参数检验
顺序统计量
通过对数据从小到大的排
序
(
即排队
)
,并由数据的大小排序号
(
排队号
)<
/p>
代替原始数据进行统
计分析。
秩
(Rank)
:
< br>排序号
(
排队号
)
在统计学上称为秩
结
(t
ies)
:
绝对值相等称为结,又称同秩,则取平均秩次。
p>
一般来说,秩就是该组数据按照
升序
p>
排列之后,每个数据的位置。
1.
单个样本的非参数检验
卡方检验(
Chi-
Square
过程)
用卡方检验来检
验定性变量的几个取值
(分类数据,
或类别)
< br>所占比例是否和理论的比例没
有统计学差异。
检验分类变量的分布
适合于定性数据及频数资料的分析
要求样本足够大,要求样本容量一般大于
50
< br>;
应用领域
如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同
(
实为治愈、好转、有效
和无效的概率或机会是否相同
)
成绩优、良、中、差的学生人数是否相同
赞同某种观点的人数是否达到
80%
,等等。
比如在人群中抽取了一个样本,可以用该
方法来分析四种血型所占的比例是否相同(都是
25%
)
,或者是否符合我们所给出的一个比例(如分别为
10%
、
30%
、
40%
和
20%
)
。
Chi-
Square
检验的基本思路
先按照
已知总体的构成比例分布,
计算出样本中定性数据
(即各类别)
的期望频数然后求出
观测频数和期望频数的差值,最后计算出卡
方统计量
利用卡方分布求出
P
值,假设检验的
H0
是样本中某指标的比例与
已知比例一致
得出检验结论
2.
二项检验(
Binomial
过程)
检验二项分类变量分布
用于检测所给
的变量是否符合二项分布,
变量可以是两分类的,
也可以使连续
性变量,
然后
按你给出的分界点一刀两断。
Binomial
过程对二项分类变量的单个样本作检验
,
推断总体中两个分类数据的比例是否分别
为
< br>π
和
(1-
π
< br>)
应用领域
射击时,击中与未击中;学生成绩,及格与不及格;疾病诊断,阴性与阳性;硬币,正面与
反面;人群性别,男和女;产品质量,合格和不合格
定量数据、符号检验(
SING TEST
)与
Binomial
过程
p>
定量数据:大样本;或小样本,总体服从正态分布,总体方差已知;
参数检验:单个样本的均值检验
定量
数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;
极度偏态,或个别数值偏离过大;
一端或两端存在不确定数值
3.
游程检验(
Runs
过程)
Runs
过程借助样本序列的顺序推断总体序列的顺序是否是随机的,属随机性检验
二分类数据和定量数据(连续数据)均可
对于一个取两个值的分类变量,游程检验方法是检验这两个值
的出现是否是随机的。
游程检验还可以用于某个连续变量的取
值小于某个值及大于该值的个数
(类似于
0
和
1
的
个
数)是否随机的问题
游程检验的作用
1
、检验总体分布是否相同
将从两个总体中独立抽取的两个样本的观察值混合后,观察游
程个数,进行比较。
2
、检验样本的随机性
将取自某一总体的样本的观察值按从小到大顺序排列,
找出中位数,
分为大于中位数的小于
中位数的
两个部分。用上下交错形成的游程个数来检验样本是否是随机的。
应用范围
生产过程是否需要调整,即不合格产品是否随机产生;
奖券的购买是否随机;
期货价格的变化是否随机等等。
若事
物的发生并非随机,即有某种规律,则往往可寻找规律,建立相应模型,进行分析,作
出
适宜的决策。
当样本按某种顺序排
列
(
如按抽取时间先后排列
)
时,
一个或者一个以上相同符号连续出现的
段,
就被称作
游程
;
4.
(
l-Sample
K-S
过程)
柯尔莫诺夫
-
斯米尔诺夫检验,考察某个连续性变量是否符合理论分布
利用样本数据推断总体是否服从某种分布
可以检验的分布有正态分布、均匀分布、
Poission
分布和指数分布。
-
-
-
-
-
-
-
-
-
上一篇:APQP-和PPAP过程专业术语
下一篇:APQP-和PPAP过程专业术语资料