-
SPSS
统计与分析
统计要与大量的数据打交道,涉及繁杂的计算和图表绘制。现代的数据分析工
作如果离开统计软件几乎是无法正常开展。在准确理解和掌握了各种统计方法原理
< br>之后,再来掌握几种统计分析软件的实际操作,是十分必要的。
常见的统计软件有
SAS
,
SPSS
,
MINI
TAB
,
EXCEL
等。这些统计软
件的功能和作
用大同小异,各自有所侧重。其中的
SAS
和
SPSS
是目前在大型企业、各
类院校以
及科研机构中较为流行的两种统计软件。特别是
SP
SS
,其界面友好、功能强大、易
学、易用,包含了几乎全部尖
端的统计分析方法,具备完善的数据定义、操作管理
和开放的数据接口以及灵活而美观的
统计图表制作。
SPSS
在各类院校以及科研机构
中更为流行。
SPSS
(
Statistical
Product and Service Solutions,
意为统计产品与服务
解
决方案)。自
20
世纪
60
年代
SPSS
诞生以来,为适应各
种操作系统平台的要求
经历了多次版本更新,各种版本的
SPSS for Windows
大同小异,在本试验课程中
我们选择
PASW
Statistics
作为统计分析应用试验活动的工具。
1
.
SPSS
的运行模式
SPSS
主要有三种运行模式:
(
1
)
批处理模式
这种模式把已编写好的程序(语句程序)存为一个文件,提交给
[
开始
]
菜单上
[SPSS for Windows]→[Production Mode
Facility]程序运行。
(
2
)
完全窗口菜单运行模式
这种模式通过选择窗口菜单和对话框完成各种操作。用户无须学会编程,简单
易用。
(
3
)
程序运行模式
这种模式是在语句(
Syntax
)窗口中直接运行编写好
的程序或者在脚本
(
script
)窗
口中运行脚本程序的一种运行方式。这种模式要求掌握
SPSS
的语句
或脚本语言。本试验指导手册为初学者提供入门试验教程,采用“完全窗口菜
单运
行模式”。
2
.
SPSS
的启动
(
1
)
在
windows[
开始]→[程序]→[PASW],在它的次级菜单中单击“SPSS
for
Windows”即可启动
SPSS
软件,进入
SPSS for Windows
对话框,如图
,
图
所示。
图
SPSS
启动
图
PASW Statistics
启动对话框
3
.
SPSS
软件的退出
SPSS
软件的退出方法与其他
Windows
应用程序相同,有两种常用的退出方法:
?
按
File→Exist
的顺序使用菜单命令退出程序。
?
直接单击
SPSS
窗口右上角的“关闭”按钮,回答系统提出的是否存盘的问题之
后即可安全退出程序。
4
.
SPSS
的主要窗口介绍
SPSS
软件运行过程中会出现多个界面,各个界面用处不同。其中,
主要的界
面有三个:数据编辑窗口、结果输出窗口和语句窗口。
(
1
)
数据编辑窗口
启动
SPSS
后看到的第一个窗口便是数据编辑窗口,如图
所示。在数据编辑窗口
中可以进行数据的录入、编辑以及变量属性的定义和编
辑,是
SPSS
的基本界面。主要由以
下
几
部
分
构
成
:
标
题<
/p>
栏
、
菜
单
栏
、
工
具
栏
、
编
辑
栏
、
变
量
名
栏
、
观
测
标题栏
菜单栏
工具栏
编辑栏
观
测
序
号
变量名栏
序号、窗口切换标签、状态栏。
?
标题栏:显示数据编辑的数据文件名。
?
菜单栏:通过对这些菜单的选择,用户可以进行几乎所有的
SPSS
操作。关
于菜单的详细的操作步骤将在后续实验内容
中分别介绍。
为了方便用户操作,
SPSS
软件把
菜单项中常用的命令放到了工具栏里。当鼠
标停留在某个工具栏按钮上时,会自动跳出一
个文本框,提示当前按钮的功能。另
外,如果用户对系统预设的工具栏设置不满意,也可
以用
[
视图]→[工具栏]
→[设
定
]
命令对工具栏按钮进行定义。
?
编辑栏:可以输入数据,以使它显示在内容区指定的方格里。
?
变量名栏:列出了数据文件中所包含变量的变量名
3
状态栏
窗口切换标签
图
数
据浏览界面
?
观测序号:列出了数据文件中的所
有观测值。观测的个数通常与样本容量的
大小一致。
?
窗口切
换标签:用于“数据视图”和“变量视图”的切换。即数据浏览窗口
与变量浏览窗口。数
据浏览窗口用于样本数据的查看、录入和修改。变量浏览窗口
用于变量属性定义的输入和
修改。
?
状态栏:用于说明显示
SPSS
当前的运行状态。
SPSS
被打开时,将会显示
“PASW
Statistics Processor”的提示信息。
(
2
)
结果输出窗口
在
SPSS
中大多数统计分析结果
都将以表和图的形式在结果观察窗口中显示。
窗口右边部分显示统计分析结果,左边是导
航窗口,用来显示输出结果的目录,可
以通过单击目录来展开右边窗口中的统计分析结果
。当用户对数据进行某项统计分
析,结果输出窗口将被自动调出。当然,用户也可以通过
双击后缀名为
.spo
的
SPSS
输出结果文件来打开该窗口。
试验
1
数据文件管理
一、试验目的与
要求
通过本试验项目,使学生理解并掌握
SPSS
软件包有关数据文件创建和整理的
基本操作,学习如何将收集到的数据输入计
算机,建成一个正确的
SPSS
数据文
件,并掌握如何对原始数据文件进行整理,包括数据查询,数据修改、删除,数据
的
排序等等。
二、试验原理
SPSS
数据文件是一种结构性数据文件,由数据的结构和数
据的内容两部分构
成,也可以说由变量和观测两部分构成。一个典型的
SPSS
数据文件如表
所示。
表
变量
姓名
张三
李四
SPSS
数据文件结构
年龄
45
23
性别
1
2
…
…
…
数据内容
观测
…
…
…
…
<
/p>
…
…
…
…
王五
2
45
…
SPSS
变量的属性
SPSS
中的变量共有
10
p>
个属性,分别是变量名(
Name
)、变量
类型(
Type
)、
长度(
Width
)、小数点位置(
Decimals<
/p>
)、变量名标签(
Label
)、变量名
值标签
(
Value
)、缺失值(
p>
Missing
)、数据列的显示宽度(
C
olumns
)、对其方式
(
Alig
n
)和度量尺度(
Measure
)。
定义一个变量至少要定义它的两个属性,即变
量名和变量类型,其他属性可以暂时采用系
统默认值,待以后分析过程中如果有需
要再对其进行设置。在
spss
数据编辑窗口中单击“变量视窗”标签,进入变量视
窗界面(如图
所示)即可对变量的各个属性进行设置。
图
变量视窗
三、试验内容与步骤
1
.创建一个数据文件数据文件的创
建分成三个步骤:
(
1
)
选择菜单
【文件】→【新建】→【数
据】新建一个数据文件,进入数
据编辑窗口。窗口顶部标题为“PASW
Statistics 数据编辑器”。
(
2
)
p>
单击左下角【变量视窗】标签进入变量视图界面,根据试验的设计定
义每个变量类型。
(
3
)
p>
变量定义完成以后,单击【数据视窗】标签进入数据视窗界面,将每
个具体的变量值录入数据库单元格内。
2
.读取外部数据
当前版本的
SPSS
可以很容易地读取
Excel
数据,步骤如下:
(
1
)
p>
按【文件】→【打开】→【数据】的顺序使用菜单命令调出
打开数据
对话框,在文件类型下拉列表中选择数据文件
,
如图
所示。
图
Open File
对话框
(
2
)
选择要打开的
Excel
文件,单击“打开”按钮,调出打开
Excel
数
据源对话框,如图
所示。对话框中各选项的意义如下:工作表
下拉列表:选择
被读取数据所在的
Excel
工作表。
范围
输入框:用于限制被读取数据在
Excel
工作表中的位置。
图
Open Excel Data Source
对话框
3
.数据编辑
在
SPSS
中,对数据进行基本编辑操作的功能集中在
Edit
和
Data
菜单
中。
4
.
SPSS
数据的保存
SPSS
数据录入并编辑整理完成以后应及时保存,以防数据
丢失。保存数据文件可以通
过【文件】→【保存】或者【文件】→【另存为】菜单方式来
执行。在数据保存对话框(如
图
所示)中根据不同要求进行
SPSS
数据保存。
图
SPSS
数据的保存
5.
数据整理
在
SPSS
中,数据整理的功能主要集中在【数据】和【转换】两个主菜单下。
(
1
)
数
据排序(
Sort
Case
)
对数据按照某一个或多个变量的大小排序将有利于对数据的总体浏览,基本操作说明如
下:
?
选择
菜单
【数据】→【排列个案】,打
开对话框,如图
所示。
(
2
)
抽
样(
Select
Case
)
在统计分析中,有时不需要对所有的观测进行分析,而可能只对某些特定的对象有兴趣。利
用
SPSS
的
Select
Case
命令可以实现这种样本筛选的功能。以
SPSS
安装配套数据文件
Growth
为例,选择年龄大于
10
的观测,基本操作说明
图
排列个案
对话框
如下:
?
打开数据文件
Growth
,选择【数据】→【选择个案】命令,打开对话框,如图
图
选择个案对话框
?
指定抽样的方式:【全部个案】不
进行筛选;【如果条件满足】按指定条件进行筛
选。本例设置:产品数量
>150
,如图
所示;
图
选择个案
对话框
设置完成以后,点击
continue
,进入下一步。
?
确定未被选择的观测的处理方法,
这里选择默认选项【过滤掉未选定的个案】。
?
单击
ok
进行筛选,结果如图
图
选择个案的结果
(
3
p>
)增加个案的数据合并(【合并文件】
→
【
添加个案】)
将新数据文件中的观测合并到原数据文件中,在
SPSS
中实现数据文件纵向合并的方法
如下:
选择菜单【数据】→【合并文件】→【添加个案】,如图
p>
,选择需要追加的数据文
件,单击打开按钮,弹出
< br> Add Cases
对话框,如图
。
图
选择个体数据来源的文件
图
选择
变量(
4
)增加变量的数据合并
(【合
并文件】
→
【添加变量】)
增加变量时指把两个或多个数据文件实现横向对接。例如将不
同课程的成绩文件进行合
并,收集来的数据被放置在一个新的数据文件中。在
SPSS
中实现数据文件横向合并的方法
如下:
选择菜单【数据】→【合并文件】→【添加变量】
,
选择合并的数据文件,单击
“打开”,弹出添加变量,如图
所示。
图
?
单击
Ok
执行合并命令。这样,两个数据文件将按观测的顺序一对一地横向合并。
(
5
)
数据拆分(
Split
File
)
在进行统计分析时,经常要对文件中的观测进行分组,然后按组分别进行分析。
例如要求按性别不同分组。在
SPSS
中具体操作如下:
?
选择菜单【数据】→【分割文件】,打开对话框,如图
所示。
图
分割文件对话框
?
选择拆分数据后,输出结果的排列方式,该对话框提供了
3
种方式:对全部观测进
行分析,不进行拆分;在输出结果种将各
组的分析结果放在一起进行比较;按组排
列输出结果,即单独显示每一分组的分析结果。
?
选择分组变量
?
选择数据的排序方式
?
单击
ok
按钮,执行操作
(
6
)
计算新变量
在对数据文件中的数据进行统计分析的过程中,为了更有效地处理数据和反映事务的本
质,有时需要对数据文件中的变量加工产生新的变量。比如经常需要把几个变量加总或取加
权平均数,
SPSS
中通过【计算】菜单命令来产生这样的新变量,其步骤如下:
?
选择菜单【转换】→【计算变量】,打开对话框,如图
所示。
图
Compute Variable
对话框
?
在目标变量输入框中输入生成的新
变量的变量名。单击输入框下面类型与标签按钮,在跳
出的对话框中可以对新变量的类型
和标签进行设置。
?
在数字表达式输入框中输入新变量
的计算表达式。例如“年龄>20”。
?
单击【如果】按钮,弹出子对话框,如图
< br>所示。包含所有个体:对所有的观测进行计
算;如果个案满足条件则包括:仅对满
足条件的观测进行计算。
?
单击
Ok
按钮,执行命令,则可以在数据文件中看到一个新生成的变量。
图
如果…子对话框
四、备择试验
某航空公司
38
名职员性别和工资情况的调查数据,如表
所示,试在
SPSS
中进行如
下操作:
(
1
)
将数据输入到
SPSS
的数据编辑窗口中,将
gender
定义为字符型变量,将
salary
定义为数值型变量,并保存数据文件,命名为“试验
”。
(
2
)
插入一个变量
income
,定义为数值型变量。
(
3
)
将数据文件按性别分组
(
4
)
查找工资大于
40000
美元的职工
(
5
)
当工资大于
40000
美元时,职工的奖金是工资的
20
%;当工资小于
40000
美元
时,职工的奖金是工资的
10%
,假设实际收入=工资+奖金,计算所有职工的实际收
入,并添
加到
income
变量中。
表
某航空公司
38
名职员情况的调查数据表
Id
1
Gender
M
Salary
$$ 57000
Id
20
Gender
F
Salary
$$ 26250
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
M
F
F
M
M
M
F
F
F
F
M
M
F
M
M
M
M
M
$$ 40200
$$ 21450
$$ 21900
$$ 45000
$$ 32100
$$ 36000
$$ 21900
$$ 27900
$$ 24000
$$ 30300
$$ 28350
$$ 27750
$$ 35100
$$ 27300
$$ 40800
$$ 46000
$$103750
$$ 42300
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
F
M
F
F
F
M
M
M
M
M
M
M
M
M
M
F
M
M
$$ 38850
$$ 21750
$$ 24000
$$ 16950
$$ 21150
$$ 31050
$$ 60375
$$ 32550
$$ 135000
$$ 31200
$$ 36150
$$ 110625
$$ 42000
$$ 92000
$$ 81250
$$ 31350
$$ 29100
$$ 31350
试验
2
描述统计
一、试验目的与要求
统计分析的目的在于研究总体特征。但是,由于各种各样的原
因,我们能够得到
的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,
只有通过对样
本的研究,我们才能对总体的实际情况作出可能的推断。因此描述性统计分
析是统计
分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统计分
析可
以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行
初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观
察)。
本本试验
旨在于:引到学生利用正确的统计方法对数据进行适当的整理和显
示,描述并探索出数据
内在的数量规律性,掌握统计思想,培养学生学习统计学的
兴趣,为继续学习推断统计方
法及应用各种统计方法解决实际问题打下必要而坚实
的基础。
二、
试验原理
描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信
息的提取
和分析,通常用一些描述统计量来进行分析。
集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。
其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
p>
离散趋势的特征值:全距、内距、平均
差、方差、标准差、标准误、离散系数
等。其中标准差、方差适用于正态分布资料,标准
误实际上反映了样本均数的波动
程度。
分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态
分布的程度。
三、
试验内容与步骤
下面给出的一个例题是来自
SPSS
软件自带的数据文件“”,该文件包含某公司
员工的工资、工龄、职业等变量,我们将
利用此例题给出相关的描述统计说明,本例
中,我们将以员工的当前工资为例,计算该公
司员工当前工资的一些描述统计量,如
均值、频数、方差等描述统计量的计算。
1
.频数分析(<
/p>
Frequencies
)
1
基本统计分析往往从频数分析开始。通过频数
分析能够了解变量取值的状况,对把
握数据的分布特征是非常有用的。比如,在某项调查
中,想要知道被调查者的性
别分布状况。频数分析的第一个基本任务是编制频数分布表。
SPSS
中的频数分布
表包括的内容有:
(
1
)
(
2
)
(
3
)
p>
频数(
Frequency
)即变量值落在
某个区间中的次数。
百分比(
p>
Percent
)即各频数占总样本数的百分比。
< br>
有效百分比(
Valid
Percent
)即各频数占有效样本数的百分
比。这里有效样
本数=总样本-缺失样本数。
(
4
)
累计百分比(
Cumulative Percent
)即各百分比逐级累加起来的
结果。
终取值为百分之百。
频数分析的第二个基本任务是绘制统计图。统计图是一种
p>
为直接的数据刻画方
式,能够非常清晰直观地展示变量的取值状况。
频数分析中常用的统计图包括:条形
图,饼图,直方图等。
频数分析的应用步骤在
SPSS
中的频数分析
的实现步骤如下:
选择菜单“【文件】—
>
【打开】—
>
【数据】”在对话框中找到需要分析
的数据
文件“SPSS/Employee
data”,然后选择“打开”。
选择菜单“【分析】—
>
【描述统计】—
>
【频率】”。如图
所示
1
频数分
析多适用于离散变量,其功能是描述离散变量的分布特征。
询问是否输出频数分布表
图
Frequencies
对话框<
/p>
确定所要分析的变量,例如
年龄
在变
量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对
话
框,如下图
所示,选择统计输出选项。
图
统计量子对话框
图
Charts
子对话框
结果输出与分析点击
Frequencies
对话框中的“OK”按钮,
即得到下面的结果。
表<
/p>
描述性统计量
Statistics
Gender
N
Valid
Missing
474
0
表
中给出了总样本量(
N
),其中变量
Gender
的有效个数(
Valid
)为
474
个、缺失值
(
missing
)为
0
。
表
Gender
频数分布表
Valid
Female
Male
Frequency
216
258
474
Percent
Valid
Percent
Cumulative
Percent
Total
表
中,
Frequency
是频数,
Percent
是按总样本量为分母计算的百分比,
Valid
Percent
是以有效样本量为分母计算的百分比,
Cumulative
Percent
是累计
百分比。
图
变量
Gender
的条形图,图
变量
Gender
的饼图。
Gender
Fr
300
250
150
100
50
0
Female
Male
eq
200
ue
nc
Gender
图
变量
ge
nder
的条形图
Gender
Female
Male
图
变量
ge
nder
的饼图
< br>2
.描述统计(
Descriptives
)
2
SPSS
的【描述】命令专门用于计算各种描述统计性统计量
。本节利用某年国内
上市公司的财务数据来介绍描述统计量在
SPSS
中的计算方法。具体操作步骤如下:
选择菜单【分析】→【描述统计】→【描述】,如图
所示
图
描述
对话框
将待分析的变量移入
Variables
< br>列表框,例如将每股收益率、净资产收益
率、资产负债率等
2
个变量进行描述性统计,以观察上市公司股权集中度情况和
负债比率的高低。
Save
standardized values as variables
,对所选择的每
个变量进行标准化处
理,产生相应的
Z
分值,作为新变量保存在数据窗口中。其变量名为相应变量名前
加前缀
2
描述统计主要对定距型或定比型数据的分布特征作具体分析。
z
。标准化计算公式:
xi
?
x
Zi
=
s
单击【选项】按钮,如图
所示,选择需要计算的描述统计量。各描述统计量同
Frequencies
命令中的
Statistics
子对话框中大部分相同,这里不再重复。
图
选项
子对话框
在主对话框中单击
ok
执行操作。
结果输出与分析
在结果输出窗口中给出了所选变量的相应描述统计,如表
<
/p>
所示。从表中可以
看到,我国上市公司前两大股东持股比例之比平
均高达
,说明“一股独大”
的现
象比较严重;前五大股东持股比例之和平均为
%
,资产负债率平均为
%
。
p>
另外,从偏态和峰度指标看出,前两大股东持股比例之比的分布呈现比较明显的
右偏,而且比较尖峭。为了验证这一结论,可以利用
Frequencies
命令画出变量
z
的直方图,如图
表
描述统计量表
Descriptive Statistics
N
Mean
Std.
Skewness
Std.
前两大股东持股比例
之比
前五大股东持股比例
的平方和
资产负债率
Valid N (listwise)
315
.51836
.1496003
Statistic
Statistic
Statistic
Statistic
Error
Statistic
315
Kurtosis
Std.
Error
6
.137
.274
.274
.274
.137
.602
.16773
315
315
.4677
.137
Histogram
Fr
eq
ue
nc
150
p>
120
90
60
30
0
Mean =
E-16
Std. Dev. =
...
Zscore:
前两大股东持股比例之比
图
变量
Z
的直方图
3
.探索分析(
Explore
)
p>
调用此过程可对变量进行更为深入详
尽的描述性统计分析,故称之为探索分析。
它在一般描述性统计指标的基础上,增加有关
数据其他特征的文字与图形描述,显得
更加细致与全面,对数据分析更进一步。
探索分析一般通过数据文件在分组与不分
组的情况下获得常用统计量和图形。一
般以图形方式输出,直观帮助研究者确定奇异值、
影响点、还可以进行假设检验,以
及确定研究者要使用的某种统计方式是否合适。
在打开的数据文件上,选择如下命令:
选择菜单“【分析】—
>
【描述统计】—
>
【探索】”,打开对话框。
因变量列表;
待分析的变量名称,例
如将每股收益率作为研究变量。
因
子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数
据按照该观
察值进行分组分析。
标准个案:在源变量表中指定一个变量作为观察值的标识变量。
在输出栏中,选择两者都,表示输出图形及描述统计量。
选择【统计量】按钮,选择想要计算的描述统计量。如图所示
对所要计算的变量的频数分布及其统计量值作图
打开“Plots
对话框”,出现
如下图。
?
结果的输出与说明
(
1
)
Case Processing Summary
表
在
Case Processing
Summary
表中可以看出
female
有
216
个个体,
Male2
58
个个体,均无
缺失
值。
(
2
)
Descriptive
表
Descriptive
Gender
Mean
95% Confidence
Interval for
Mean
Upper Bound
5% Trimmed Mean
Lower Bound
$$25,
Statistic
Std. Error
$$26,
$$
Current Salary
Female
$$27,
$$25,
Median
Variance
.26
8
$$7,
$$15,750
$$58,125
$$42,375
$$7,013
$$41,
$$24,
.166
.330
$$1,
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Male
Mean
.152
95%
Confidence Lower Bound
Interval for
Mean
Bound
Upper
$$39,
$$43,
.302
5% Trimmed Mean
Median
Variance
$$39,
$$32,
03
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
$$19,
$$19,650
$$135,000
$$115,350
$$22,675
(
3
)
职位员工薪水直方图显示
Histogram
for
gender= Female
40
30
Fr
e
q
ue
nc
10
20
0
$$20,000
$$30,000
$$40,000
$$50,000
Mean =
$$26,
Std. Dev. =
$$7,
N = 216
$$60,000
Current
Salary
(
4
)
茎叶图描述
茎叶图自左向右可以分为
3
大部分:
频数(
Frequency
)、茎(
S
tem
)和叶(
Leaf
)。茎表
p>
示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组
成的数字相加再乘以茎宽
(
Stem
Width
),即茎叶所表示的实际数值的近似值。
Current Salary Stem-and-
Leaf Plot for
gender=
Female
Frequency Stem & Leaf
1
. 55
1 .
1 . 999999
2 . 011111
2 . 333
2 . 555555
2 . 777777
2 . 9
3 . 0001111
3 .
3 .
3 . 66777
3 . 88
Extremes (>=40800)
Stem width: 10000
Each
leaf: 1 case(s)
(
5
)
$$140,000
箱图
29
$$120,000
32
343
$$100,000
Cu
rr
en
t
Sa
$$80,000
103
454
106
34
431
18
446
$$60,000
$$40,000
348
371
468
240
168
80
413
242
277
134
$$20,000
$$0
Female
Male
Gender
图中灰色区域的方箱为箱图的主体,上中下
3
条线分别表示变量值的第
75
、
50
、
25
百分位
< br>
数,因此变量的
50%
观察值
落在这一区域中。
方箱中的中心粗线为中位数。箱图中的触
须线是
中间的纵向直线,上端截至线为变量的
大值,下端截至线为变量的
小值。
四、备择试验
完成下列试验内容,并按试验(
1
)所附试验报告的格式撰
写报告。
1.
表为某班级
16
位学生的身高数据,对其进行频数分析,并
对实验报告作出说明。
表
某班
16
位学生的身高数据
学号
1
2
3
4
5
6
7
8
性别
M
F
F
M
F
F
M
F
身高(
cm
)
170
173
169
155
174
178
156
171
学号
9
10
11
12
13
14
15
16
性别
M
M
F
M
F
M
F
F
身高(
cm
)
150
157
177
160
169
154
172
180
2.
测量
18
台电脑笔记重量,见表,对其进行描述统计量分析,
并对试验结果作出说
明。
表
18
台笔记本电脑重量表
序号
1
重量
2
3
4
5
6
7
8
9
序号
10
重量
11
12
13
14
15
16
17
18
试验<
/p>
3
:统计推断
一、试验目的与要
求
1.
熟悉点估计概念与操作方法
2.
熟悉区间估计的概念与操作方法
3.
熟练掌握
T
检验的
SPSS
操作
4.
学会利用
T
检验方法解决身边的实际问题
二、试验原
理
1.
参数估计的基本原理
2.
假设检验的基本原理
三、试验演示内容与步骤
1.
单个总体均值的区间估计
例题:为研究在黄金时段中
,
即每晚
8:30-9:00
内
,
电视广告所占时间的多少。
美国广告协会抽样调查
了
20
个
佳
电视时段中广告所占的时间(单位:分钟)。请
给出每晚
8:3
0
开始的半小时内广告所占时间区间估计,给定的置信度为
9
5
%。
操作程序:
?
打开
SPSS
,建立数据文件:“
电视节目市场调查.sav”。这里,研究变量
为:
time
,即每天看电视的时间。
?
选择区间估计选项,方法如下:
选择
菜单【分析】—
>
【描述统计】—
><
/p>
【探
索】” ,打开图
对话框。
?
从源变量清单中将“time”变量移入
Dependent
List
框中。
图
Explore
对话框
?
p>
单击上图右方的“统计量”按钮打开“探索:统计量”对话框。在设置均值的
置信水平,如键入
95
%,完成后单击“继续”按钮回
到主窗口。
图
探索
统计量设置窗口
?
返回主窗口点击
< br>ok
运行操作。
?
计算结果简单说明:
表
描述统计量
Descriptive
time
Mean
Statistic
Std. Error
.13480
95% Confidence
Interval for
Mean
Lower Bound
5% Trimmed Mean
Median
Upper
Bound
Variance
Std.
Deviation
Minimum
Maximum
Range
Interquartile
Range
.363
.60287
.95
Skewness
Kurtosis
.295
.512
.992
?
如上表显示。从上表“ 95%
Confidence Interval for Mean
”中可以得
出,每晚
8:30
开始的
半小时内广告所占时间区间估计(置信度为
95
%)
为:
,
,其中
lower Bound
表示置信区间的下限,
Upper
Bound
表示置信区间的上限。
点估计是:。
2
.两个总体均值之差的区间估计
例题:
The Wall
Street Journal
(
1994,7
)声称在制造业中,参加工会的妇
女比未参加工会的妇女的报酬要多
美元。想通过统计方法,对这个观点是否正确
给出检验。
假设抽取了
7
位女性工会会员与
8
位非工会会员女性报酬数据。要求对制造业中
参加工会会员的女性报酬与未参加工会的女
性报酬平均工资之差进行区间估计,预设
的置信度为
95
%。
?
打开
SP
SS
,按如下图示格式输入原始数据,建立数据文件:“工会会员工资
< br>差别.spss”。这里,“会员”表示是否为工会会员的变量,
y
表示是工会会员,
n
表示非工会会员,“报酬”表
示女性员工报酬变量,单位:千美元。
?
计算两总体均值之差的区间估计,采用“独立样本
T
检验”方法。选择菜单
“ 【分析】
→【比较均值】→独立样本
T
检验”,
打开对话框。
?
变量选择
(
1
)
p>
从源变量清单中将“报酬”变量移入检验变量框中。表示要求该变量
的均值的区间估计。
(
2
)
变量。
从源变量清单中将“group”变量移入分组变量框中。表示总体的分类
图
独立样本
T
检验
对话框
?
定义分组
单击定义组按钮,打开
Define Groups
对话框。在
Group1
中输入
1
,在
Group2
中输入
2
(
1
表示非工会会员
,2
表示工会会员)。完成后单击“
继
续”按钮回到主窗口。
图
define groups
设置窗口
?
计算结果
单击上图中“OK”按钮,输出结果如下图所示。
(
1
)
Group
Statistics
(分组统计量)表
分别给出不同总体下的样本容量、均值、标准差和平均标准误
。从该表中可以
看出,参加工会的妇女平均报酬为,不参加工
会的妇女平均报酬为。
表
分组统计量
Group Statistics
报酬
会员
N
Mean
8
7
Std. Deviation
Std. Error
Mean
.16448
.19743
.46522
.52236
(
2
)
Independent Sample Test
(独立样本
T
检验)表
Levene’s
Test
for
Equality
of <
/p>
Variance
,
为
< br>方
差
检
验
,
在
Equal
variances assumed
(原假设:方差相等)
下,
F=
,
因为其
P-
值大于显著性水
平,即:<
/p>
Sig.=>
,说明不能拒绝方差相等的原假设,接受两个总体方
差是相等的假
设
。因此参加工会
p>
会员的女性报酬与未参加工会的女性报酬平均工资之差
95
%的区间估计为
[,]
。
T-test for Equality of Means
为检验总体均值是否相等的
t
检验,由于在本
例
< br>中,其
P-
值大于显著性水平,即:
Sig.=>
,
因此不应该拒绝
原假设,也就是说参
加工会的妇女跟未参加工会的妇女的报酬没有显著差异。本次抽样推
断结论不支持
The Wall Street
Journal
(
1994,7
)提
出的“参加工会的妇女比未参加工会的妇
女的报酬要多
美元”观点,即参加工会的妇女不比未参加工会的妇女的报酬多。
表
独立样
本
T
检验结果
Independent
Samples Test
Levene's
Test for
t-test for Equality of
Equality
of
Variances
95%
Sig. (2-
tailed)
Mean
Confidence
Std. Error
Interval
of
the
13
.408
Difference
Lower
Upper
Means
F
Sig.
t
df
Difference
Difference
报酬
Equal
variances
assumed
Equal
variances
not assumed
.623
.444
.25485
.33271
.413
.25697
.34108
3
.单个总体均值的假设检验
(单样本
T
检验)
例子:某种品牌的沐浴肥皂制造程序的设计规格中要求每批平
均生产
120
块肥
皂,高于或低于该
数量均被认为是不合理的,在由
10
批产品所组成的一个样本
中,
每批肥皂的产量数据见下表,在
的显著水平下,检验该样本结果能否说明制造过程
运行良好
?
判断检验类型
该例属于“大样本、总
体标准差
σ
未知。假设形式为:
H
0
:
p>
μ
=
μ
0
H
1
:
μ≠μ
0
,
?
软件实现程序
打开已知数据文件,然后选择菜单“【分析】→【比较均值】
→单样本
T
检验”,打开
One-Sample T Test
对话框。从源变量清单中将“产品数
量” 向右移入“Test
Variables”框中。
图
one-sample T
test
窗口
在“Test Value” 框里输入一个指定值(即假设检验值,本例中假设为
p>
120
),
T
检
验过程将对每个检验变量分别检验它们的平均值与这个指定数值相等的假设。
?
“One
-
Sample T
Test”窗口中“OK”按钮,输出结果如下表所示。
(
1
)
“One
-
Sample
Statistics”(单个样本的统计量)表
分别给出样
本的
容量、均值、标准差和平均标准误。本例中,产品数量均值为。
表
单样本统计量
One-Sample Statistics
Std.
Std.
产品数量
N
10
Mean
Deviation
Error
Mean
(
2
)
“One
-
Sample
Test”(单个样本的检验)表
表中的
t
表示所计算的
T
检验统计量的数值,本例中为-。
表
中的“df”,表示自由度,本例中为
9
。
表中
的“Sig”
(双尾
T
检验),
表示统计量的
P-
值,
并与双尾
T
检验的显著性的大小进行比
较:
Sig.=>
,说明这批样本的平均产量与
p>
120
无显著差异。
表中的“Mean
Difference”,
表示均值差,即样本均值与检验值
120
之差,
本例中为-。表
中的“95%
Confidence Internal of the
Difference”,
样本均值与检验值偏
差的
95%
置信区间为(-,),置信区间包括数值
0
,说明样本数量与
120
无显著
差异,符合要求。
表
单样本
T
检验结果
One-Sample Test
Test Value =
120
95%
Confidence
Interval of the
Difference
Sig. (2-
产品数量
t
df
9
tailed)
.498
Mean
Difference
Lower
Upper
4
.两独
立样本的假设检验(两独立样本
T
检验)
例题:
The Wall
Street Journal
(
1994,7
)声称在制造业中,参加工会的妇
女比未参加工会的妇女的报酬要多
美元。想通过统计方法,对这个观点是否正确
给出检验。
假设抽取了
7
位女性工会会员与
8
位非工会会员女性报酬数据。要求对制造业中
参加工会会员的女性报酬与未参加工会的女
性报酬平均工资之差进行区间估计,预设
的置信度为
95
%。
?
打开
SP
SS
,按如下图示格式输入原始数据,建立数据文件:“工会会员工资
< br>差别.sav”。这里,“会员”表示是否为工会会员的变量,
y
表示是工会会员,
n
表示非工会会员,“报酬”表示
女性员工报酬变量,单位:千美元。
?
计算两总体均值之差的区间估计,采用“独立样本
T
检验”方法。选择菜单
“ 【分析】
→【比较均值】→【独立样本
T
检验】”。
(
1
)
p>
从源变量清单中将“报酬”变量移入检验变量框中。表示要求该
变量
的均值的检验。
(
2
)
分类变量。
从源变量清单中将“会员”变量移入分组变量框中。表示总体的
图
sample T test
窗口
?
定义分组
单击
Grouping Variable
框下面的
Define Groups
按钮,打开
Define Groups
对话框。在
Group1
中输入
p>
1
,在
Group2
中输入
2
(
1
表示非工会会
员
,2
表示工会会员)。完成后单击“继续”按钮返回主窗口。
图
define groups
对话框
?
计算结果
单击上图中“OK”按钮,输出结果如下图所示。
(
1
)
Group
Statistics
(分组统计量)表
分别给出不同总体下的样本容量、均值、标准差和平均标准误
。从该表中可以
看出,参加工会的妇女平均报酬为,不参加工
会的妇女平均报酬为。
表
分组统计量
Group Statistics
报酬
会员
N
Mean
8
7
Std. Deviation
Std. Error
Mean
.16448
.19743
.46522
.52236
(
2
)
Independent Sample Test
(独立样本
T
检验)表
Levene’s
Test
for
Equality
of <
/p>
Variance
,
为
< br>方
差
检
验
,
在
Equal
variances assumed
(原假设:方差相等)
下,
F=
,
因为其
P-
值大于显著性水平,
即:<
/p>
Sig.=>
,说明不能拒绝方差相等的原假设,接受两个总体方
差是相等的假设。
T-test
for Equality of Means
为检验总体均值是否相等的
t
检验,
由于在
本例中,其
P-
值大于显著性水
平,即:
Sig.=>
,
因此不应该拒绝原假设,也就是
说参加工会的妇女跟未参加工会的妇女的报
酬没有显著差异。本次抽样推断结论不
支持
The Wall
Street Journal
(
1994,7
)提出的“参加工会的妇女比未参加工会
的妇女的报酬要多
< br>
美元”观点,即参加工会的妇女不比未参加工会的妇女的报酬
< br>多。
表
独立样本
T
检验结果
Independent Samples Test
Levene's
Test for
t-test for Equality of
Equality
of
Variances
95%
Sig. (2-
tailed)
Mean
Confidence
Std. Error
Interval
of
the
13
.408
Difference
Lower
Upper
Means
F
Sig.
t
df
Difference
Difference
报酬
Equal
variances
assumed
Equal
variances
not assumed
.623
.444
.25485
.33271
.413
.25697
.34108
5.
配对
样本
T
检验
配对样本是对应独立样本而言的,配对样本是指一个样本在不同时间做了两次试
验,或者具有两个类似的记录,从而比较其差异;独立样本检验是指不同样本平均数
的比较,而配对样本检验往往是对相同样本二次平均数的检验。配对样本
T<
/p>
检验的前
提条件为:第一,两样本必须是配对的。即两样本的观察
值数目相同,两样本的观察
值顺序不随意更改。第二,样本来自的两个总体必须服从正态
分布。例如针对试验前
学习成绩何智商相同的两组学生,分别进行不同教学方法的训练,
进行一段时间试验
教学后,比较参与试验的两组学生的学习成绩是否存在显著性差异。<
/p>
假设某校为了检验进行新式培训前后
学生的学习成绩是否有了显著提高,从全校
学生中随机抽出
30
名进行测试,这些学生培训前后的考试成绩放置于数据文件“学
生培训.sav”中。在
SPSS
中对这
30
名学生的成绩进行配对样本
t
检
验的操作步骤如
下:
?
选择菜单【分析】→【比较均值】
→【配对样本
T
检验】,打开对话框,如
图所示,将两个配对变量移入右边的
Pair Variables
< br>列表框中。移动的方法是先
选择其中的一个配对变量,再选择第二个配对变量,接
着单击中间的箭头按钮。
图
Paired-Samples T
Test
对话框
?
选项按钮的用于设置置信度选项,
这里保持系统默认的
95
%
?
在主对
话框中单击
ok
按钮,执行操作。
?
实例结果分析
表和表给出了培训前后学生考试成绩的均值、标准差、均值标准误差以及培训前
后成
绩的相关系数。从表来看,培训前后平均成绩并没有发生显著的提高。
表给出了配对样本
t
检验结果,包括配对变量差值的均值、标准差、均值标准
误差以及差值的
95%
置信度下的区间估计。当然也给出了
为重要的
t
统计量和
< br>p
值。结果显示
p
=
>
,所以,学校的所谓新式培训并未带来学生成绩的显著变化。
表
培训前后成绩的描述统计量
Paired Samples Statistics
Pair 1
培训前
Mean
N
Std.
Deviation
30
30
Std. Error
Mean
培训后
表
培训前后成绩的相关系数
Paired Samples Correlations
Pair 1
表
配对样
本
T
检验结果
Paired Samples Test
培训前
&
培训后
N
30
Correlation
.865
Sig.
.000
Paired Differences
t
df
Sig. (2-
tailed)
Std.
Mean
Deviation
Mean
95% Confidence
Std. Error
Interval of the
Difference
Lower
Upper
29
.246
Pair 1
培训前-培训后
四、备择试验
1
.某省大学生四级英语测验平均成绩为
65
,现从某高校随机抽取
20
份试卷,其分
数为:
72
、
76
、
68
、
78
、
62
、
59
、
64
、
85
、
70
、
75
、
61
、
74
、
87
、
83
、
54
、
76
、
56
、
66
、
68
、
62
,问该校英语水平与全区是否基本一致设
α=
2
p>
.分析某班级学生的高
考数学成绩是否存在性别上的差异。数据如表
所示:
某班级学生的高考数学成绩
性别
数学成绩
男(
n
=
18
)
85 89 75 58 86 80 78
76 84 89 99 95 82 87 60 85
75 80
女(
n
=
12
)
< br> 92 96 86 83 78 87 70 65 70 65 70 78 72 56
3
.
SPSS
自带的数据文件
中,保存了
1995
年世界上
109
个国家和地区的部
分
指标的数据,其中变量“lifeexpf”,“lifeexpm”分别为各国或地
区女性和男性
人口的平均寿命。假设将这两个指标数据作为样本,试用配对样本
T
检验,女性
人口的平均寿命是否确实比男
性人口的平均寿命长,并给出差异的置信区间。(设
α=
)
<
/p>
试验
4
:方差分析
一、试验目标与要
求
1
.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思
想和
原理
2
.掌握方差分析的过程。
3
.增强学生的实践能力,使学生能
够利用
SPSS
统计软件,熟练进行单因素方
< br>差分析、两因素方差分析等操作,激发学生的学习兴趣,增强自我学习和研究的能
力。
二、试验原理
在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很
多。
例如,农作物的产量受作物的品种、施肥的多少及种类等的影响;某种商品的
销量受商品
价格、质量、广告等的影响。为此引入方差分析的方法。
<
/p>
方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种
控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差
加以比较,据以推断各组样本之间是否存在显著差异。若存在显著差异,则说明该
因
素对各总体的影响是显著的。
方差
分析有
3
个基本的概念:观测变量、因素和水平。观测变量是进
行方差分
析所研究的对象;因素是影响观测变量变化的客观或人为条件;因素的不同类别
或
不通取值则称为因素的不同水平。在上面的例子中,农作物的产量和商品的销量就
p>
是观测变量,作物的品种、施肥种类、商品价格、广告等就是因素。在方差分析
中,因素常常是某一个或多个离散型的分类变量。
根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析;
根据因素个数,可分为单因素方差分析和多因素方差分析。在
SPSS
p>
中,有
One
-
w
ay ANOVA(
单变量-单因素方差分析
)
、
GLM Univariate
(单变量多因素方差
分
析);
GLM Multivariate
(多变量多因素方差分析),不同的方差分析方法适用
于不同的实际情况。本
节仅练习
为常用的单因素单变量方差分析。
三、试验演示内容与步骤
单因素方差分析也称一维方差分析,对两组以上的均值加以比较。检验由单一
< br>因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。并
可以进行两两组间均值的比较,称作组间均值的多重比较。主要采用
One-way
ANOVA
过程。
采用
One-way ANOVA<
/p>
过程要求:因变量属于正态分布总体,若因变量的分布明显是非
正
态,应该用非参数分析过程。若对被观测对象的试验不是随机分组的,而是进行的
重复测
量形成几个彼此不独立的变量,应该用
Repeated Measure
菜单项,进行重复测
量方差分析,条件满足时,还可以进行趋势分析。
假设某汽车经销商为了研究东部、西部和
中部地区市场上汽车的销量是否存在
显著差异,在每个地区随机抽取几个城市进行调查统
计,调查数据放置于数据文件
“汽车销量调查.sav”中。
在
SPSS
中试验该检验的步骤如下:
?
步骤<
/p>
1
:选择菜单【分析】→【比较均值】→【单因素方差分析】,依
次将
观测变量销量移入因变量列表框,将因素变量地区移入因子列表框。
-
-
-
-
-
-
-
-
-
上一篇:视听说教程答案
下一篇:新视野大学英语(第三版)视听说3--答案WORD