-
统
计
应
用
上
常
见
的
谬
误
谢邦昌
辅仁大学统计系教授兼主任
叶瑞铃
辅仁大学应用统计研究所研究生
壹、绪论
让统计结果更接近事实
一、研究动机
「统计」是一门新兴的科学,可号称是人类在二十世纪的
十个伟大发觉之
一。自二十世纪初,从
Neyman
、
Pearson
< p>及
Fisher
等人发表一连串开拓性论文之后,「统计」便不断地 蓬
勃进展,一直到今天,不论在自然科学或是社会科学的各个领
域中,都找得到它的踪迹。事实上,它已成为我们生活中的一
部份。
随着现代科学的不断进展,「统计学」不仅早已从「数< /p>
学」中独立出来,而也已成为在社会科学研究上的一种专门的
学科
。今日在科学研究中,「统计分析」的应用早已有其不可
或缺的重要地位,不仅于此,在
一般人的生活周遭上的应用
上,甚至在个人理财活动中都少不了统计分析的应用。因此,
将统计学当成一种解决问题、寻求
真相的「工具」,咸信将使
「统计」对人们的生活产生更大的阻碍及关心。
「统计」的应用范围极广,其方式要紧在搜集、整 理、陈
示、分析及解释资料。并可在较少的成本花费下将吾人有兴趣
的事物之全体(注
1
)抽出一部份来观看与研究(注
2
),然后
依照所得到的信息用科学的数量方法来推测所欲了解的事实。
因此依照以上所述,统计学又分为叙述统计与推论统计两大部
份。现在各
方面的研究工作者无一不将统计学视为最有关心的
工具之一,除了在一般的学术研究之外
,尤其在工商业的各项
业务,如财务、工管、销售等,都需要应用统计资料及统计方
p>
法来作分析及推论,方能使各项工作顺利完成(注
3
)。 p>
近年来,统计确实已受到学界及工商业界 的普遍应用;不
管是学术研究论文、期刊,或者是政府出版品,乃至于民间企
业刊物、杂志等,都可看到统计应用的大幅成长与统计专业程
度的要求明显
提高。但阅读与参考这些文献、资料的读者往往
只专注于统计数字的大小,而忽略了数字
背后的涵义,殊不知
许多数字可能因为统计分析方法的误用而导致结果推论的错
误。因此,探讨一般常见的统计分析应用上的误用情形,为本
研究的第一
个动机。
研究统计的人都一直深信着 统计数字中永久隐藏着某些事
实的真相,等待人类的智慧去查找。多年前有位学者讲:<
/p>
「
Statistics
may
not
tell
the
true,
but
it
never
lies.
」(注< /p>
4
)。这句话反应出统计数字也许不能告诉我们真
相,然而
它绝对可不能撒谎,只有人们才会这么做。因此,如
何使统计数字讲出真话,并找出统计误用的缘故及补救的方
法,为本研
究的第二个动机。
二、研究目的
统计理论接着不断的进展,其所论述 的范围及应用的层面
愈来愈广,统计除了可叙述数据、推论数据外,更重要的是其
「预测性」的功能。因此,如何善用统计分析工具以关心完成
决策与验
证实验假设,实已成为企业经营治理与科学研究之重
要课题。以周密的设计,搜集完整的
有关资料,通过适当的统
计分析所得的结果作为依据,才能使所冒的风险与失策的可能<
/p>
愈小,而迅速得到预期的目的(注
5
)。
< br>
综合以上所述与研究动机,遂引发本研究之目的:
(
1
)探讨统计分析应用上常见的错误情形。
2
)了解统计分析误用的缘故及探讨其补救的方法。
三、研究范围
统计的应用与分析方法的范围甚广,本研究仅就下列二部
份进行探讨:<
/p>
(
1
)
学
术
研
究
部
份
:
针
对
各
类
学
术
论
文
之
「 p>
研
究
设
计」、「资料分析」、「论文撰写」部
份加以讨论。
(
2< /p>
)日常生活应用部份:如「民意调查」、「收视率调
查」等等生活上常见的
统计应用方面加以讨论。
本研究先针对上述二个范畴中常犯的错误情形加以讨论,
其次以实际的情
形举例讲明,并讨论其改进与补救方法。
写作之权益,另一方面保障
并尊重其隐私权。
注释
1.
在统计的术语中称之为母体。
2.
在统计的术语中称为母体的任何部份集合为样本。
<
/p>
3.
蔡宗儒(淡江大学统计系讲师),「统计与生活」,社
教资料杂志,第二0二期,
p4
。
p>
4.
郑天泽(政治大学统计研究所副教授),「统计之应用
< br>
」,社教资料杂志,第二0二期,
p3
。
5.
颜月珠(台湾大学财务金融学系教授),「商用统计
学」,三民书局八版,民国
82
年
8
月。
贰、统计应用常犯的谬误
在本部份,将分不针对实务应用上在统计分析时常见之错
误情形,经归纳与整理后分述于后。
一、抽样方法的不适当
样本是否能代表母体
?
1.
「抽样方法」概论
差不多上,抽样理论包含三个要紧的部份-抽样、可能、
推论。「抽样」在于给予从母体抽取样本的规则;「可能」在
于利用样
本统计给予母体值的点可能;「推论」在于给予母体
值的区间可能。在本部分仅针对「抽
样」部份进行探讨。
抽样方法在统计 中的重要性可由图
2
-
1
中清晰的看出。
抽
樣
母 體
推 估
樣
本
图
2
-
1
抽样对统计之重要性图示
为了解母体的性状,经由抽样调查,并以其结果推测母
体,此为统计推论的必要过程(注
1
)。抽样方法选择的适当 p>
与否,不仅阻碍着如何可能,而其精确(
precision
)度及误
差(
error
),皆关系着整个样本是否可有 效的推估母体。
此外,在实务应用上,抽样方法也涉及两个重要的因素:
即「效率」与「成本」。提高效率与降低成本为每个从事研究
或调查者
所追求的目标。
抽样方法可分为:机 率抽样与非机率抽样两种。在此我们
可简单的将两者加以区不:「机率抽样」可推估母体
;「非机
率抽样」因其较主观而产生偏歪样本,故只能找出母体的某些
< br>特性,而未必能推估母体。故一般较严谨的调查或研究其抽样
皆往常者方式为之。
而常见的机率抽样又可分成:单纯随机抽
样(
simple random sampling
)、分层随机抽样(
stratified
random
sampling
)、部落抽样(
cluster sampling
< p>)、系统
抽
样
(
system p>
sampling
)
、
多
时
< p>期抽
样
(
multi-stage
sampling
)
。
非
机
率
抽
样
则
以
任
< p>意抽
样
(
convenience
sampling
)、推断抽样(
judgement sampling
)、配额抽样
(
quote sampling
)为代表。
选择抽样方法时之差不多考虑为:样本结构是否和母体结
构有一致性。因此这也
是为何在完成抽样后必须作适合度检定
的理由,基于此项大原则我们才可选择适合母体结
构的抽样方
法。在此对各抽样方法及其专门步骤不作多述,仅将其优、缺
点及适用时机列于表
2
-
1
。
< p>
表
2
-
1
各种抽样方法之比较
抽样方法
优点
缺点
适用时机
简单随机抽
1.
母体名册完整时,直
1.
通常推算结果之精确
1.
母体较小且明白抽样单
样法
p>
接由母体中随机抽出样
度,较分层集体、分段
位的数量。
本,方法简单。
抽样法为低。
2.
有较完整的母体名册。
2.
由于抽出机率均等,
2.
由于抽出样本较为分
3.
单
位
访
问
成
本
< p>较为
固
较易可能母体总值
及抽
散,所需调查人力费用
定。
样误差。
较高。
4.
母体名册是有关母体信
3.
无
法
可
能
子< /p>
母
体
特
息的唯一来源。
征。
1.
层间差异愈大,层内
分层 后之样本数据,其
1.
当样本的分层达到各层
分层抽样法
差异愈小。
整理推算工作,通常较
的抽样单位的特性尽量接
2.
适当分层抽样推论之
简单抽样为繁。
近,而层与层之间的差异
误差,恒较简单抽样为
尽可能地扩大时使用。
低。
2.
当母体中的专门单位较
3
.
可
得
到
各
层
之< /p>
可
能
多或分布不均匀时,为幸
值。
免抽样误差亦使用之。
1.
当部落间差异愈小,
1.
以部落为抽样单位,
1.
当母体成若干部落,且
部落抽样法
部落内差异愈大,则抽
各项整理统计费用将会
部落与部落间个体同质,
出
样
本
统 p>
计
精
确
度
愈
增加,故一 般多采成对
而同一部落内个体异质时
高。
抽取,便于可能误差。
使用。
2.
部
落
内
样
本
较
为< /p>
集
2.
通常在各部落内分子
2.
当无 法取得母体集团名
中,访查员行动半径不
无甚 差异时,将增加部
册或划样样本对象为前提
大
,可节约调查人力及
落间差异,调查结果误
时使用。
费用。
差必大。
3.
各部落内含个体多寡
不
同
时
,
亦
使
误
差
加
大。
1.
随机起号仅需抽出一
1.
当母体名册和个体单
1.
母体有现成次序的场合
< br>系统抽样法
个,以后累加即可。
位数不完整时,无法采
时使用。
2.
当个体序列成随机出
纳。
2.
使用此法时于划分间隔
现时,其推估精确度和
2.
遇有个体成某种周期
抽取的母体,其所有个体
简单抽
样相同。
序列,又恰与抽样间隔
的
排
< p>列次
序
必
须
是
随
机
相近时,则抽样误差较
的。
大。
抽样方法
优点
缺点
适用时机
多时期抽样
1.
多时期抽样法为群集
分段抽样之误差可能加
当
母
体
集
团
分
布
< p>广而
散
法
与
分
层
抽
样
之
折< /p>
衷
方
大,且整理分析较其它
时,如以一段式抽样,势
法,兼取两者之优点。
抽样复杂。
必耗时、耗费,现在则以
2
.
配合行政区域抽样,
多段式抽样弥补其缺失。
抽取手续与调查治理均
较便利。
依照调查者自身的方便
调
查< /p>
结
果
容
易
产
生
偏
由调查者主观决定。
任意抽样法
程度,不依据特定的抽
误,如盲人摸象。
样原则,具有经济、方
便之优点。
可由人为意志自由选择
调查 结果无法推估母体
由调查者主观决定。
推断抽样法
调查对象,不受抽样设
平均数及抽样误差,如
计条件之各种限制,容
选择不当,其误差可能
易进行调查。
甚大。
适用于母体集团无法取<
/p>
合乎条件之样本难得,
由调查者主观决定。
配额抽样法
得,且抽样手续简便,
样
之
误
差
也
未
能
可
为营销研究者所乐于使
能。
用。
最后要提到的是,选择一个适合的抽 样方法当然重要,但
抽样过程的处理不当亦可造成人为的疏失,而导致结果的错误
增加,亦是值得注意的问题。
2.
常犯的错误情形