-
常用的抽样方法总结
1
.
非概率抽样(
Non-
probability sampling
)
令总体中每个个体的被抽取不是依据其本身的机会,
又称非随机抽样,指根据一定主观标准抽取样本,
而是完全决定于调研者的意愿。
其特
点为不具有从样本推断总体的功能,但能反映某类群体的特征,是一种快速、简易且节省的数据
< br>
收集方法。当研究者对总体具有较好的了解时可以采用此方法,或是总体过于庞
大、复杂,采用概率方法
有困难时,可以采用非概率抽样来避
免概率抽样中容易抽到实际无法实施或
总体的代表度。
常用的非概率抽样方法有以下四类:
方便抽样(
Convenience sampling
)
指根据调查者的方便选取的样本,
以无目标、随意的方式进行。例如:街头拦截访问(看到谁就访问
谁);个别入户项目谁开门就访问谁。
优点:
适用于总体中每个个体都是
同质”的
,最方便、最省钱;可以在探索性研究中使用,另外还可用于小
差”的样本,从而避免影响对
组座谈会、预测问卷等方面的样本选取工作。
缺点:
抽样偏差较大,不适用于要做
总体推断的任何民意项目,对描述性或因果性研究最好不要采用方便抽
样。
判断抽样(
Judgment sampling
)
指由专家判断而有目的地抽取他认为
有代表性的样本”例如:社会学家研究某国家的一般家庭情况
如选三口之家(子
时,常以专家判断方法挑选
中型城镇”进行;也有家庭研究专家选取某类家庭进行研究,
女正在上学的);在探索性研究中,如抽取深度访问的样本时,可以使用这种方法。
p>
优点:
适用于总体的构成单位极不相同而样本数很小,
同时设计调查者对总体的有关特征具有相当的了解
(明
白研究的具体指向)的情况下,适合特殊类
型的研究(如产品口味测试等);操作成本低,方便快捷,在
商业性调研
中较多用。
缺点:
该类抽样结果受研究人员的倾
向性影响大,一旦主观判断偏差,则根易引起抽样偏差;不能直接对研
究总体进
行推断。
配额抽样(
Quota sampling
)
指先将总体元素按某些控制的指标
或特性分类,然后按方便抽样或判断抽样选取样本元素。
相当
于包括两个阶段的加限制的判断抽样。在第一阶段需要确定总体中的特性分布(控制特征),通
< br>
常,样本
中具备这些控制特征的元素的比例与总体中有
这些特征的元素的比例是相同的,通过第一步的配
额,保证了
在这些特
征上样本的组成与总体的组成是一致的。在第二阶段,按照配额来控制样本的抽
取工
作,要求所选岀的元素要适合所
控制的特性。例如:定点街访中的配额抽样。
优点:
适用于设计调查者对总体的有
关特征具有一定的了解而样本数较多的情况下,实际上,配额抽样属于
先分层”
(事先确定每层的样本量)再
判断”(在每层中以判断抽样的方法选取抽样个体);费用不高,
易于实施,能满足
总体比例的要求。
缺点:
容易掩盖不可忽略的偏差。
滚雪球抽样(
Snowball sampling
)
指先随机选择一些被访者并对其实
施访问,再请他们提供另外一些属于所研究目标总体的调查对象,
根据所形
成的线索选择此后的调查对象。
第一
批被访者是采用概率抽样得来的,之后的被访者都属于非概率抽样,此类被访者彼此之间较为相
< br>
似。例如:如在目前中国的小轿车车主等。
优点:
可以根据某些样本特征对样本
进行控制,适用寻找一些在总体中十分稀少的人物。
缺点:
有选择偏差,不能保证代表性。
2
.
概率抽样
(
Probability sampling
)
又称随机抽样,指在总体中排除人的主观因素,给予每一个体一定的抽取机会的抽样。
其特点为,抽取样本具有一定的代表性,可以从调查结果推断总体;操作比
较复杂,需要更多的时间,
而且往
往需要更多的费用。
常用的有以下六种类型:
简单抽样
(
Simple
sampling
)
例如:按照抽签法”
即简单随机抽样
,指保证大小为
n
的每个可能的样本都有相同的被抽中的概率。
随机表
法抽
取访问对象,从单位人名目录中抽取对象。
优点:
随机度高,在特质较均一的总
体中,具有很高的总体代表度;是最简单的抽样技术,有标准而且简单
的统计公
式。
缺点:
未使用可能有用的抽样框辅助
信息抽取样本,可能导致统计效率低;有可能抽到一个
抽岀的样本分布不好,不能很好地代表总体。
系统扌由样
(
Systematic
random sampling
)
差”的样本,使
将总体中的各单元先
按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距
离抽样,
即根据总体单位数和样本单位计算岀抽样距离
(
即相同的间隔
)
,然后按相
同的距离或间隔抽选
样本单位。例如:从
1000
个电话号码中抽取
10
个
访问号码,间距为
100
,确定起点
(
起点
V
间距
)
后
每
100
号码抽一访问号码。
优点:
兼具操作的简便性和统计推断
功能,是目前最为广泛运用的一种抽样方法。
如果起点是随机确定的,
总体中单元排列是随机的,
等距抽样的效果近似简单抽样;与简单抽样相比,
在一定条件下,样本的分布较好。
缺点:
抽样间隔可能遇到总体中某种未知的周期性,导致
取样本,可能导致统计效率低。
分层抽样
(
Stratified
random sampling
)
差”的样本;未使用可能有用的抽样框辅助信息抽
是把调查总体分为同质的、互不交叉的层
(
或类型
)
,然后在各层
(
或类型
)
中独立抽取样本。例如:
调查零售店
时,按照其规模大小或库存额大小分层,然后在每层
中按简单随机方法抽取大型零售店若干、
中型若干、小型若干
;
调查城市时,按城市总人口或工业生产额分岀超大型城市、中型城市、小型城市等,<
/p>
再抽岀具体的各类型城市若干。
优点:
适用于层间有较大的异质性,
而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本
量相同的
情况下,其精度高于简单抽样和系统抽样;能保证
不同层可以依据情况采用不同的抽样框和抽样方法。
缺点
:
要求有高质量的、能用于分层
的辅助信息;由于需要辅助信息,抽样框的创建需要更多的费用,更为
复杂;抽
样误差估计比简单抽样和系统抽样更复杂。
整群抽样(
Cluster sampling
层”的代表性,避免抽到
差”的样本;同时,
)
是先将
调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调查。例如:入户调查,按地
块或居委
会抽样,以地块或居委会等有地域边界的群体为
第一抽样单位,在选岀的地块或居委会实施逐户
抽样;市场调
查中,
最后一级抽样时,从居委会中抽取若干户,然后调查抽中户家中所有
人。
优点:
适用于群间差异小、群内各个
体差异大、可以依据外观的或地域的差异来划分的群体。
缺点:
群内单位有趋同性,其精度比简单抽样为低。
多级抽样(
Multistage sampling
)
18
岁以上成年
也叫多阶段抽样或阶段抽样,以二级抽样为例,二级抽样就是先将总分组,然后在第一级和第二中分
别随机地
抽取部分一级单位和部分二级单位。
例如:以全国性调查为例,当抽样单元为各级行政单位时,
按
社会发展水平分层
后(或按经济发展水平,或按地理位置分层),从每层中先抽几个地区
,再从抽中的
地区抽市、县、村,最后再抽至
户或个人。
优点:
具体整体抽样的简单易行的优点,同时,在样本量相同的情况下又整群抽样的精度高。
缺点:
计算复杂。
抽中概率与规模成比例抽
样(
PPS
)
是不等概率中最常用的一种方法,指在总体中参照各单位的规模进行抽样,
规模大的被抽取的机会大,
PPS
抽样方
总体中每个个体被抽中的概率与该个体的规模成正比的抽样。例如:在进行企业调查时,根据
< br>
法抽取企业,令规模大的企业被抽取机会大。
优点:
使用了辅助信息,可以提高抽样方案的统计效率。
缺点:
如果研究指标与规模无直接关系时,不合适采取这种方法。
<
/p>
此外,在抽样方法划分上,还有多阶段抽样和两相抽样等,有兴趣的读者可参阅其他相关书
籍。
前面谈到抽样方法的一些基本分类和各自特点,
需要注意的是,在实际的运用中,一个调查方案
常
常不是只局限于使用某一种抽样方
式,而根据研究时段的不同采用多种抽样方法的组鸽为实现不同的研究
目的,有时
甚至在同一时段综合运用几种抽样方法。
例如,设计一个全国城市的入户项目,在抽样上可以分为几个不同的步骤,包括:
1
)
在项目正式开始前,可以采用判断抽样法选出某一城市先作试点,
法选岀部分人群进行问卷试访。
2
)
采用分
层随机抽样法,确定全国要分别在多少个超大型市、多少个大型市、多少个中型市、多少个
小型市实施(先分出城市的几个层次,再依据研究需要在各层用
PPS
法选取具体城市)
在问卷设计初期可以采用任意抽
样
3
)
采用简单抽样法或
PPS
抽样法,确定抽出城市中应抽的地块或居委会;
4
)采用整群抽样法,确定抽岀地块或居委会应访问的家庭户;
5
)在项目后期,可以采用判断抽样法选取某城市进行深入研究
。
本书着重介绍市场研究的现场执行中的抽样技术,有关的理
论知识只作简单介绍,如需深入了解探讨
有关抽样
的理论知识请参看其他相关书籍。
1
.
非概率抽样
(
Non-probability sampling
)
又称非随机抽样,指根据一定主观标准抽取样本,
而是完全决定于调研者的意愿。
令总体中每个个体的被抽取不是依据其本身的机会,
其特点为不具有从样本推断总体的功能,但能反映某类群体的特征,是一种快速、简易且节省的数
据
收集方
法。当研究者对总体具有较
好的了解时可以采用此方法,或是总体过于庞大、复杂,采用概率方法
有困难时,可以
采用非概率抽样来避免概率抽样中容易抽到实际无法实施或
p>
总体的代表度。
常用的非概率抽样方法有以下四类:
方便抽样(
Convenience sampling
)
指根据调查者的方便选取的样本,
以无目标、随意的方式进行。例如:街头拦截访问(看到谁就访问
谁);个
别入户项目谁开门就访问谁。
优点:
适用于总体中每个个体都是
同质”的
,最方便、最省钱;可以在探索性研究中使用,另外还可用于小
组座谈
会、预测问卷等方面的样本选取工作。
缺点:
抽样偏差较大,不适用于要做
总体推断的任何民意项目,对描述性或因果性研究最好不要采用方便抽
样。
判断抽样(
Judgment sampling
)
指由专家判断而有目的地抽取他认为
有代表性的样本”例如:社会学家研究某国家的一般家庭情况
如选三口之家(子
差”的样本,从而避免影响对
时,常以专家判断方法挑选
中型城镇”进行;也有家庭研究专家选取某类家庭进行研究,
女正在上学的);在探索性研究中,如抽取深度访问的样本时,可以使用这种方法。
p>
优点:
适用于总体的构成单位极不相同而样本数很小,
同时设计调查者对总体的有关特征具有相当的了解
(明
白研究的具体指向)的情况下,
适合特殊类型的研究(如产品口味测试等);操作成本低,方便快捷,在
商业性调
研中较多用。
缺点:
该类抽样结果受研究人员的倾
向性影响大,一旦主观判断偏差,则根易引起抽样偏差;不能直接对研
究总体进
行推断。
配额抽样(
Quota sampling
)
指先将总体元素按某些控制的指标
或特性分类,然后按方便抽样或判断抽样选取样本元素。
相当
于包括两个阶段的加限制的判断抽样。在第一阶段需要确定总体中的特性分布(控制特征),通
< br>
常,样本
中具备这些控制特征的元素的比例与总体中有
这些特征的元素的比例是相同的,通过第一步的配
额,保证了
在这些
特征上样本的组成与总体的组成是一致的。在第二阶段,按照配额来控制样本的抽
取工
作,要求所选岀的元素要适
合所
控制的特性。例如:定点街访中的配额抽样。
优点:
适用于设计调查者对总体的有
关特征具有一定的了解而样本数较多的情况下,实际上,配额抽样属于
先分层”
(事先确定每层的样本量)再
判断”(在每层中以判断抽样的方法选取抽样个体);费用不高,
易于实施,能满足
总体比例的要求。
缺点:
容易掩盖不可忽略的偏差。
滚雪球抽样(
Snowball sampling
)
指先随机选择一些被访者并对其实
施访问,再请他们提供另外一些属于所研究目标总体的调查对象,
根据所形
成的线索选择此后的调查对象。
第一批被访者是采用概率抽样得来的,之后的被访者都属于非
概率抽样,此类被访者彼此之间较为相
似。例
如:如在目前中国的小轿车车主等。
优点:
可以根据某些样本特征对样本
进行控制,适用寻找一些在总体中十分稀少的人物。
缺点:
有选择偏差,不能保证代表性。
2
.
概率抽样
(
Probability sampling
)
又称随机抽样,指在总体中排除人的主观因素,给予每一个体一定的抽取机会的抽样。
其特点为,抽取样本具有一定的代表性,可以从调查结果推断总体;操作比
较复杂,需要更多的时间,
而且往
往需要更多的费用。
常用的有以下六种类型:
简单抽样
(
Simple
sampling
)
例如:按照抽签法”
即简单随机抽样
,指保证大小为
n
的每个可能的样本都有相同的被抽中的概率。
随机表
法抽
取访问对象,从单位人名目录中抽取对象。
优点:
随机度高,在特质较均一的总
体中,具有很高的总体代表度;是最简单的抽样技术,有标准而且简单
的统计公
式。
缺点:
未使用可能有用的抽样框辅助
信息抽取样本,可能导致统计效率低;有可能抽到一个
抽岀的样本分布不好,不能很好地代表总体。
系统扌由样
(
Systematic
random sampling
)
差”的样本,使
将总体中的各单元先
按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距
离抽样,
即根据总体单位数和样本单位计算岀抽样距离
(
即相同的间隔
)
,然后按相
同的距离或间隔抽选
样本单位。例如:从
1000
个电话号码中抽取
10
个
访问号码,间距为
100
,确定起点
(
起点
V
间距
)
后
每
100
号码抽一访问号码。
优点:
兼具操作的简便性和统计推断
功能,是目前最为广泛运用的一种抽样方法。
如果起点是随机确定的,
总体中单元排列是随机的,等距抽样的效果近似简单抽样;
在一定条件下,样本的分布较好。
缺点:
抽样间隔可能遇到总体中某种未知的周期性,导致
取样本,可能导致统计效率低。
分层抽样
(
Stratified
random sampling
)
差”的样本;未使用可能有用的抽样框辅助信息抽
与简单抽样相比,
是把调查总体分为
同质的、互不交叉的层
(
或类型
)
p>
,然后在各层
(
或类型
)
中独立抽取样本。例如:
调查
零售店
时,按照其规模大小或库存额大小分层,然后在每层中按简单随机方法抽取大型零
售店若干、
中型若干、小型若干;
调
查城市时,按城市总人口或工业生产额分岀超大型城市、中型城市、小型城市等,
再抽岀具体的各类型城市若干。
优点:
适用于层间有较大的异质性,
而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本
量相同的情况下,其精度高于简单抽样和系统抽样;能保证
不同层可以依据情况采用不同的抽样框和抽样方法。
缺点:
要求有高质量的、能用于分层
的辅助信息;由于需要辅助信息,抽样框的创建需要更多的费用,更为
复杂;抽
样误差估计比简单抽样和系统抽样更复杂。
整群抽样(
Cluster sampling
)
层”的代表性,避免抽到
差”的样本;同时,
是先将调查总体
分为群,然后从中抽取群,对被抽中群的全部单元进行调查。例如:入户调查,按地
块或居委