-
stata11
常用命令
注:
JB
统计量对应的
p
大于
0.05
,则表明非正态,这点跟
sktest
和
swilk
检验刚好相反;
dta
为数据文件;
gph
为图文件;
do
为程序文件;
< br>注意
stata
要区别大小写;
不得用作用户变量名:
_all
_n _N _skip _b _coef _cons _pi _pred _rc _weight
double
float long int in if using with
命令:
读入数据一种方式
input x
y
1 4
2 5.5
3 6.2
4 7.7
5 8.5
end
su/summarise/sum x
或
su/summarise/sum x,d
对分组的描述:
sort
group
by group:su x
%%%%%
tabstat economy,stats(max) %
返回变量
economy
的最大值
%%stats
括号里可以是:
mea
n
,
count(
非缺失观测值个数<
/p>
)
,
sum(
总
和
)
,
max
,
min
,
range
,
%% sd
,
var
,
cv(
变易系数=标准差
/
均值
)
,
skewness
,
kurtosis
,
median
,<
/p>
p1(1
%分位
%%
数,类似地有
p10, p25, p50, p75,
p95, p99)
,
iqr(interquantile
range = p75
–
p25)
_all
%
描述全部
_N
数据库中观察值的总个数。
_n
当前观察值的位置。
_pi
圆周率
π
的数值。
list
gen/generate
%
产生数列
egen
wagemax=max(wage)
clear
use
by(
分组变量
)
set more 1/0
count
%
计数
gsort
+x (
升序
)
gsort
-x
(
降序
)
sort x
升序;并且其它变量顺序会跟着改变
label var y
消费
添加标签
describe
%
描述数据文件的
整体,包括观测总数,变量总数,生成日期,每个变
量的存储类型
(storage type)
,标签
(label)
replace x5=2*y if x!=3
%
替换变量值
replace
age = 25 in 107 %
令第
107
个观测中
age
为
25
rename y2 u
%
改变变量名
drop in 2
%
删除全部变量的第
2
行
drop if x==.
删去
x
为缺失值的所有记录
keep if x<2 %
保留小于
2
的数据,其余变量跟随
x
改变
p>
keep in 2/10 %
保留第
2-10
个数
keep
x1-x5
%
保留数据库中介于
x1
和
x5
间的所有变量
(
包括
x1
和
x5)
,其<
/p>
余变量删除
ci x1
x2,by(group) %
算出置信区间
,
不过先前对
group
要先排序,即
sort
group
;
%by
的意思逐个进行
cii 12 3.816667 0.2710343, level(90) %
已知均值,方差,计算
90%
的置信<
/p>
区间
cii 10 2 %obs=
10,mean=2,
以二项分布形式,计算置信区间
centile x,centile(2.5 25 50 75 97.5)
%
取分位数
correlate/corr x y z
%
相关系数
pwcorr x
y,sig %
给出原假设
r=0
的命令
%
如果变量非服从正态分布,
则
spearman x y
regress/reg
mean year %
回归方程建立
reg y
x,noconstant %
无常数项
predict meanhat
%
预测拟合值
predict
e,residual %
得到残差
estat hettest %
异方差检验
dwstat %
Durbin-Watson
自相关检验
vif %
方差膨胀因子
logit y x1 x2 x3 (y
取
< br>0
或
1
,是被解释变量,
x1-x3
是被解释变量
)
%logit
回归
probit y
x1 x2 x3 (y
取
0
或
1
,是被解释变量,
x1-x3
是被解释变量
)
%probit
回归
tobit y
x1 x2 x3 (y
取值在
0
和<
/p>
1
之间,是被解释变量,
x1-x3
p>
是被解释变
量
)
%tobit
回归
sktest e
%
残差正态性检验
p>0.05
则接受原假设,即服从正态分布;
%% sktest
是基于变量的偏度和斜度
< br>(
正态分布的偏度为
0
,斜度为
3)
swilk x
%
基于
Shapiro-
Wilk
检验
%%p
值越小,越倾向于拒绝零假设,也就是变量越有可能不服从正态分布
xi %
生成虚拟变量
tabulat
gender,summ(math) %
用
gender
指标对
math
进行分类,
返回两类
math
的
mean
、
std
、
freq
tabulate=tab %gen
f=int((shengao-164)/3)*3+164
组距为
3
tabulate
变量名
[,
generate(
新变量
) missing nofreq
nolabel plot ]
%%%%%
generate(
新变量
) //
按分组变量产生哑变量
nofreq
//
不显示频数
nolabel
//
不显示数值标记
plot
//
显示各组频数图示
missing //
包含缺失值
cell
//
显示各小组的构成比
(
小组之和
为
1)
column //
按栏显示各组之构成
(
各栏总计为
1)
row //
按行显示各组之构成
(
各行总计为
1)
%%%%%
求和,求最小?
mod(x,y) %
求余数
means %
返回三种平均值
di normprob(1.96)
di
invnorm(0.05)
di binomial(20,5,0.5)
di invbinomial(20,5,0.5)
di
tprob(10,2)
di invt(10.0.05)
di fprob(3,27,1)
di
invfprob(3,27,0.05)
di chi2(3,5)
di invchi2(3,0.05)
stack x y
z,into(e) %
把三列合成一列
xpose,clear
%
矩阵转置
append
using d: %
把已打开的文件(
x y z
)跟
0917
里的(
x
y z
)
合并,是竖向合并,即观察值合并;
< br>
merge using D:
%
把已打开的文件(
x y z
)跟<
/p>
0917
里的(
a
b
)合
并,是横向合并,即变量合并;
format x %9.2e
%
科学记数
format x
%9.2f %2
位小数
%
产生随机数
%1
产生
20
个在
(0
,
1)
区间上均匀分布的随机数
uniform()
set
seed 100
set obs 20
gen
r=uniform()
list