-
Stata
语句
1
y x1 x2
predict xxx
predict newvar, stdp
predict aaa
,
re
predict newvar, stdr
predict newvar, xb
量的预测值。
predict
newvar, residual
test x1
值为回归报告中
t
值平方。
test x1=x2
test x1*a=x2*b
系。
x1,gen(x1)
gen fsize1=fize==1
则为零。下同。
gen
fsize2=fsize==2
gen fsize3=fsize==3
gen fsize4=fsize==4
gen
fsize5=fsize>=5
y x1 x2 x3,level(99) <
/p>
返回先前回归中因变量的拟合值,
xxx
随意变量名。
预测拟合值的标准差
返回先前回归中因变量的残差,
aaa
为随意变量名。
预测残差的标准差
产生一个新变量其
值为由上面回归方程计算的被解释变
产生一个新变量其值为由上面回归方程计算出的残差
检验变量
x1
的显著性,
返回当
X1
系数为零时的
F
值,
F
检验
x1 x2
变量的系数是否相等。
<
/p>
a,b
为任意常数,检验变量
x1
与
x2
是否存在某种线性关
< br>产生
x1
的虚拟变量。
产生虚拟变量,如果
family size
< br>为
1
,则令
fsize1=1<
/p>
,否
返回回归报告中
99%
的置信区间。
set level 97
reg y x1 x2 x3,noconstant
y fprob(q, n-k-1, F)
值
di
tprob(n-k-1,t)
中缺失值为无穷大值。
在以后的回归中都默认返回
97
的置信区间。
无常数回归。
返
回值为
F
,分子自由度为
q
,分母自由度为
n-k-1
的
p
返回值为
t
,自由度为
n-k-1
的
p
值
p>
reg bwght cigs parity
faminc if fatheduc<. & motheduc<.
6.
标准化变量
egenstdprice=std
(
price
)
std
(
0
)
/
reg y x1 x2 x3,beta
7.
将回归结果输入到
regbwght cigs faminc
outreg2
using , nolabel replace
regbwghtlbs
cigs faminc
outreg2 using , nolabel
append
regbwght packs faminc
outreg2 using , nolabel append
8.
逻辑表达式:
缺失值用“.”表示
/
可以添加语句:
egenstdprice=std
(
price
)
,mean
(
0
)
关系运算符:
==,!
=(不等于)
< br>,
~
=(约等于)
,
>,<,<=,>=
逻辑运算符:
&
(与)
,|
(或)
,~<
/p>
(非)
9.
对现有变量重新赋值
replace oldvar =exp [if] [in] [,
nopromote]
be
:报告
样本容量、变量个数、变量名称等
x1 x2
依次按升序排列
gsort
-x1
按
x1
降序排列<
/p>
转为
stat
a
时日期变量的处理
gen dat
e
(或任一新变量名)
=date
(‘
原变量名’,‘YMD’/'DMY'/..)
form
date %td
12.
删掉重复记录
duplicates
drop
13.
独立样本均值差异检验
ttest
Stata
语句
2
* Introduction to Stata
log
using stata_, text replace
*
使用日志(
log
)
。它可以帮助我们
记录
stata
的运行结果
clear all
set
more off
*
关闭
more<
/p>
选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空
格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出
*cd
D:/undergraECMT/data
*
进入数据所在的盘符和文件夹
log using
(文件名)
.log,replace
*
打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改
了文
件内容,
replace
选项可以
将其更新为最近运行的结果
use
/stat/data/hs0, clear
*
打开数据文件
*
*insheet using intro_,
clear
*
*use
intro_hs0, clear
*Summarizing the data
describe
*
可以告诉我们每一个变量的含义
*
具体了解每一个变量的特征,
p>
我们可以用
tabstat
命令。
例如我们可以计算
wage
的均值,
方差,中位数,范
围,具体可以用
help tabstata
查询。
tabstat wage, stats(mean)
tabstat wage, stats (sd median range)
*
算
wage
的均值,方差,中位数,范围
tabstat wage, by (educ) stats(mean)
*
不同教育水平的工资的均值
summarize
*
总计全体,
Summarize
(
Sum
)将汇报数据的均值和方差等信息。
summarize wage
*
有关工资的均值与方差
*
如果需要更详尽的信息,可以进一步使用后缀
d
etail
histogram wage
*
画柱状图
scatter wage educ
*
画出两个变量之间的分布关系
graph twoway scatter wage
educ
*
直观的看到教育水平变化时工资的变化,可以用<
/p>
“scatter”
命令或者
“graph
twoway
scatter”
命令
graph twoway line wage educ
*“graph twoway”命令可以带别的后缀,例如
“graph twoway line”
则画的是线状图。
graph matrix wage educ
*
了解更多的变量之间的关系
graph matrix wage educexper
graph bar (mean) wage, over (educ)
*
了解
y
的平均值关于
x
分布的柱状图。
list gender-read in 1/15
p>
*
取
1
到
15
列数据列表
summarize read math science write
*read math science
write
的均值方差啊等信息
summarize if read >= 60
*
所有
read
大于
6
0
的均值方差
summarize
if prgtype ==
*
所有
prgty1pe ==
的均值,方差
summarize
read, detail
*
有关
r
ead
的均值和方差,以及具体分布
*Summarizing the data by group
tab prgtype
*
鎬荤粨<
/p>
prgtype
鍐呭悇缁勬儏鍐
?
bysortprgtype: summarize read write
*
涓嶆噦
...
tabstat read write math, by(prgtype)
stat(n mean sd)
*Correlations
correlate
write read science
*modifying the data
order id
gender
label variable schtyp
*
插入标签
rename gender female
*
重命名
gen score=read+write+math
*<
/p>
在分析的过程中,有些变量并没有在数据中提供,需要我们用原始数据或者回归的结果构<
/p>
造。
gen
score2=score^2
gen pass=1 if score>=150
*
生成
pass=1
< br>,当成绩过
150
时
*egen
命令相对复杂一些,它能
生成一些“gen”命令无法生成的变量。
egenwagesum=sum(wage)
*
生成
wagesum
为每个人的工资和
egenwagemedian=median(wage)
*
生成
wagemedian
为工资的中位数
(median)
egenwagemax=max(wage)
*
生成
wagemax
为工资的最大值
egenwagemaxeduc=max (wage),by (educ)
p>
*
产生一个变量“wagemax”为相同教育水平里的最高工资<
/p>
*replace
*
我们需要替换某一变量,我们可以用的命令是“replace”
gen wagehigh=1 if
wage>=10
replace wagehigh=0 if wagehigh
==.
*
有时候我们在生成变量时可以加上一定条件,例如如
果一个样本工资超过
3
,我们就定义
它
的变量
wagehigh
的取值为
1
,否则为
0
。
*
注意是两个等号
drop if read<40
drop schtyp