2.6_探索数据和回归_14Jun2019

目录:
part 0:介绍
part 1:安装一些常用的包
part 2:基本的技能和数据探索(汇报重点)
part 3:回归操作(汇报重点)
part 4:一些省力的技巧和结果导出
part 5:数据管理和探索常用函数

part 0:介绍

本文是对书籍Econometric Evaluation of Socio-Economic Programs Theory and Applications2.6节汇报的补充内容。

除了汇报时使用的所有代码外,这里还放了常用的函数和运算符,可以帮助您更好地探索数据。

由于本次汇报是操作的汇报,强烈建议大家在自己的电脑上安装stata,组会时带上电脑,跟随我汇报内容自行写作这些代码,而不是直接复制粘贴。

您必需的基础:

  • 通电的电脑
  • 安装了stata
  • 打开stata并执行下面part1代码(复制粘贴即可,安装过程需要联网)
  • 下载发在群里的states.dta数据集
    以上四个部分需要在组会前准备好。

part 1:安装一些常用的包

ssc install aaplot, replace
ssc install bihist, replace
ssc install catplot, replace
ssc install sixplot, replace
ssc install logout, replace
ssc install estout, replace
*如果安装过程遇到困难,请使用搜索引擎自行解决

part 2:基本的技能和数据探索(汇报重点)

*******************set up***********************
clear
set more off
cap log close
cd "d:\汇报用ppt_文献提取表_组会安排_交流记录\汇报PPT_汇报材料"

******************* get help *******************
* with search engine
* with help command
help regress
* help dta_examples

*************explore, manage data**************
* get data
sysuse auto, clear

* explore 
list in 1/11

* generate new variable by existing variables
* wrong way
gen temp = 1 if rep78 >= 4
list rep78 temp in 1/ 11
* right way
gen temp2 = 1 if rep78 >= 4 & rep78 != . 
list rep78 temp* in 1/ 15
replace temp2 = 0 if rep78 < 4
list rep78 temp* in 1/ 15
drop temp
ren temp2 binary

describe
su
su price
su price, d
hist price
sixplot(price)
graph box price, by(foreign)
bihist price, by(foreign)

tab1 foreign
count if foreign == 1

tabstat price mpg headroom turn, c(s) stat(mean sd median iqr p25 p75) by(foreign)

tab1 rep78
tab1 rep78, miss
catplot rep78
tab1 rep78 foreign binary
tab1 rep78 foreign binary, miss
tab2 binary rep78
tab2 binary foreign, miss chi expect exact row
tab2 binary rep78, miss
tab2 foreign binary rep78
tab2 foreign binary rep78, first

tw sc length weight
pwcorr length weight, sig
aaplot length weight

part 3:回归操作(汇报重点)

*****************reression*******************
*数据集已发到群里
use states, clear
describe state csat expense percent income high college region
aaplot csat expense
reg csat expense
regress csat expense percent income high college

reg csat percent

predict y_hat
label variable y_hat "predicted mean sat score"

predict e, resid
label variable e "residual"

sixplot e
sort e
su e
list state percent csat y_hat e in 1 / 5
list state percent csat y_hat e in -5 / l

des region
catplot region
label list region
su csat if region == 1
bys region: su csat

oneway csat region
graph box csat, by(region)

reg csat percent i.region

gen region_neast = 1 if region == 2
replace region_neast = 0 if region == 1 | region == 3 | region == 4

gen region_neast2 = region
recode region_neast2 (2 = 1) (1 3 4 = 0)

tab2 region region_neast region_neast2

reg csat percent i.region_neast

graph box percent, by(region_neast)

gen regneast_percent = region_neast * percent
reg csat i.region_neast percent regneast_percent

part 4:一些省力的技巧和结果导出

*****************output*******************
sysuse auto, clear
for var mpg-length: reg price X
use states, clear
global covs income high college

tabstat csat expense percent $covs, c(s) s(mean sd min max) format(%10.3f)
logout, save(des.rtf) word replace : tabstat csat expense percent $covs, c(s) s(mean sd min max) format(%10.3f)

* model 1
reg csat $covs
eststo model1

* model2
reg csat expense $covs
eststo model2

* model 3
regress csat expense percent $covs
eststo model3

esttab model1 model2 model3, /// 
t star(* 0.1 ** 0.05 *** 0.01) stat(r2 F)

esttab model1 model2 model3 using temp.rtf, /// 
t star(* 0.1 ** 0.05 *** 0.01) stat(r2 F) replace

estout model3 using model3.rtf, cells("b(fmt(3)) se(fmt(3)) ci_l(fmt(3)) ci_u(fmt(3)) p(fmt(3))") replace

part 5:数据管理和探索时常用

*************tabatat命令的stat选项可以包括下列统计量*************
mean      平均数
count     非缺失观测值总数
n         计数
max       最大值
min       最小值
range     极差=最大值-最小值
sd        标准差
var       方差
cv        变异系数=标准差/平均值
semean    标准误=标准差/sqrt(n) 
skewness  偏度
kurtosis  峰度
median    中位数(等同于第p50)
p1        第1百分位数(同理,p5、p10、p25、p50、p75、p95或p99)
igr       四分位距=p75-p25


*************************逻辑运算符*****************************
==    等于
!=    不等于(也可以用~=)
>     大于
<     小于
>=    大于等于
<=    小于等于


*************************数学运算符*****************************
+    加
-    减
*    乘
/    除
^    乘方
abs(x)      x的绝对值
ln(x)       x的自然对数
log10(x)    以10为底x的对数
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容