stata 数据处理

2023-11-15

按类别求均值，然后创建一个新的变量

bysort year industry: egen meanvariable=mean(variable)

//year industry ：分组的类别
//meanvariable  ：新变量的名称
//variable      ：均值变量

//如表所示的样例
bysort category: egen mean_variable=mean(variable)

variable	category	mean_variable
10	1	10.5
11	1	10.5
22	2	22
31	3	32
32	3	32
33	3	32

缩尾处理

处理常见的异常值

winsor wage, gen(wage_w) p(0.025)

//默认为双尾处理
//wage ：需处理的变量
//wage_w : 处理后的新变量
//0.025：处理的百分位，即98.5%以上取%98.5%位置的值，2.5%以下取2.5%位置的值
//通常情况下，对所有连续变量做上下1%的缩尾（winsor）处理

winsor wage, gen(wage_wh) p(0.025) lowonly    //左侧缩尾
winsor wage, gen(wage_wh) p(0.025) highonly   //右侧缩尾

histogram wage_wh,  ylabel(, angle(0)) xtitle("wage_wh") //可以作图显示结果

日期处理

提取日期中的年份

//日期为日期格式
gen year = year(日期)

//日期为字符串格式
gen year = substr(日期, 1, 4)
destring year, replace force //字符转换成数值

连续变量处理成虚拟变量

gen dummy_variable = 0
replace dummy_variable = 1 if continuous_variable > 1

//dummy_variable:新生成的虚拟变量
//continuous_variable: 处理的连续变量

变量重新命名

ren var1 var123 // 把var1重新命名为var123

按条件删除数据

drop if category == 16

//删除类别为16的数据

多个判断条件

replace modresp=1 if (modality==1 & response==1)

常用函数

abs(x) 绝对值

exp(x) 指数函数

log(x) 自然对数

log10(x) 常用对数

sqrt(x) 平方根

uniform(x) 生成（0,1）内均匀分布的伪随机数

length(x) 计算长度

substr(s,n1,n2) 获得从S的n1个字符开始的n2个字符组成的字符串

real(x) 将字符串s转换为数值函数

trim(x) 去除字符串前面和后面的空格

int(x) 去掉x的小数部分，得到整数

sum(X) 求和

max(x) min(x) 最大值最小值

_n 当前观察值的位置

_N 观察值的总个数

结果输出

esttab m1 m2 m3 using Table1-satisfaction.rtf, title(Table1) mtitle(control main moderating) ///
              drop(*industry_id *Year) b(3) star(* 0.1 ** 0.05 *** 0.01) ///
			  se pr2 aic bic scalar(N  industry year ll ll_0) ///
			  append nogaps compress nobase

b(3):系数为三位小数
se:  报告标准误
pr2: 伪R方
ll:  likelihood

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

stata

经验分享

stata 数据处理的相关文章

springboot之乐观锁和悲观锁

适用场景悲观锁比较适合写入操作比较频繁的场景如果出现大量的读取操作每次读取的时候都会进行加锁这样会增加大量的锁的开销降低了系统的吞吐量乐观锁比较适合读取操作比较频繁的场景如果出现大量的写入操作数据发生冲突的可能性就会增大

随机推荐

python_mysql

pymysql模块 pip3 install pymysql pymysql使用流程 1 建立数据库连接 db pymysql connect 2 创建游标对象 cur db cursor 3 游标方法 cur execute insert
网络安全-跨站请求伪造（CSRF）的原理、攻击及防御

目录简介原理举例漏洞发现链接及请求伪造 CSRF攻击不同浏览器未登录状态登录状态代码查看工具防御用户程序员简介跨站请求伪造 Cross site request forgery 也被称为 one click a
二进制、八进制、十进制、十六进制之间的相互转换

一二进制八进制十六进制转换为十进制方法位权求和法二进制用符号 B 表示十进制用符号 D 表示八进制用符号 O 表示十六进制用符号 H 表示 100101 10111 B 1 2 5 0 2 4 0 2 3 1 2 2 0
OpenGL渲染字体的批处理操作

一问题描述在OpenGL中绘制字体通过纹理贴图的方式一个场景中有200个单词按照正常做法一个单词生成一个贴图指定Quad四个顶点纹理坐标最后把数据传给OpenGL 进行绘制 OpenGL顶点数组是客户端服务器模式客户端是
删除报错不能删除myeclipse或者eclipse项目方法

当在myeclipse创建了项目想删除的时候发现删除不了终极的解决方法如下一删除myeclipse或者eclipse上的java项目工程 1 找到对应myeclipse工作空间使用强力删除粉碎文件删除成功 2 接着回到mye
Ubuntu下安装egg

http blog csdn net flydirk article details 8506463 用easy install安装就可以了安装之前需要python setuptools sudo apt get install pyth
数字图像散斑计算Matlab连续处理1/2

数字图像散斑计算Matlab连续处理 1 数字散斑相关测量法原理 2 打开 All m 文件设置路径 3 运行程序输入参考图像序号 4 框选高对比度区域下图左图双击以结束结果后为下图右图 5 回到命令行输入高对比度区域裁剪位置
RabbitMQ(二）confirm/return机制

程序用了1 5 3 RELEASE版本的spring boot starter amqp依赖 confirm确认机制配置文件
Python介绍

Python由荷兰数学和计算机科学研究学会的吉多范罗苏姆于1990 年代初设计作为一门叫做ABC语言的替代品 1 Python提供了高效的高级数据结构还能简单有效地面向对象编程 Python语法和动态类型以及解释型语言的本质使它
prometheus的介绍&环境搭建配置服务启动监控

一 prometheus的介绍环境搭建配置 1 prometheus grafana构成 2 功能简介 Prometheus是一个开源监控系统它前身是SoundCloud的警告工具包主要具有如下功能多维数据模型时序由 metri
消息队列状态:struct msqid_ds

Linux的消息队列 queue 实质上是一个链表它有消息队列标识符 queue ID msgget创建一个新队列或打开一个存在的队列 msgsnd向队列末端添加一条新消息 msgrcv从队列中取消息取消息是不一定遵循先进先出的也可以
Mybatis学习

mybatis面向接口编程 1 mybatis配置文件
为什么pnpm比npm、yarn使用更好

performant npm 意味高性能的 npm pnpm由 npm yarn 衍生而来解决了 npm yarn 内部潜在的bug 极大的优化了性能扩展了使用场景被誉为最先进的包管理工具我们按照包管理工具的发展历史开始讲起 np
转载--Windows下比较两个不同版本的二进制文件

接手前人的软件发现主程序依赖的动态库文件的源码没有包含在工程里面花了好长时间找到了源代码但是不知道它是不是最新版本的源代码发现现有用到的动态库有两个版本的其中一个修改时间旧一点的动态库文件在源代码的Release目录中可以找到可
C# 自定义Label实现指定字符串（关键词）高亮显示（字体、颜色）

C 自定义Label实现指定字符串关键词高亮显示字体颜色原来是搞android的本来自己就菜现在由于项目需要开始着手弄C WPF 虽然了解一些毕竟只是皮毛唉苦不堪言啊还是得倚靠万能的互联网啊需求提示用户的文字但
机器学习--支持向量机(sklearn)

机器学习支持向量机 1 1 线性可分支持向量机硬间隔支持向量机训练数据集 T x 1 y 1 x 2 y 2 x N y N 当 y i 1 y i 1
Flutter页面不流畅，难道是使用姿势有问题？

作者檀婷婷三莅出品阿里巴巴新零售淘系技术部背景高性能高流畅度一直是Flutter团队宣传的一大亮点也是当初闲鱼选择Flutter的重要因素之一但是随着复杂业务的应用落地通过Flutter页面和原生页面滑动流畅度对比我们开
使用Azure Data Factory REST API和

题解给数组加一 class Solution public 代码中的类名方法名参数名已经指定请勿修改直接返回方法规定的值即可题解统计每种性别的人数字符串子串函数的使用 substring index profile 1 SE
listView闪烁的问题

用了一个ListView来实时的显示数据传输情况于是问题就来了当数据量比较大而且处理速度很快时这该死的界面闪得人眼花废话不多说直接上代码首先自定义一个类ListViewNF 继承自 System Windows Forms
stata 数据处理

目录按类别求均值然后创建一个新的变量缩尾处理日期处理连续变量处理成虚拟变量按条件删除数据按类别求均值然后创建一个新的变量 bysort year industry egen meanvariable mean variabl

stata 数据处理

按类别求均值，然后创建一个新的变量

缩尾处理

日期处理

连续变量处理成虚拟变量

变量重新命名

按条件删除数据

多个判断条件

常用函数

结果输出

stata 数据处理 的相关文章

随机推荐

热门标签

stata 数据处理的相关文章