stata 数据处理

2023-11-15

目录

按类别求均值,然后创建一个新的变量

缩尾处理

日期处理

连续变量处理成虚拟变量

按条件删除数据


按类别求均值,然后创建一个新的变量

bysort year industry: egen meanvariable=mean(variable)

//year industry :分组的类别
//meanvariable  :新变量的名称
//variable      :均值变量

//如表所示的样例
bysort category: egen mean_variable=mean(variable)
variable category mean_variable
10 1 10.5
11 1 10.5
22 2 22
31 3 32
32 3 32
33 3 32

缩尾处理

处理常见的异常值

winsor wage, gen(wage_w) p(0.025)

//默认为双尾处理
//wage :需处理的变量
//wage_w : 处理后的新变量
//0.025:处理的百分位,即98.5%以上取%98.5%位置的值,2.5%以下取2.5%位置的值
//通常情况下,对所有连续变量做上下1%的缩尾(winsor)处理

winsor wage, gen(wage_wh) p(0.025) lowonly    //左侧缩尾
winsor wage, gen(wage_wh) p(0.025) highonly   //右侧缩尾

histogram wage_wh,  ylabel(, angle(0)) xtitle("wage_wh") //可以作图显示结果

日期处理

提取日期中的年份

//日期为日期格式
gen year = year(日期)

//日期为字符串格式
gen year = substr(日期, 1, 4)
destring year, replace force //字符转换成数值

连续变量处理成虚拟变量

gen dummy_variable = 0
replace dummy_variable = 1 if continuous_variable > 1

//dummy_variable:新生成的虚拟变量
//continuous_variable: 处理的连续变量

变量重新命名

ren var1 var123 // 把var1重新命名为var123

按条件删除数据

drop if category == 16

//删除类别为16的数据

多个判断条件

replace modresp=1 if (modality==1 & response==1) 

常用函数

abs(x) 绝对值

exp(x) 指数函数

log(x) 自然对数

log10(x) 常用对数

sqrt(x) 平方根

uniform(x) 生成(0,1)内均匀分布的伪随机数

length(x) 计算长度

substr(s,n1,n2) 获得从S的n1个字符开始的n2个字符组成的字符串

real(x) 将字符串s转换为数值函数

trim(x) 去除字符串前面和后面的空格

int(x) 去掉x的小数部分,得到整数

sum(X) 求和

max(x) min(x) 最大值最小值

_n 当前观察值的位置

_N 观察值的总个数

结果输出

esttab m1 m2 m3 using Table1-satisfaction.rtf, title(Table1) mtitle(control main moderating) ///
              drop(*industry_id *Year) b(3) star(* 0.1 ** 0.05 *** 0.01) ///
			  se pr2 aic bic scalar(N  industry year ll ll_0) ///
			  append nogaps compress nobase

b(3):系数为三位小数
se:  报告标准误
pr2: 伪R方
ll:  likelihood

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

stata 数据处理 的相关文章

  • springboot之乐观锁和悲观锁

    适用场景 悲观锁 比较适合写入操作比较频繁的场景 如果出现大量的读取操作 每次读取的时候都会进行加锁 这样会增加大量的锁的开销 降低了系统的吞吐量 乐观锁 比较适合读取操作比较频繁的场景 如果出现大量的写入操作 数据发生冲突的可能性就会增大

随机推荐

  • python_mysql

    pymysql模块 pip3 install pymysql pymysql使用流程 1 建立数据库连接 db pymysql connect 2 创建游标对象 cur db cursor 3 游标方法 cur execute insert
  • 网络安全-跨站请求伪造(CSRF)的原理、攻击及防御

    目录 简介 原理 举例 漏洞发现 链接及请求伪造 CSRF攻击 不同浏览器 未登录状态 登录状态 代码查看 工具 防御 用户 程序员 简介 跨站请求伪造 Cross site request forgery 也被称为 one click a
  • 二进制、八进制、十进制、十六进制之间的相互转换

    一 二进制 八进制 十六进制转换为十进制 方法 位权求和法 二进制用符号 B 表示 十进制用符号 D 表示 八进制用符号 O 表示 十六进制用符号 H 表示 100101 10111 B 1 2 5 0 2 4 0 2 3 1 2 2 0
  • OpenGL渲染字体的批处理操作

    一 问题描述 在OpenGL中 绘制字体通过纹理贴图的方式 一个场景中有200个单词 按照正常做法 一个单词生成一个贴图 指定Quad四个顶点纹理坐标 最后把数据传给OpenGL 进行绘制 OpenGL顶点数组是客户端 服务器模式 客户端是
  • 删除报错不能删除myeclipse或者eclipse项目方法

    当在myeclipse创建了项目 想删除的时候 发现删除不了 终极的解决方法如下 一 删除myeclipse或者eclipse上的java项目工程 1 找到对应myeclipse工作空间 使用强力删除 粉碎文件 删除成功 2 接着回到mye
  • Ubuntu下安装egg

    http blog csdn net flydirk article details 8506463 用easy install安装就可以了 安装之前需要python setuptools sudo apt get install pyth
  • 数字图像散斑计算Matlab连续处理1/2

    数字图像散斑计算Matlab连续处理 1 数字散斑相关测量法原理 2 打开 All m 文件 设置路径 3 运行程序 输入参考图像序号 4 框选高对比度区域 下图左图 双击以结束 结果后为下图右图 5 回到命令行 输入高对比度区域裁剪位置
  • RabbitMQ(二)confirm/return机制

    程序用了1 5 3 RELEASE版本的spring boot starter amqp依赖 confirm确认机制 配置文件
  • Python介绍

    Python由荷兰数学和计算机科学研究学会的吉多 范罗苏姆 于1990 年代初设计 作为一门叫做ABC语言的替代品 1 Python提供了高效的高级数据结构 还能简单有效地面向对象编程 Python语法和动态类型 以及解释型语言的本质 使它
  • prometheus的介绍&环境搭建配置服务启动监控

    一 prometheus的介绍 环境搭建配置 1 prometheus grafana构成 2 功能简介 Prometheus是一个开源监控系统 它前身是SoundCloud的警告工具包 主要具有如下功能 多维 数据模型 时序由 metri
  • 消息队列状态:struct msqid_ds

    Linux的消息队列 queue 实质上是一个链表 它有消息队列标识符 queue ID msgget创建一个新队列或打开一个存在的队列 msgsnd向队列末端添加一条新消息 msgrcv从队列中取消息 取消息是不一定遵循先进先出的 也可以
  • Mybatis学习

    mybatis面向接口编程 1 mybatis配置文件
  • 为什么pnpm比npm、yarn使用更好

    performant npm 意味高性能的 npm pnpm由 npm yarn 衍生而来 解决了 npm yarn 内部潜在的bug 极大的优化了性能 扩展了使用场景 被誉为 最先进的包管理工具 我们按照包管理工具的发展历史开始讲起 np
  • 转载--Windows下比较两个不同版本的二进制文件

    接手前人的软件 发现主程序依赖的动态库文件的源码没有包含在工程里面 花了好长时间找到了源代码 但是不知道它是不是最新版本的源代码 发现现有用到的动态库有两个版本的 其中一个修改时间旧一点的动态库文件在源代码的Release目录中可以找到 可
  • C# 自定义Label实现 指定字符串(关键词)高亮显示(字体、颜色)

    C 自定义Label实现 指定字符串 关键词 高亮显示 字体 颜色 原来是搞android的 本来自己就菜 现在由于项目需要开始着手弄C WPF 虽然了解一些 毕竟只是皮毛 唉 苦不堪言啊 还是得倚靠万能的互联网啊 需求 提示用户的文字 但
  • 机器学习--支持向量机(sklearn)

    机器学习 支持向量机 1 1 线性可分支持向量机 硬间隔支持向量机 训练数据集 T x 1 y 1 x 2 y 2 x N y N 当 y i 1 y i 1
  • Flutter页面不流畅,难道是使用姿势有问题?

    作者 檀婷婷 三莅 出品 阿里巴巴新零售淘系技术部 背景 高性能高流畅度一直是Flutter团队宣传的一大亮点 也是当初闲鱼选择Flutter的重要因素之一 但是随着复杂业务的应用落地 通过Flutter页面和原生页面滑动流畅度对比 我们开
  • 使用Azure Data Factory REST API和

    题解 给数组加一 class Solution public 代码中的类名 方法名 参数名已经指定 请勿修改 直接返回方法规定的值即可 题解 统计每种性别的人数 字符串子串函数的使用 substring index profile 1 SE
  • listView闪烁的问题

    用了一个ListView来实时的显示数据传输情况 于是问题就来了 当数据量比较大 而且处理速度很快时 这该死的界面闪得人眼花 废话不多说 直接上代码 首先 自定义一个类ListViewNF 继承自 System Windows Forms
  • stata 数据处理

    目录 按类别求均值 然后创建一个新的变量 缩尾处理 日期处理 连续变量处理成虚拟变量 按条件删除数据 按类别求均值 然后创建一个新的变量 bysort year industry egen meanvariable mean variabl