【Stata】CGSS数据清理:Codebook速成法

2023-11-06

对数据使用者来说,了解一个调查数据基本情况的常见途径就是查看该数据的codebook。

对数据所有者/提供方来说,制作一份详细的codebook是其数据管理工作中不可或缺的一环。

2016年上半年CGSS项目组把CGSS2003年到CGSS2013年期间的8年年度数据合并成一个大数据,根据CGSS数据的特点,为合并数据整理了codebook。

CGSS合并数据的codebook包括以下内容:题目、变量名、变量标签、取值、值标签以及变量取值在不同年份中的频数分布。

CGSS合并数据codebook的主体为类别变量在不同年份的频数分布。

本文以CGSS20032013两年合并数据中变量a1aa7“第二个家庭成员与被访者之间的关系”为例,为大家介绍两种快速生成频数分布表的方法。该频数分布表的基本结构如下图所示:

在这里插入图片描述

方法一:命令组合codebookout + tabulate

命令codebookout可以把变量取值和值标签直接导到excel表中,导出结果如下图所示:
在这里插入图片描述

但我们的codebook中除了取值和值标签外,还需要列出变量取值在每一年中的频数分布,命令codebookout不具备这一功能。此时,还需通过命令tabulate列出变量的频数分布,再与codebookout的结果进行匹配即可,tabulate结果如下图所示:

在这里插入图片描述
命令tabulate生成的频数分布表只显示任何一年频数不为0的取值的频数分布,因此还需给两年数据频数都为0的取值加“0”,这样就可以得到变量a1aa7在图1中所示的完整的频数分布表。

方法二:命令fre

命令codebookout和tabulate的组合可以顺利生成codebook,但生成的过程中要进行多步繁琐的匹配和修正。其一,要通过取值将命令tabulate得的频数与命令codebookout导出的结果进行匹配;其二,要单独添加频数为“0”的取值;其三,命令tabulate执行一次只能查看一组变量的频数分布情况,在CGSS20032013数据中,我们需要得到多个变量在不同年份的频数分布状况,因此用命令tabulate查看时需要多次重复执行同一个命令。

鉴于以上情况,我们引入Stata的一个第三方命令fre。命令fre与不同选项的组合,能很好地综合codebookout和tabulate的功能,从而帮我们更快捷地得到一个完整的频数分布表。命令fre语法结构如下:

fre varlist [if] [in] [weight] [, options]

仍然以变量a1aa7“第二个家庭成员与被访者之间的关系”为例,通过命令fre查看其频数分布情况,结果如下图所示:

在这里插入图片描述
命令fre可以一次查看多个变量的频数分布,但不能交叉查看,因此,查看变量在不同年份的频数分布时需要通过if条件限制。从上图中可以看出,单独用命令fre,可以同时列出取值、值标签和频数分布,但频数分布为“0”的取值依然不能完整列出,此时,只要给命令fre加选项include便可以解决这一问题,如下所示:

在这里插入图片描述
然后对其稍作调整便可得到所示的频数分布表。

总结

至于其他的学习整理方法,可以去自行学习和查找!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【Stata】CGSS数据清理:Codebook速成法 的相关文章

  • 【番外】Stata软件安装教程

    将下载后的资源解压缩之后双击安装软件 xff1a 点击 下一步 点击 下一步 这里选择第二个 SE 这个选项 xff0c 然后点击 下一步 此处尽量不要修改安装路径 xff0c 尽量使用默认安装路径 然后一直点 下一步 即可 安装完成之后点
  • PSM倾向得分匹配

    1 简要介绍 我们以 是否上大学 对 收入 的影响为例来说明这个问题 这里 先讲二者的关系设定为如下线性模型 显然 在模型 1 的设定中 我们可能忽略了一些同时影响 解释变量 是否上大学 和 被解释变量 收入 的因素 例如 家庭背景 能力
  • Stata数据处理。如何处理删除某个公司的某个年份缺失的公司的数据

    stata处理数据 删除某个公司的某个年份缺失的公司的数据 例如 code year 1 2002 1 2003 1 2004 1 2005 2 2002 2 2003 2 2004 code有很多 不知道哪个年份缺少 如何解决 谢谢大家
  • CGSS2015问卷数据STATA重编码命令(部分)

    今天在写论文时处理的CGSS数据 保存下来以待以后用 选取城市样本 drop if s1 2 选取18 45岁的样本 drop if a301 gt 1997 drop if a301 lt 1970 计算年龄 gen nianling 2
  • 计量经济学及Stata应用 5.12 多元回归的Stata实例

    1 多元回归 regress y x1 x2 x3 reg y x1 x2 x3 2 解释定义 1 右上角 Number of obs 样本容量N F n N F统计量 自由度为k 约束条件 m N K 检验整个方程的联合显著性 Prob
  • stata基本指令

    写在前面 做笔记用 切换数据集一定要用clear 命令结构 by varlist command option 是可选项的意思 但还是不太明白和前面不带都逗号的区别 log uising set more on 显示开头 自己翻页 set
  • Python 第三方模块 科学计算 Quantecon模块

    参见 https quantecon org quantecon py 一 简介 1 功能 quanrecon是1个用于计量经济学的高性能开源第3方Python模块 其中包含博弈论 马尔科夫链 优化 随机样本生成等工具 2 使用 1 安装
  • R语言与机器学习中的回归方法学习笔记

    机器学习中的一些方法如决策树 随机森林 SVM 神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束 预测效果也比较不错 交叉验证结果也能被接受 下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法 一 数据集
  • 浙江大学【面板数据分析与STATA应用】——第一讲短面板数据分析

    基本概念 面板数据及分类 面板数据分类 短面板和长面板 动态面板和静态面板 平衡面板和非平衡面板 截面数大于时间数就是短面板 反之 则为长面板 解释变量包含被解释变量的滞后值则为动态面板 反之 则为静态面板 平衡面板 每个个体在想他的时间内
  • stata如何看某个命令的options?即逗号后面可以加上哪些命令

    以codebook这一命令为例 在命令窗口输入 help codebook 则会出现以下内容
  • 在 R 中创建双模频率矩阵

    我有一个数据框 看起来像这样 CASENO Var1 Var2 Resp1 Resp2 1 1 0 1 1 2 0 0 0 0 3 1 1 1 1 4 1 1 0 1 5 1 0 1 0 数据集中有 400 多个变量 这只是一个例子 我需要
  • 将数组或 DataFrame 与其他信息一起保存在文件中

    统计软件Stata允许将短文本片段保存在数据集中 这是通过使用以下方法完成的notes and or characteristics 这是一个对我来说非常有价值的功能 因为它允许我保存各种信息 从提醒和待办事项列表到有关如何生成数据的信息
  • 熊猫由长到宽的重塑,通过两个变量

    我有长格式的数据 并且正在尝试将其重塑为宽格式 但似乎没有一种简单的方法可以使用熔化 堆叠 取消堆叠来执行此操作 Salesman Height product price Knut 6 bat 5 Knut 6 ball 1 Knut 6
  • 如何标记扩展宏(local :dir )?

    我知道我的标题令人困惑 因为tokenize命令被指定为一个字符串 我有许多文件夹 其中包含大量 独立的 命名不当的 Excel 文件 其中大部分是从网站上抓取的 手动选择不方便 需要依赖Stata扩展宏功能local dir阅读它们 我的
  • R 与 Stata 中的 Cox 比例风险模型

    我正在尝试使用以下数据在 R 中复制 Stata 的 cox 比例风险模型估计http iojournal org wp content uploads 2015 05 FortnaReplicationData dta http iojo
  • 将外语从csv文件导入到Stata

    我正在使用Stata 12 我遇到了以下问题 我正在使用以下命令将一堆 csv 文件导入到 Statainsheet命令 数据集可能包括俄语 克罗地亚语 土耳其语等 我认为它们是用 UTF 8 编码的 在 csv 文件中 它们是正确的 我把
  • 哪些类型的语言允许以编程方式创建变量名称?

    这个问题纯粹出于求知欲 在相对频繁地浏览 Python 部分后 我看到了许多类似的问题this https stackoverflow com questions 1429814 how to programmatically set a
  • 将多个文件读取到多个数据框中

    在d 文件夹中 我有很多Stata文件 例如data aa 1 dta data aa 2 dta data aa 3 dta data bb 1 dta data bb 2 dta data bb 3 dta data cc 1 dta
  • 在 R 中读取 Stata 13 文件

    有没有办法在 R 中读取 Stata 版本 13 数据集文件 我尝试执行以下操作 gt library foreign gt data read dta TEAdataSTATA dta 但是 我收到一个错误 read dta TEAdat
  • 从 R 中的向量中选择所有可能的元组

    我正在尝试用 R 编写一个程序 当给定一个向量时 将返回所有可能的tuples http en wikipedia org wiki Tuples该向量中的元素 例如 元组 c a b c c a b c 出租车 c a c c b c c

随机推荐

  • UML建模与软件开发设计(四)——包图设计

    包图清晰地表达了包间关系 对于大型项目而言 良好的代码组织 对软件的可维护性至关重要 软件的架构设计 思路遵循由大到小 因此大型项目的结构往往从子系统 模块 包开始进行设计 与类图 Class Diagram 相比 包图 Package D
  • linux top命令查看内存及多核CPU的使用讲述

    查看多核CPU命令 mpstat P ALL 和 sar P ALL 说明 sar P ALL gt aaa txt 重定向输出内容到文件 aaa txt top命令 经常用来监控linux的系统状况 比如cpu 内存的使用 程序员基本都知
  • elasticsearch启动报错

    系统 操作centos7 虚拟机 bin elasticsearch 启动报错 es1 es1 software elasticsearch 6 3 1 bin elasticsearch Exception in thread main
  • 误差函数erf

    1 erf误差函数介绍 erf 是误差函数 它是高斯概率密度函数的积分 性质 2 erf误差函数在matlab中实现 erf函数在matlab里面可以直接作为内置函数使用 erf 0 与下面式子等价 syms s f f exp s 2 e
  • AcWing 3375. 成绩排序

    题目 题目链接3375 成绩排序 思路 思路要求稳定排序或者特判的快排 写法一 写两个sort中的比较函数的参数cmp 写法二 直接在结构体中进行比较 写法三 归并排序 代码1 include
  • Win11 Vmware 16 Pro 启动报错 ‘0xc000007b‘

    一段时间没有使用Vmware 打开突然报错 0xc000007b 可能是因为安装了其他软件导致C 库被改变 原因 C 库改变 解决方法 windows打开控制面板 然后打开程序 卸载程序 图中左下角 然后找到图中两个C 程序 分别右键 卸载
  • YoloV8改进策略:将FasterNet与YoloV8深度融合,打造更快更强的检测网络

    文章目录 数据集 官方模型的成绩 改进一 改进二 改进三 总结 数据集 本来想选COCO数据集 但是我觉得训练相同的epoch是一种不公平的对比 因为预训练本来就是COCO数据集上得来的 这样对官方的模型有利 而我改动了模型的结构 导致了没
  • 【重点突破】—— 百度地图在React单页面应用中的使用

    重点突破 百度地图在React单页面应用中的使用 前言 百度地图是网页中使用地图的常用第三方工具 这里结合React项目中学到的应用场景总结一些使用要点 一 在网页中嵌入百度地图 搜百度地图开放平台 注册百度开发者账号 控制台 查看应用 创
  • QT的使用(初期笔记)

    signal 发送的信号 signals 自定义信号 返回值是void 只需声明 不需实现 可以有参数 可以重载 按钮 1 inherited 继承 from QAbstractButton 1 clicked bool checked f
  • idea2021版本新建web项目(详细教程)

    打开idea右上角的文件 新建项目 选中java模块 下一步 取名 下一步 打开后是个空白 到这一步 右键选中untitled打开添加框架支持 选中web应用程序 一定要勾选创建web xml 然后点击确定 接下来 找到右上角的添加配置 点
  • matplotlib绘图横坐标或纵坐标文本显示不全

    import matplotlib pyplot as plt x 1 2 3 4 y 1 4 9 6 labels Frogs Hogs Bogs Slogs plt plot x y You can specify a rotation
  • unity使用Tcp/UDP协议网络通信实现(Socket简单应用)

    一 TCP协议 服务器端 1 打开vs 创建一个c 的控制台应用程序 代码如下 记得把ip换成自己电脑ip using System using System Collections Generic using System Linq us
  • INS/GNSS组合导航(七)角速度坐标系变换与欧拉角转换

    注意 角速度与角速度率有严格区别 反映在以下两点 正交的三个角速度 角速度矢量 与欧拉角速率之间的关系如下 欧拉角速率并不是纯粹的正交矢量 而是一个与旋转顺序相关而且非正交的三个矢量 积分欧拉角速率得到的是欧拉角的大小 又称卡丹角 积分角速
  • 股票预测_机器学习预测股票

    2 机器学习技术综述 集成多种人工智能系统的机器学习技术尝试通过对历史数据的学习提取数据模式 这一过程被称为训练或学习 其目的在于实现后续基于新数据的预测 Xiao Xiao Lu and Wang 2013 pp 99 100 使用机器学
  • 【Java】类和对象

    前言 面向对象编程的特性 封装 继承 多态 在Java中 最基本的封装单元是类 一个类的定义为具有相似特征对象的一种抽象 根据类的继承 父类只定义各子类所需的属性和方法 多态是类中同一名称的行为 可以有多种不同的功能 文章目录 前言 一 类
  • Mybatis Generator 配置详解

    许多人在Java项目中都会到使用Mybatis Generator这个工具包 这里把这个工具的配置完整列一下 gt
  • spss常态检验_利用SPSS检验数据是否符合正态分布

    利用SPSS检验数据是否符合正态分布 正态分布也叫常态分布 在我们后面说的很多东西都需要数据呈正态分布 下面的图就是正态分布曲线 中间隆起 对称向两边下降 下面我们来看一组数据 并检验 期初平均分 数据是否呈正态分布 此数据已在SPSS里输
  • Sentinel-持久化

    直接使用dashboard和sentinel配置各种规则时 默认是存在了内存中 如果服务器重启那么数据就会丢失 从而Sentinel提供了5中持久化的方式 将各种配置数据进行持久化 若服务器重启就重新加载持久化的数据 防止数据丢失 1 持久
  • 使用adb查看安装包的apk路径与清除安装包数据与缓存操作实例

    adb shell pm path
  • 【Stata】CGSS数据清理:Codebook速成法

    对数据使用者来说 了解一个调查数据基本情况的常见途径就是查看该数据的codebook 对数据所有者 提供方来说 制作一份详细的codebook是其数据管理工作中不可或缺的一环 2016年上半年CGSS项目组把CGSS2003年到CGSS20