categoricaldata

自动使用 LRT 评估整个因子变量的显着性

包含一个或多个因子变量的多变量回归模型的 R 输出不会自动包含模型中整个因子变量的显着性的似然比检验 LRT 例如 fake data frame x1 rnorm 100 x2 sample LETTERS 1 4 size 100 re

r Regression ANOVA categoricaldata

r中逻辑回归的分类变量

我如何在 R 中的二元逻辑回归中实现分类变量我想测试专业领域学生工人教师个体户对购买某种产品的概率的影响在我的示例中 y 是一个二进制变量 1 表示购买产品 0 表示不购买 x1 是性别 0男 1女 x2 年龄 20 到 80

r LogisticRegression categoricaldata

pandas cut()：如何转换nan？或者将输出转换为非分类输出？

我在带有 nans 的数据帧列上使用 pandas cut 我需要在 pandas cut 的输出上运行 groupby 因此我需要将 nans 转换为其他内容在输出中而不是在输入数据中否则 groupby 会愚蠢且令人恼火地忽略它们

python pandas categoricaldata

查找表中第三个四分位数以上的频率

我有一个大数据框架对 57 个变量的超过 239k 观察值其中包含一些疾病描述以及针对不同年龄段的人针对这些疾病使用的药物我想在每种疾病描述的使用频率前四分之一中找到这些药物为了制作一个可重现的示例我创建了一个包含 1000 个观

r Frequency categoricaldata contingency

根据日期列过滤并创建列

我有一个样本数据如下 date Deadline 2018 08 01 2018 08 11 2018 09 18 2018 12 08 2018 12 18 我想用代码中描述的条件填写截止日期列如 1 DL 2 DL 3 DL 等基于

python python3x pandas categoricaldata

Matplotlib：如何在 y 轴上绘制分类数据？

假设我有以下代码它来自here https stackoverflow com questions 29508208 best way to plot categorical data answertab active tab top g

python matplotlib plot categoricaldata

Pandas：将类别转换为数字

假设我有一个包含国家地区的数据框如下所示 cc temp US 37 0 CA 12 0 US 35 0 AU 20 0 我知道有一个 pd get dummies 函数可以将国家地区转换为 one hot 编码但是我希望将它们转

python pandas series categoricaldata binning

仅从 tsv 中的列索引生成“特殊”字典结构

想象一下这样一个制表符分隔的文件 9606 1 GO 0002576 TAS platelet degranulation Process 9606 1 GO 0003674 ND molecular function z Function

python function csv Dictionary categoricaldata

Pandas MultiIndex 按分类顺序自定义排序级别，而不是按字母顺序

我是 Pandas 0 16 1 的新手并且希望在多索引中进行自定义排序因此我使用分类我的多重索引的一部分 Part Defect Own 504 504 504 505 506 507 530 530 530 我创建了具有多索引级别

python pandas Sorting multiindex categoricaldata

使用 R 中的 ggplot2 在分类散点图中添加水平线

我正在尝试为 3 个组绘制一个简单的散点图每个组具有不同的水平线线段例如组 a 的 hline 为 3 组 b 的 hline 为 2 5 hline 为组 b c 组为 6 library ggplot2 df lt data f

r ggplot2 line categoricaldata scatter

使用 cut 为时间变量创建 24 个类别

在这里我导入数据对其进行一些操作这可能不是问题修复所在前两行设置了我的剪切参数 lab var num lt 0 24 times var lt c 0 100 200 300 400 500 600 700 800 900 10

r DataFrame cut categoricaldata

如何直接使用栅格属性表对栅格进行图例并仅显示栅格中显示的类的图例？

我想使用栅格属性表信息来创建栅格的图例例如栅格1 https i stack imgur com tgC2P png并仅显示栅格中显示的类的图例我举了一个例子来解释我想要得到什么 1 构建光栅 r lt raster ncol 10 n

r Dictionary legend Raster categoricaldata

Scikit-learn 的 LabelBinarizer 与 OneHotEncoder

两者有什么区别似乎两者都创建了新列其数量等于特征中唯一类别的数量然后他们根据数据点所属的类别将 0 和 1 分配给数据点下面显示了使用 LabelEncoder OneHotEncoder LabelBinarizer 对数组进行

python encoding scikitlearn datascience categoricaldata

将 pandas 数据框列映射到字典

我有一个数据框的案例其中包含高基数的分类变量许多唯一值我想将该变量重新编码为一组值最常见的值并用一个包罗万象的类别其他替换所有其他值举一个简单的例子以下是应保持不变的两个值 top values apple orange

python python3x pandas series categoricaldata

Pandas：分类列和每个类别的行插入

我似乎无法实现插入缺少值的行同时将一列作为分类假设以下数据框 df 其中 B 列是分类的类别应按 d b c a 的顺序出现 df pd DataFrame A i i i j k B pd Categorical d c b b a

python3x pandas DataFrame categoricaldata

使用 groupby 和 Mean() 在 Pandas 中保留一个包含分类变量的列

有没有办法在之后保留分类变量groupby and mean 例如给定数据框df ratio Metadata A Metadata B treatment 0 54265 937500 B10 1 AB cmpd 01 11 10736

python pandas pandasgroupby categoricaldata

Python 相当于 R 的 cluster 包中的 daisy()

我有一个数据集其中包含分类名义和序数和数字属性我想使用这些混合属性来计算我的观察结果的不相似度矩阵使用daisy http stat ethz ch R manual R patched library cluster htm

python r similarity categoricaldata rdaisy

使用“statsmodels”指定将哪个类别视为基础

了解当我将模型中的类别变量传递给statsmodels fit将为类别自动生成虚拟变量例如如果我有一个变量 Location 其值为 IndianOcean Thailand China 和 Mars 我将在我的模型中获得以下形式的变量

python linearregression StatsModels categoricaldata

从 pandas 中具有多个值的列创建虚拟对象

我正在寻找一种Python式的方法来处理以下问题 The pandas get dummies 方法非常适合从数据帧的分类列创建虚拟对象例如如果该列的值位于 A B get dummies 创建 2 个虚拟变量并相应地分配 0 或 1

python pandas dummydata categoricaldata

词汇分散图是seaborn

我正在使用 seaborn 模块来生成类似于下面示例的图 import pandas as pd import matplotlib pyplot as plt import numpy as np import seaborn as sn

python pandas matplotlib Seaborn categoricaldata