Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
自动使用 LRT 评估整个因子变量的显着性
包含一个或多个因子变量的多变量回归模型的 R 输出不会自动包含模型中整个因子变量的显着性的似然比检验 LRT 例如 fake data frame x1 rnorm 100 x2 sample LETTERS 1 4 size 100 re
r
Regression
ANOVA
categoricaldata
r中逻辑回归的分类变量
我如何在 R 中的二元逻辑回归中实现分类变量 我想测试专业领域 学生 工人 教师 个体户 对购买某种产品的概率的影响 在我的示例中 y 是一个二进制变量 1 表示购买产品 0 表示不购买 x1 是性别 0男 1女 x2 年龄 20 到 80
r
LogisticRegression
categoricaldata
pandas cut():如何转换nan?或者将输出转换为非分类输出?
我在带有 nans 的数据帧列上使用 pandas cut 我需要在 pandas cut 的输出上运行 groupby 因此我需要将 nans 转换为其他内容 在输出中 而不是在输入数据中 否则 groupby 会愚蠢且令人恼火地忽略它们
python
pandas
categoricaldata
查找表中第三个四分位数以上的频率
我有一个大数据框架 对 57 个变量的超过 239k 观察值 其中包含一些疾病描述以及针对不同年龄段的人针对这些疾病使用的药物 我想在每种疾病描述的使用频率前四分之一中找到这些药物 为了制作一个可重现的示例 我创建了一个包含 1000 个观
r
Frequency
categoricaldata
contingency
根据日期列过滤并创建列
我有一个样本数据如下 date Deadline 2018 08 01 2018 08 11 2018 09 18 2018 12 08 2018 12 18 我想用代码中描述的条件填写截止日期列 如 1 DL 2 DL 3 DL 等 基于
python
python3x
pandas
categoricaldata
Matplotlib:如何在 y 轴上绘制分类数据?
假设我有以下代码 它来自here https stackoverflow com questions 29508208 best way to plot categorical data answertab active tab top g
python
matplotlib
plot
categoricaldata
Pandas:将类别转换为数字
假设我有一个包含国家 地区的数据框 如下所示 cc temp US 37 0 CA 12 0 US 35 0 AU 20 0 我知道有一个 pd get dummies 函数可以将国家 地区转换为 one hot 编码 但是 我希望将它们转
python
pandas
series
categoricaldata
binning
仅从 tsv 中的列索引生成“特殊”字典结构
想象一下这样一个制表符分隔的文件 9606 1 GO 0002576 TAS platelet degranulation Process 9606 1 GO 0003674 ND molecular function z Function
python
function
csv
Dictionary
categoricaldata
Pandas MultiIndex 按分类顺序自定义排序级别,而不是按字母顺序
我是 Pandas 0 16 1 的新手 并且希望在多索引中进行自定义排序 因此我使用分类 我的多重索引的一部分 Part Defect Own 504 504 504 505 506 507 530 530 530 我创建了具有多索引级别
python
pandas
Sorting
multiindex
categoricaldata
使用 R 中的 ggplot2 在分类散点图中添加水平线
我正在尝试为 3 个组绘制一个简单的散点图 每个组具有不同的水平线 线段 例如 组 a 的 hline 为 3 组 b 的 hline 为 2 5 hline 为组 b c 组为 6 library ggplot2 df lt data f
r
ggplot2
line
categoricaldata
scatter
使用 cut 为时间变量创建 24 个类别
在这里 我导入数据 对其进行一些操作 这可能不是问题 修复所在 前两行设置了我的剪切参数 lab var num lt 0 24 times var lt c 0 100 200 300 400 500 600 700 800 900 10
r
DataFrame
cut
categoricaldata
如何直接使用栅格属性表对栅格进行图例并仅显示栅格中显示的类的图例?
我想使用栅格属性表信息来创建栅格的图例 例如栅格1 https i stack imgur com tgC2P png并仅显示栅格中显示的类的图例 我举了一个例子来解释我想要得到什么 1 构建光栅 r lt raster ncol 10 n
r
Dictionary
legend
Raster
categoricaldata
Scikit-learn 的 LabelBinarizer 与 OneHotEncoder
两者有什么区别 似乎两者都创建了新列 其数量等于特征中唯一类别的数量 然后 他们根据数据点所属的类别将 0 和 1 分配给数据点 下面显示了使用 LabelEncoder OneHotEncoder LabelBinarizer 对数组进行
python
encoding
scikitlearn
datascience
categoricaldata
将 pandas 数据框列映射到字典
我有一个数据框的案例 其中包含高基数的分类变量 许多唯一值 我想将该变量重新编码为一组值 最常见的值 并用一个包罗万象的类别 其他 替换所有其他值 举一个简单的例子 以下是应保持不变的两个值 top values apple orange
python
python3x
pandas
series
categoricaldata
Pandas:分类列和每个类别的行插入
我似乎无法实现插入缺少值的行 同时将一列作为分类 假设以下数据框 df 其中 B 列是分类的 类别应按 d b c a 的顺序出现 df pd DataFrame A i i i j k B pd Categorical d c b b a
python3x
pandas
DataFrame
categoricaldata
使用 groupby 和 Mean() 在 Pandas 中保留一个包含分类变量的列
有没有办法在之后保留分类变量groupby and mean 例如 给定数据框df ratio Metadata A Metadata B treatment 0 54265 937500 B10 1 AB cmpd 01 11 10736
python
pandas
pandasgroupby
categoricaldata
Python 相当于 R 的 cluster 包中的 daisy()
我有一个数据集 其中包含分类 名义和序数 和数字属性 我想使用这些混合属性来计算我的观察结果的 不 相似度矩阵 使用daisy http stat ethz ch R manual R patched library cluster htm
python
r
similarity
categoricaldata
rdaisy
使用“statsmodels”指定将哪个类别视为基础
了解当我将模型中的类别变量传递给statsmodels fit将为类别自动生成虚拟变量 例如 如果我有一个变量 Location 其值为 IndianOcean Thailand China 和 Mars 我将在我的模型中获得以下形式的变量
python
linearregression
StatsModels
categoricaldata
从 pandas 中具有多个值的列创建虚拟对象
我正在寻找一种Python式的方法来处理以下问题 The pandas get dummies 方法非常适合从数据帧的分类列创建虚拟对象 例如 如果该列的值位于 A B get dummies 创建 2 个虚拟变量并相应地分配 0 或 1
python
pandas
dummydata
categoricaldata
词汇分散图是seaborn
我正在使用 seaborn 模块来生成类似于下面示例的图 import pandas as pd import matplotlib pyplot as plt import numpy as np import seaborn as sn
python
pandas
matplotlib
Seaborn
categoricaldata
1
2
3
»