以相同的方式对两个 pandas 数据帧进行采样

2024-01-11

我正在进行机器学习计算,有两个数据帧 - 一个用于因子,另一个用于目标值。我必须将两者分为训练和测试部分。在我看来,我已经找到了方法,但我正在寻找更优雅的解决方案。这是我的代码:

import pandas as pd
import numpy as np
import random

df_source = pd.DataFrame(np.random.randn(5,2),index = range(0,10,2), columns=list('AB'))
df_target = pd.DataFrame(np.random.randn(5,2),index = range(0,10,2), columns=list('CD'))

rows = np.asarray(random.sample(range(0, len(df_source)), 2))

df_source_train = df_source.iloc[rows]
df_source_test = df_source[~df_source.index.isin(df_source_train.index)]
df_target_train = df_target.iloc[rows]
df_target_test = df_target[~df_target.index.isin(df_target_train.index)]

print('rows')
print(rows)
print('source')
print(df_source)
print('source train')
print(df_source_train)
print('source_test')
print(df_source_test)

---- 编辑 - 按单位解决方案(修改)---

np.random.seed(2013)
percentile = .6
rows = np.random.binomial(1, percentile, size=len(df_source)).astype(bool)

df_source_train = df_source[rows]
df_source_test = df_source[~rows]
df_target_train = df_target[rows]
df_target_test = df_target[~rows]

您可以在下面找到我的解决方案,它不涉及任何额外的变量。

  1. Use .sample获取数据样本的方法
  2. Use .index样本方法,获取索引
  3. Apply slice()按索引查找第二个dataframe

例如。 假设您有 X 和 Y,并且您希望每个都获得 10 件样品。当然,它应该是相同的样本

X_sample = X.sample(10)
y_sample = y[X_sample.index]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

以相同的方式对两个 pandas 数据帧进行采样 的相关文章

  • 如何使用固定的 pandas 数据框进行动态 matplotlib 绘图?

    我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度 我想找到一种方法以漂亮的动画风格绘制数据点 以便它显示逐渐加载的所有点 我知道有一个matplotlib animat
  • DreamPie 不适用于 Python 3.2

    我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用 我使用了 添加解释器 DreamPie 应用程序并添加了 Python 3 2
  • pandas 替换多个值

    以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
  • 打破嵌套循环[重复]

    这个问题在这里已经有答案了 有没有比抛出异常更简单的方法来打破嵌套循环 在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签 并且至少继续一个外循环 for x in range 10 fo
  • __del__ 真的是析构函数吗?

    我主要用 C 做事情 其中 析构函数方法实际上是为了销毁所获取的资源 最近我开始使用python 这真的很有趣而且很棒 我开始了解到它有像java一样的GC 因此 没有过分强调对象所有权 构造和销毁 据我所知 init 方法对我来说在 py
  • 从 scikit-learn 导入 make_blobs [重复]

    这个问题在这里已经有答案了 我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
  • 在循环中每次迭代开始时将变量重新分配给原始值(在循环之前定义)

    在Python中 你使用 在每次迭代开始时将变量重新分配给原始值 在循环之前定义 时 也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
  • Python:字符串不会转换为浮点数[重复]

    这个问题在这里已经有答案了 我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
  • 当玩家触摸屏幕一侧时,如何让 pygame 发出警告?

    我使用 pygame 创建了一个游戏 当玩家触摸屏幕一侧时 我想让 pygame 给出类似 你不能触摸屏幕两侧 的错误 我尝试在互联网上搜索 但没有找到任何好的结果 我想过在屏幕外添加一个方块 当玩家触摸该方块时 它会发出警告 但这花了很长
  • Geopandas 设置几何图形:MultiPolygon“等于 len 键和值”的 ValueError

    我有 2 个带有几何列的地理数据框 我将一些几何图形从 1 个复制到另一个 这对于多边形效果很好 但对于任何 有效 多多边形都会返回 ValueError 请指教如何解决这个问题 我不知道是否 如何 为什么应该更改 MultiPolygon
  • 表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

    这个问题在这里已经有答案了 我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
  • Python - 按月对日期进行分组

    这是一个简单的问题 起初我认为很简单而忽略了它 一个小时过去了 我不太确定 所以 我有一个Python列表datetime对象 我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量 也许一个例子可以更好地证明这
  • Numpy 优化

    我有一个根据条件分配值的函数 我的数据集大小通常在 30 50k 范围内 我不确定这是否是使用 numpy 的正确方法 但是当数字超过 5k 时 它会变得非常慢 有没有更好的方法让它更快 import numpy as np N 5000
  • 如何改变Python中特定打印字母的颜色?

    我正在尝试做一个简短的测验 并且想将错误答案显示为红色 欢迎来到我的测验 您想开始吗 是的 祝你好运 法国的首都是哪里 法国 随机答案不正确的答案 我正在尝试将其显示为红色 我的代码是 print Welcome to my Quiz be
  • 为美国东部以外地区的 Cloudwatch 警报发送短信?

    AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议 我想连接我的 CloudWatch 警报并在发生故障时接收短信 但无法将其发送到 SMS YES 经过一番挖掘后 我能够让它发挥作用 它比仅仅选择一个主题或输入闹钟
  • 如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

    给定一个在多个服务器上同时执行的 Django 应用程序 该应用程序如何记录到单个共享日志文件 在网络共享中 而不保持该文件以独占模式永久打开 当您想要利用日志流时 这种情况适用于 Windows Azure 网站上托管的 Django 应
  • 对输入求 Keras 模型的导数返回全零

    所以我有一个 Keras 模型 我想将模型的梯度应用于其输入 这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
  • 在python中,如何仅搜索所选子字符串之前的一个单词

    给定文本文件中的长行列表 我只想返回紧邻其前面的子字符串 例如单词狗 描述狗的单词 例如 假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下 期望
  • Spark.read 在 Databricks 中给出 KrbException

    我正在尝试从 databricks 笔记本连接到 SQL 数据库 以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
  • Python:元类属性有时会覆盖类属性?

    下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

  • 如何在mp3上实现seek

    我即将进入一个涉及解码 播放 mp3 流的项目 我有一个Java解码器 JLayer 但据我所知它没有搜索功能 我不使用内置播放器 我需要实现我自己的播放器 另外 流是加密的 所以我需要实时解密 解码 不能拥有整个解密文件 那么如何在 mp
  • 我们可以为“Skype for Business”构建 Skype 机器人吗?

    我见过与 Skype 一起使用的机器人编程示例 是否可以使用 Microsoft 的机器人 认知服务工具 框架开发在 Skype for Business 上运行的企业机器人 Skype for Business 尚不支持机器人框架 htt
  • 使用Python对文件夹中的每个文件执行命令

    我正在尝试创建一个Python脚本来 查看文件夹 input 对于该文件夹中的每个视频 运行 mencoder 命令 将它们转码为可在我的手机上播放的内容 mencoder 完成运行后 删除原始视频 这看起来不太难 但我很喜欢 python
  • 当这个通用约束看起来有循环引用时,为什么它会编译

    我在 csharp 中为 MVCContrib Html 帮助器编写了一个扩展方法 并对通用约束的形式感到惊讶 从表面上看 它似乎通过类型参数循环引用自身 也就是说 该方法可以根据需要进行编译和工作 我很乐意有人解释为什么这样做有效 以及是
  • Windows 10 UWP 中的电话

    目前 我找到了 Windows ApplicationModel Calls API 无法拨打电话或启动可用于从我的应用程序拨打电话的不同选项 我也尝试了这个代码 但仍然无法实现电话呼叫功能 UWP有什么解决方案吗 谢谢 if ApiInf
  • 两个 div 中的段落对齐方式,中间有图像

    我怎样才能对齐我的段落 如下图所示 我需要展示一份报纸之类的东西 其中应该包含此内容 以下是我正在使用的html代码 div class left div div class right div div class myImage img
  • PHP 中的字符串解析

    我正在尝试用 PHP 解析一个字符串 father name John father weight 44 50 kid gt name Marko gt age 12 kid gt name Sevda gt age 17 kid gt n
  • 如何在R中将槽的默认值设置为NULL?

    我是 R 新手 我试图定义一个类似于树节点的类 也就是说 它有一个左节点和右节点 它应该与父节点属于同一类 所以我将类定义如下 setClass Node representation left Node right Node 我想通过设置
  • Python - 服务器从两个 UDP 套接字监听

    我是 Python 新手 而且我无法让服务器同时监听两个端口 这是我到目前为止编写的代码 sock client1 socket socket socket AF INET Internet socket SOCK DGRAM UDP so
  • 如何用Xcode修改并行编译数量

    使用 XCode 构建 C 项目时如何更改并行编译的数量 我不是在谈论分布式构建 而是在一台计算机上同时编译来自单个项目的一组源文件 当前使用Xcode 3 2 4 Thanks 对于 Xcode 4 您必须设置 IDEBuildOpera
  • 通过 ReactJS 访问 JSON 中的数组

    我使用 ReactJS 从 JSON 文件获取数据
  • 如何在 pygame 中从图像中剪切圆形(或任何非矩形)?

    我正在使用 Pygame 并有一个图像 我可以从中剪出一个矩形 image pygame transform scale pygame image load example png 32 32 handle surface image co
  • 使用onDraw扩展android按钮

    我想更改按钮形状但我想使用 onDaw 方法和扩展按钮班级 所以我刚开始做的是
  • 如何在QT中访问父控件指针

    我有一个类似这样的代码 Window Window QStackedWidget centralApp new QStackedWidget QWidget1 wgt1 QWidget1 QWidget2 wgt2 QWidget2 QWi
  • 添加片段时从汉堡包到箭头图标的过渡动画

    我已经实现了主 细节流程 我想在添加片段后获得从汉堡包图标到箭头图标的过渡动画 与打开导航抽屉时的动画相同 我正在使用如下代码 protected void onCreate Bundle savedInstanceState super
  • BigQuery - 如何比较“日期”列(使用旧版 SQL)?

    我有一个包含一列的 BigQuery 表Date这是一个date类型 我正在尝试运行此查询 SELECT FROM dataset table name WHERE Date 2016 07 11 这会引发错误 Argument type
  • 高级 HTML Agility Pack 使用

    我对 HTML Agility Pack 还很陌生 因此我需要一些帮助来了解下一步该做什么 我可以做一些简单的事情 比如从 href 中提取一个值 知道我正在寻找的 url 字符串 并且我可以根据正在使用的特定类来提取跨度中的值 但我不明白
  • Mysql将列名从“group”更改为“group_code”

    我将列名设置为 group 结果发现这是一个保留字 现在我尝试将名称更改为 group code 但出现错误 我尝试 ALTER TABLE task values CHANGE group group code VARCHAR 40 NO
  • 按照与另一个数组相同的顺序对一个数组进行排序

    我有一些像这样的 50 多个名字的数组 dan ryan bob steven corbin bob dan steven corbin 我有另一个顺序正确的数组 请注意 上面的第二个数组并不包含所有名称 但我仍然希望它遵循以下顺序 rya
  • 以相同的方式对两个 pandas 数据帧进行采样

    我正在进行机器学习计算 有两个数据帧 一个用于因子 另一个用于目标值 我必须将两者分为训练和测试部分 在我看来 我已经找到了方法 但我正在寻找更优雅的解决方案 这是我的代码 import pandas as pd import numpy