基于 Python 中较小的数据集生成较大的综合数据集

2023-12-30

我有一个包含 21000 行（数据样本）和 102 列（特征）的数据集。我希望根据当前数据集生成一个更大的合成数据集，例如 100000 行，这样我就可以将其用于机器学习目的。

我在这篇文章中提到了 @Prashant 的答案https://stats.stackexchange.com/questions/215938/generate-synthetic-data-to-match-sample-data https://stats.stackexchange.com/questions/215938/generate-synthetic-data-to-match-sample-data，但我无法让它为我的数据生成更大的合成数据集。

import numpy as np
from random import randrange, choice
from sklearn.neighbors import NearestNeighbors
import pandas as pd
#referring to https://stats.stackexchange.com/questions/215938/generate-synthetic-data-to-match-sample-data


df = pd.read_pickle('df_saved.pkl')
df = df.iloc[:,:-1] # this gives me df, the final Dataframe which I would like to generate a larger dataset based on. This is the smaller Dataframe with 21000x102 dimensions.


def SMOTE(T, N, k):
# """
# Returns (N/100) * n_minority_samples synthetic minority samples.
#
# Parameters
# ----------
# T : array-like, shape = [n_minority_samples, n_features]
#     Holds the minority samples
# N : percetange of new synthetic samples:
#     n_synthetic_samples = N/100 * n_minority_samples. Can be < 100.
# k : int. Number of nearest neighbours.
#
# Returns
# -------
# S : array, shape = [(N/100) * n_minority_samples, n_features]
# """
    n_minority_samples, n_features = T.shape

    if N < 100:
       #create synthetic samples only for a subset of T.
       #TODO: select random minortiy samples
       N = 100
       pass

    if (N % 100) != 0:
       raise ValueError("N must be < 100 or multiple of 100")

    N = N/100
    n_synthetic_samples = N * n_minority_samples
    n_synthetic_samples = int(n_synthetic_samples)
    n_features = int(n_features)
    S = np.zeros(shape=(n_synthetic_samples, n_features))

    #Learn nearest neighbours
    neigh = NearestNeighbors(n_neighbors = k)
    neigh.fit(T)

    #Calculate synthetic samples
    for i in range(n_minority_samples):
       nn = neigh.kneighbors(T[i], return_distance=False)
       for n in range(N):
          nn_index = choice(nn[0])
          #NOTE: nn includes T[i], we don't want to select it
          while nn_index == i:
             nn_index = choice(nn[0])

          dif = T[nn_index] - T[i]
          gap = np.random.random()
          S[n + i * N, :] = T[i,:] + gap * dif[:]

    return S

df = df.to_numpy()
new_data = SMOTE(df,50,10) # this is where I call the function and expect new_data to be generated with larger number of samples than original df.

我得到的错误的回溯如下所述：-

Traceback (most recent call last):
  File "MyScript.py", line 66, in <module>
    new_data = SMOTE(df,50,10)
  File "MyScript.py", line 52, in SMOTE
    nn = neigh.kneighbors(T[i], return_distance=False)
  File "/trinity/clustervision/CentOS/7/apps/anaconda/4.3.31/3.6-VE/lib/python3.5/site-packages/sklearn/neighbors/base.py", line 393, in kneighbors
    X = check_array(X, accept_sparse='csr')
  File "/trinity/clustervision/CentOS/7/apps/anaconda/4.3.31/3.6-VE/lib/python3.5/site-packages/sklearn/utils/validation.py", line 547, in check_array
    "if it contains a single sample.".format(array))
ValueError: Expected 2D array, got 1D array instead:

我知道这个错误（预期的二维数组，得到一维数组）发生在线路上nn = neigh.kneighbors(T[i], return_distance=False)。准确地说，当我调用该函数时，T 是numpy形状数组 (21000x102)，我从 Pandas Dataframe 转换为numpy大批。我知道这个问题可能有一些类似的重复项，但没有一个回答我的问题。在这方面的任何帮助将不胜感激。

所以 T[i] 给出的是一个形状为 (102, ) 的数组。

该函数期望的是形状为 (1, 102) 的数组。

您可以通过调用 reshape 来获得它：

nn = neigh.kneighbors(T[i].reshape(1, -1), return_distance=False)

如果您不熟悉 np.reshape，1 表示第一个维度应为 1，而 -1 表示第二个维度应为 numpy 可以广播到的任何大小；在本例中为原始 102。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于 Python 中较小的数据集生成较大的综合数据集的相关文章

Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

无法理解字符串排列 Java 代码

我有这个工作代码可以打印字符串排列而无需重复但无法理解它在逻辑上是如何工作的任何建议都会非常有帮助 private static void permutation String input String sofar if input e
使用 AutoMapper 和 DI 容器实例化类型

请看下面的代码 public class Test ITest public ITest2 iTest2 public int id public string name public Test ITest2 test2 iTest2 te
JPQL avg 聚合函数是否适用于整数？

我有一个名为的 JPA 2 实体Surgery 它有一个名为输血单位那是一个Integer 数据库中有两个条目执行此 JPQL 语句 Select s transfusionUnits from Surgery s 产生预期结果 2 3
如果在多台计算机上使用 Test-Connection 和 -Quiet，我如何知道哪个结果适用于哪台计算机？

如果在多台计算机上使用 Test Connection 和 Quiet 我如何知道哪个结果适用于哪台计算机 e g computers PC1 PC2 PC3 results Test Connection ComputerName com
为什么这些错误属性不显示在键下？

看来是从Object getOwnPropertyNames 与 Object keys https stackoverflow com questions 22658488 object getownpropertynames vs ob
代码运行时的 ASP.NET 应用程序日志/进度条

我正在我的 ASP 表单 Web 应用程序中构建 OCR 扫描模块您可能知道这样的操作可能需要一些时间因此我使用后台服务应用程序来响应运行代码的消息队列因此用户甚至不必停留在同一网页上我想做的是通知用户服务运行时发生了什么如果
如何使用 CSS 反转颜色？

HTML div p inverted color p div CSS div background color f00 p color how to use inverted color here in relation with div
Rust 中的严格别名？

我的理解是由于所谓的严格别名规则以下代码在 C 中具有未定义的行为 include
C++ 中条件变量的常见用途是什么？

我正在尝试了解条件变量我想知道使用条件变量的常见情况有哪些一个示例是在阻塞队列中其中有两个线程访问队列生产者线程将一个项目推入队列而消费者线程从队列中弹出一个项目如果队列为空则消费者线程将等待直到生产者线程发送信号还有哪些
如何在Python中获取方法名称

我一直在尝试获取此方法中的方法名称我在堆栈上发现了关于获取名称的类似问题function https stackoverflow com questions 251464 how to get a function name as a s
StringBuilder 附加 vs +

这两行有什么区别 stringBuilder append Text counter more text stringBuilder append Text append counter append more text 假设 counte
我无法从 vscode 访问 github 存储库

我是 Git 新手我尝试将其与 VSCode 集成但出现此错误 git clone https github com vijaypatneedi DS git f VS Code DSA DS Cloning into f VS Cod
如何告诉 PyTorch 不使用 GPU？

我想在 CPU 和 GPU 之间进行一些时序比较以及一些分析并且想知道是否有办法区分pytorch questions tagged pytorch不使用GPU而只使用CPU 我意识到我可以安装另一个仅 CPUpytorch questi
Django 模板/视图与轮播的问题

好的交易是这样的这就是我目前正在做的事情看到顶部的两个箭头了吗这就是图片轮播应该在的地方然而这个轮播中没有图片也就是说直到我单击上传按钮所以我的目标是在我点击上传按钮之前让图片出现在第一页上我该如何解决这个问题
mongo dbname --eval 'db.collection.find()' 不起作用

为什么这有效 mongo dbname MongoDB shell version 1 8 3 connecting to nextmuni staging gt db collection find foo bar gt bye 虽然这不
--disable-web-security 在 Chrome 中工作吗？

我正在尝试做一个简单的测试而不更改任何涉及的服务器端代码跨域 https developer mozilla org en US docs Web HTTP CORS AJAX调用 https www w3schools com xml
如何使用cached_network_image预加载图像？

我刚刚实现了 Flutter包cached network image我想知道如何预加载图像以便稍后可以立即使用它们我从我们的服务器检索稍后将使用的所有图像网址我已经定义了自定义缓存管理器 getter class LocalCach
如何在 Linux 中针对分段错误生成核心转储？

我的 Linux 中有一个进程出现分段错误我怎样才能告诉它在失败时生成核心转储这取决于您使用的 shell 如果您使用的是 bash 则 ulimit 命令控制与程序执行相关的多个设置例如是否应该转储核心如果您输入 ulimit c
仅当属性为 null 时，如何从 lombok 构建器中排除该属性

我有一个用户模型类如下所示 JsonSerialize Getter Setter FieldDefaults level AccessLevel PRIVATE Builder public class User Default Str
基于 Python 中较小的数据集生成较大的综合数据集

我有一个包含 21000 行数据样本和 102 列特征的数据集我希望根据当前数据集生成一个更大的合成数据集例如 100000 行这样我就可以将其用于机器学习目的我在这篇文章中提到了 Prashant 的答案https sta

基于 Python 中较小的数据集生成较大的综合数据集

基于 Python 中较小的数据集生成较大的综合数据集 的相关文章

随机推荐

热门标签

基于 Python 中较小的数据集生成较大的综合数据集的相关文章