有效地将 pandas 数据帧转换为 h2o 帧

2024-02-09

我有一个 Pandas 数据框，其中有Encoding: latin-1并由以下分隔;。数据框非常大，几乎是size: 350000 x 3800。我最初想使用 sklearn 但我的数据框缺少值（NAN values）所以我无法使用 sklearn 的随机森林或 GBM。所以我不得不使用H2O's用于训练数据集的分布式随机森林。主要问题是当我这样做时数据帧没有有效转换h2o.H2OFrame(data)。我检查了提供编码选项的可能性，但文档中没有任何内容。

有人对此有什么想法吗？任何线索都可以帮助我。我还想知道是否有其他库（例如 H2O）可以非常有效地处理 NAN 值？我知道我们可以估算列，但我不应该在我的数据集中这样做，因为我的列是来自不同传感器的值，如果值不存在则意味着传感器不存在。我只能使用Python

import h2o
import pandas as pd

df = pd.DataFrame({'col1': [1,1,2], 'col2': ['César Chávez Day', 'César Chávez Day', 'César Chávez Day']})
hf = h2o.H2OFrame(df)

由于您面临的问题是由于数据集中的 NAN 数量较多，因此应该首先处理这个问题。有两种方法可以做到这一点。

Replace NAN有一个明显超出范围的值。前任。如果某个功能在 0-1 之间变化，则替换所有功能NAN该功能为 -1。
使用类Imputer http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html处理 NAN 值。这将取代NAN具有该特征的均值、中位数或众数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有效地将 pandas 数据帧转换为 h2o 帧的相关文章

如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
无法“安装”plpython3u - postgresql

我正在尝试在 postgresql 中使用 python 语言像这样的事情 create or replace function test a integer returns integer as if a 2 0 return even
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O

随机推荐

CloudKit：“内部错误”(1/4000)； “无法获取签名证书”>

我在模拟器上运行该应用程序工作正常但一旦在 iPhone 设备上它就会崩溃 DiscoverUserInfo 中发生错误 discoveryUserInfo 是从下面的 Apple CloudKit 示例代码中复制的代码这是苹果的事
Grails 3 schemaExport 包含查找 sitemesh.xml 的 FileNotFoundException 警告

When 模式导出使用 Grails 3 3 应用程序的 Gradle 执行但日志中存在以下警告ddl sql被建造根据 Grails 3 文档 sitemesh xml 已被删除因此该文件自然不可用我错过了什么吗工具和版本 Gr
告诉 SCons 不要自动创建目录？

我正在尝试让 SCons 查看我需要的 git 存储库并希望使该存储库保持最新问题是我必须告诉它 git 存储库包含哪些文件才能在构建中使用它们如果我这样做 SCons 将在尝试克隆存储库之前创建存储库例如假设我想克隆 GStre
我可以在虚拟机中运行 Docker 吗？

我尝试在虚拟机上运行 Docker Host MacBook VM Parallels Windows 7 并且出现错误是否可以如果虚拟机是 Linux 那么您可以毫无问题地执行此操作在 Linux 上 Docker 本质上是一个运行
在 CMake 中设置 MSVC 运行时

我按照 CMake 常见问题解答条目中的说明进行操作如何使用静态运行时构建我的 MSVC 应用程序 https gitlab kitware com cmake community wikis FAQ how can i build my
Pandas：读取 CSV：ValueError：无法将字符串转换为浮点数

我正在尝试使用 pandas read csv 读取大型且复杂的 CSV 文件确切的命令是 pd read csv 文件名 quotechar low memory True dtype data types usecols 列 true
如何将值从类传递到活动 - Android

我有一个关于课程任务活动的新手问题我来自 C 所以我不知道这是否是满足我需要的好方法我创建了一个类 public class UDPServer private MyDatagramReceiver myDatagramReceiv
当我们在 logback-test.xml 中将日志级别设置为“DEBUG”运行时，出现“Java Heap”内存问题

Getting Java Heap当我们在 logback test xml 中运行日志级别为 DEBUG 的功能时出现内存问题我们已经运行了大约 400 个功能你能帮忙解决这个问题吗它的 Maven 项目请升级到0 9 0版本
HttpRoutePlanner - 它如何与 HTTPS 代理一起工作

我设置了 HTTPS 代理以便 HTTP 客户端可以安全地将纯 HTTP 请求发送到代理例如客户端可以向代理发送加密的 HTTP GET 请求代理将删除加密并将纯 HTTP GET 请求发送到最终站点我了解到这不是常见的设置只有
AspNet Core 集成测试，将参数传递给 WebApplicationFactory

我有设计为独立的应用程序aspnet core webapi自托管可执行文件要启动可执行文件必须将配置文件路径作为命令行参数传递例如MyServer exe config path to config file 我想通过集成测试来测试
识别属性的值是一个数组

我有一个 JSON 文件 abn 63119059513 acn 119059513 business structure Private Company ngr number 1231231 cbh number 1231231 main
在 R 中快速重命名相似名称的多个列

当我创建数据框时我有一组 43 个变量列默认命名为 X1 X2 X3 X46 我需要用 Q 替换 X 在 R 中是否有更快的方法来执行此操作或者我必须在每个 X 上单独使用 rename 请帮助我想学习实现这一目标的有效方法我是
R levelplot 调整轴

我想使用 lattice 包的 levelplot 函数将概率分布函数 PDF 绘制为 R 中的热图我将 PDF 实现为函数然后使用值范围和外部函数的两个向量生成水平图的矩阵我希望轴显示我的问题是无法在两个轴上添加适当间隔的刻度线分
SQL 连接表最大数量的限制是否适用于整个查询，还是子查询单独计算？

我读过有关61 个表连接限制 http dev mysql com doc refman 5 0 en joins limits html在 MySQL 5 中但我不确定它如何应用于以下内容 SELECT FROM SELECT FROM
在 C# 中，术语“原始”和“文字”可以互换吗？

今天早些时候的一次讨论让我质疑我对原语和文字的理解是否正确我的理解是文字类型是一种特殊的类型可以使用人类和编译器都可以理解的表示法来赋值而无需特定的类型声明 var firstName John John is literal va
以编程方式从 WPF 中的代码隐藏中删除删除线文本装饰

我在 WPF 桌面应用程序中实现以下行为时遇到问题我从代码后面动态创建 TextBlock 并将它们插入到 StackPanel 中到目前为止这有效当用户将鼠标移动到 TextBlock 上时应将删除线应用于文本块表示点击该项目即
XAML 到 HTML 的转换 - WPF RichTextBox

我遇到的问题是我有一个 WPF RichTextBox 并且我正在提取其 XAML 代码并将其保存到 txt 文件当我将生成的 XAML 代码复制粘贴到 XAMLtoHTML 转换器时如下所示http blogs msdn com w
javascript 对象字面量 - 嵌套函数和“this”关键字

在下面的例子中当functionA 被调用时 this关键字引用包含对象因此我可以访问它的属性例如theValue 我的问题我如何引用的属性myObj从内部nested functionB var myObj theValue Th
我的 Github 存储库有“主”和“主”分支 - 它们的用途是什么？

出于可访问性的原因我试图将一些本地未版本控制的代码推送到存储库中并将其发布到 GitHub 上我听从了建议here https stackoverflow com questions 3311774 how to convert exi
有效地将 pandas 数据帧转换为 h2o 帧

我有一个 Pandas 数据框其中有Encoding latin 1并由以下分隔数据框非常大几乎是size 350000 x 3800 我最初想使用 sklearn 但我的数据框缺少值 NAN values 所以我无法使用 sklea

有效地将 pandas 数据帧转换为 h2o 帧

有效地将 pandas 数据帧转换为 h2o 帧 的相关文章

随机推荐

热门标签

有效地将 pandas 数据帧转换为 h2o 帧的相关文章