LabelEncoder 将缺失值保留为“NaN”

2023-11-21

我正在尝试使用标签编码器将分类数据转换为数值。

我需要一个 LabelEncoder 将缺失值保留为“NaN”，以便之后使用 Imputer。所以我想在像这样标记后使用掩码来替换原始数据框

df = pd.DataFrame({'A': ['x', np.NaN, 'z'], 'B': [1, 6, 9], 'C': [2, 1, np.NaN]})


    A   B   C
0   x   1   2.0
1   NaN 6   1.0
2   z   9   NaN


dfTmp = df
mask = dfTmp.isnull()

       A    B   C
0   False   False   False
1   True    False   False
2   False   False   True

所以我得到一个具有真/假值的数据框

然后，创建编码器：

df = df.astype(str).apply(LabelEncoder().fit_transform)

那么我该如何继续，以便对这些值进行编码？

thanks

第一个问题是：您希望单独对每一列进行编码还是使用一种编码对所有列进行编码？

表达方式df = df.astype(str).apply(LabelEncoder().fit_transform)意味着您单独对所有列进行编码。

That case you can do the following:
df = df.apply(lambda series: pd.Series(
    LabelEncoder().fit_transform(series[series.notnull()]),
    index=series[series.notnull()].index
))
print(df)
Out:
     A  B    C
0  0.0  0  1.0
1  NaN  1  0.0
2  1.0  2  NaN

下面解释它是如何工作的。但是，首先，我将介绍该解决方案的一些缺点。

缺点
首先，存在混合类型的列：如果列包含NaN值，那么列有一个类型float，因为 nan 是 python 中的浮点数。

df.dtypes
A    float64
B      int64
C    float64
dtype: object

对于标签来说似乎毫无意义。好的，稍后您可以忽略所有 nan，并将其余部分转换为整数。

第二点是：可能你需要记住一个LabelEncoder- 因为通常需要进行逆变换等操作。但是这个解决方案不记住编码器，你没有这样的变量。

一个简单、明确的解决方案是：

encoders = dict()

for col_name in df.columns:
    series = df[col_name]
    label_encoder = LabelEncoder()
    df[col_name] = pd.Series(
        label_encoder.fit_transform(series[series.notnull()]),
        index=series[series.notnull()].index
    )
    encoders[col_name] = label_encoder

print(df)
Out:
     A  B    C
0  0.0  0  1.0
1  NaN  1  0.0
2  1.0  2  NaN

- 更多代码，但结果是相同的

print(encoders)
Out
{'A': LabelEncoder(), 'B': LabelEncoder(), 'C': LabelEncoder()}

- 此外，还可以使用编码器。逆变换（也应该删除之前的 nan！）：

encoders['B'].inverse_transform(df['B'])
Out:
array([1, 6, 9])

此外，一些选项（例如编码器的某些注册表超类）也可用，它们与第一个解决方案兼容，但更容易迭代列。

怎么运行的

The df.apply(lambda series: ...)应用一个返回的函数pd.Series到每一列；因此，它返回一个包含新值的数据帧。

逐步表达：

pd.Series(
    LabelEncoder().fit_transform(series[series.notnull()]),
    index=series[series.notnull()].index
)

- series[series.notnull()] drop NaN值，然后将其余的输入到fit_transform.

- 当标签编码器返回一个numpy.array并抛出一个索引，index=series[series.notnull()].index恢复它以正确连接它。如果不做索引：

print(df)
Out:
     A  B    C
0    x  1  2.0
1  NaN  6  1.0
2    z  9  NaN
df = df.apply(lambda series: pd.Series(
    LabelEncoder().fit_transform(series[series.notnull()]),
))
print(df)
Out:
     A  B    C
0  0.0  0  1.0
1  1.0  1  0.0
2  NaN  2  NaN

- 价值观从正确的位置转移 - 甚至IndexError可能发生。

所有列均采用单一编码器

在这种情况下，堆栈数据帧，适合编码器，然后取消堆栈

series_stack = df.stack().astype(str)
label_encoder = LabelEncoder()
df = pd.Series(
    label_encoder.fit_transform(series_stack),
    index=series_stack.index
).unstack()
print(df)
Out:
     A    B    C
0  5.0  0.0  2.0
1  NaN  3.0  1.0
2  6.0  4.0  NaN

- 作为series_stack is pd.Series含有NaN的，DataFrame 中的所有值都是浮点数，因此您可能更愿意对其进行转换。

希望能帮助到你。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

LabelEncoder 将缺失值保留为“NaN” 的相关文章

如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视

随机推荐

混淆或保护 .Net 程序集的最佳方法[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我正在寻找一种技术或工具我们可以用它来混淆或以某种方式保护我们编译的 C 代码目标不是为了用户数据安全而是阻碍我们软件中某些技术的逆向工程这不适用于网络而是用于桌面应用程
可以阻止 cin 等待输入吗？

在图形应用程序中我使用控制台输入执行调试命令创建控制台时还会创建一个新线程来收集处理所有输入的用户命令图形应用程序将继续并行运行我使用 boost thread 库到目前为止效果很好但是我还没有找到一个很好的解决方案来停止该线
使用 imagerotate() 旋转图像后如何获得新的宽度和高度？

如何实际获取图像旋转后设置的新宽度和高度 ps product angle 77 Could be any angle filename test png filename to the original product list sour
如何在 Django 视图中最好地启动异步作业请求？

我的视图功能之一是一个非常长的处理工作显然需要以不同的方式处理最好不要让用户等待很长时间最好是我能够午餐处理处理作业该处理作业将通过电子邮件发送结果并且无需等待完成即可通知用户他们的请求正在处理并让他们继续浏览我知道我可以使用
C++中的函数指针赋值和调用？

我知道当我们使用函数名称作为值时该函数会自动转换为指针看下面的代码 int print int a return a int main int p int print int q int print cout lt lt p 8 lt
PHP 正则表达式验证字母和西班牙口音

我如何添加临时修改我的代码以便除了正常字母表 a z 之外西班牙口音也被视为有效我的代码中有以下内容 public static function IsAlpha s reg a z s i count preg match reg
在Python中删除字符串中间的连续字符[重复]

这个问题在这里已经有答案了从字节转换为字符串后 Google 地图 API 的标准返回值如下所示 b n destination addresses Washington DC USA n origin addresses New Yor
在 java (JSP) 中提取 .tar.gz 文件

我似乎无法导入所需的包或找到任何有关如何提取的在线示例 tar gzjava 中的文件更糟糕的是我正在使用 JSP 页面并且在将包导入到我的项目中时遇到问题我正在将 jar 复制到WebContent WEB INF lib 然后右键
Typescript 方法装饰器

我有这个代码 function changeFunc return function target any title string descriptor PropertyDescriptor descriptor value functi
Python 不向多个地址发送电子邮件

我看不出我哪里出了问题我希望有人能发现这个问题我想向多个地址发送电子邮件但是它仅将其发送到列表中的第一个电子邮件地址而不是同时发送到两者这是代码 import smtplib from smtplib import SMTP r
检测用户所做的屏幕分辨率更改（Java Listener？）

我有一个 Java 应用程序可以启动创建 GUI 并且运行良好如果用户更改屏幕分辨率从 1440x900 切换到 1280x768 我希望能够侦听该事件有任何想法吗 PS 我想在事件侦听器模式下执行此操作而不是在轮询模式下执行
sbt-assemble 包括测试类

我跟随sbt assemble 包括测试类来自中描述的配置https github com sbt sbt assemble组装工作正常当我加载 sbt 时我得到 assembly sbt 5 error reference to jar
卸载动态库需要两次 dlclose() 调用？

我有一个动态库我使用它加载dlopen 然后使用卸载dlclose 如果我不包含任何目标 C 代码dlopen 需要一个dlclose 调用这是预期的行为但是当我包含任何目标 c 代码作为目标时我遇到的问题是我需要做两件事dlclos
无法在 Eclipse 中创建新的 FXML 文件

当我尝试在 Eclipse 中创建一个新的 FXML 文件文件 gt 新建 gt 其他 gt JavaFX 新的 FXML 文档 gt 下一步时什么也没有发生它不创建文件当我尝试创建 FXGraph 或 JavaFX HTML 模
使用.NET Core从Azure表存储中检索前n条记录

是否可以使用 C 从 Azure 表存储中检索前 n 条记录我正在使用 NET Core 如果我也能得到一些参考资料那就太好了请注意我的所有实体都是使用 Log Tail 模式存储的https learn microsoft com
我使用了 matplotlib，但图形中出现了错误消息“
”

import matplotlib pyplot as plt from matplotlib import font manager rc f name font manager FontProperties fname C Window
C++中map的初值假设

我正在初始化地图map
Pandas/Numpy NaN 无比较

Python Pandas 和 Numpy 中为什么比较结果不同 from pandas import Series from numpy import NaN NaN不等于NaN gt gt gt NaN NaN False but N
如何将我的 Node.js 客户端连接限制为 2 个？

我基本上试图只允许 2 个客户端同时连接到该应用程序我应该如何处理这个问题这是我的服务器代码 var express require express app express server require http createServe
LabelEncoder 将缺失值保留为“NaN”

我正在尝试使用标签编码器将分类数据转换为数值我需要一个 LabelEncoder 将缺失值保留为 NaN 以便之后使用 Imputer 所以我想在像这样标记后使用掩码来替换原始数据框 df pd DataFrame A x np NaN

LabelEncoder 将缺失值保留为“NaN”

LabelEncoder 将缺失值保留为“NaN” 的相关文章

随机推荐

热门标签