Pandas 将 NULL 读取为 NaN 浮点数而不是 str [重复]

2024-05-26

给定文件：

$ cat test.csv 
a,b,c,NULL,d
e,f,g,h,i
j,k,l,m,n

其中第三列被视为str.

当我对列执行字符串函数时，pandas已阅读NULLstr 作为一个NaN float:

>>> import pandas as pd
>>> df = pd.read_csv('test.csv', names=[0,1,2,3,4], dtype={0:str, 1:str, 2:str, 3:str, 4:str})

>>> df[3].apply(str.strip)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python3.5/site-packages/pandas/core/series.py", line 2355, in apply
    mapped = lib.map_infer(values, f, convert=convert_dtype)
  File "pandas/_libs/src/inference.pyx", line 1569, in pandas._libs.lib.map_infer (pandas/_libs/lib.c:66440)
TypeError: descriptor 'strip' requires a 'str' object but received a 'float'

核实：

>>> for i in df[3]:
...    print (type(i), i)
... 
<class 'float'> nan
<class 'str'> h
<class 'str'> m

我已经指定了dtype在初始化时但不知何故它被覆盖了。

如何强制固定特定列的类型？

有没有办法自动发现这些异常NaN浮动并改变然后返回'NULL' string?

对我来说有效astype http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.astype.html:

df[3] = df[3].astype(str)

for i in df[3]:
    print (type(i), i)

<class 'str'> nan
<class 'str'> h
<class 'str'> m

另一种解决方案是使用keep_default_na=False in read_csv http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html:

import pandas as pd
from pandas.compat import StringIO

temp=u"""a,b,c,NULL,d
e,f,g,h,i
j,k,l,m,n"""
#after testing replace 'StringIO(temp)' to 'filename.csv'
df = pd.read_csv(StringIO(temp),  names=[0,1,2,3,4], keep_default_na=False)
print (df)
   0  1  2     3  4
0  a  b  c  NULL  d
1  e  f  g     h  i
2  j  k  l     m  n

for i in df[3]:
    print (type(i), i)
<class 'str'> NULL
<class 'str'> h
<class 'str'> m

那么就可以使用na_values如果需要解析参数NaN在数字列中，但它必须不同，例如NA:

import pandas as pd
from pandas.compat import StringIO

temp=u"""a,b,c,NULL,1
e,f,g,h,2
j,k,l,m,NA"""
#after testing replace 'StringIO(temp)' to 'filename.csv'
df = pd.read_csv(StringIO(temp),  names=[0,1,2,3,4], keep_default_na=False, na_values=['NA'])
print (df)
   0  1  2     3    4
0  a  b  c  NULL  1.0
1  e  f  g     h  2.0
2  j  k  l     m  NaN

for i in df[3]:
    print (type(i), i)
<class 'str'> NULL
<class 'str'> h
<class 'str'> m

for i in df[4]:
    print (type(i), i)
<class 'numpy.float64'> 1.0
<class 'numpy.float64'> 2.0
<class 'numpy.float64'> nan

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

types

NaN

Pandas 将 NULL 读取为 NaN 浮点数而不是 str [重复] 的相关文章

通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图

随机推荐

更新图像而不闪烁 ASP.NET C#

我正在编写一个网站该网站的页面必须显示图像该图像是由 HttpHandler 使用查询字符串命令创建的如何才能使其正常工作而不会出现任何闪烁提前致谢如果您需要一些代码我很乐意分享您可以使用 2 个 UpdatePanel 并在
反序列化之前从 JSON 中删除奇怪的隐藏字符

我有一些 JSON 发送给我当它尝试反序列化时会中断它似乎含有一颗黑色钻石上面有在里面我看不到该角色但它显然在那里但在我的系统上失败了如何摆脱这个问题并保持 JSON 完整以进行反序列化 UPDATE 以下是 JSON 中间
使用 Spring 与 RabbitMQ 集成

我正在为我们的一个应用程序开发消息传递界面该应用程序是一种服务旨在接受作业进行一些处理并返回结果实际上以文件的形式这个想法是使用 RabbitMQ 作为消息传递基础设施并使用 Spring AMQP 来处理协议特定的细节我不
SFINAE 无法有条件地编译成员函数模板

我正在尝试你使用std enable if使用 SFINAE 和以下代码有条件地仅选择两个成员函数模板中的一个 include
如果单元格包含 1 个或多个关键字，则更改不同单元格的值

我有一个列其中包含一些字符串描述例如 Bob davids mowing the lawn tipping cows 此外我将在不同的工作表或列上列出关键字列表例如工作关键字列表1 davids work 播放关键字列表 mowin
原型 Bean 未按预期自动装配

测试控制器 java RestController public class TestController Autowired private TestClass testClass RequestMapping value test me
SimpleXML：使用包含命名空间的 XML

我正在尝试从 google picasa API 获取地理信息这是原始 XML
添加文件://. chrome 扩展程序的权限

如何使用 Chrome 扩展启用 file 的权限在我的manifest json中我尝试过 permissions file and permissions file 也 permissions C 这些都不起作用 permission
FloorPlanner 应用程序的 SVG/Canvas 与 Flash

我计划创建一个平面图应用程序允许用户使用鼠标绘制调整大小移动和旋转对象我只是想知道使用 Flash 或 Javascript 是否会更好如果使用 Javascript 我应该使用 canvas 还是 SVG 该应用程序将允许拖动选
AngularJS 将 ui-select 包装在自定义指令中

我正在尝试将 ui select 包装在自定义指令中 https github com angular ui ui select https github com angular ui ui select this adminv2 dire
用矩阵变换 3D 向量的方法

我一直在阅读一些关于用矩阵转换 Vector3 的文章并且正在努力深入研究数学并自己编码而不是使用现有代码无论出于何种原因我的学校课程从未包含矩阵所以我正在填补我的知识空白值得庆幸的是我认为我只需要一些简单的东西背景是我正在
如何在 API 级别 8 到 19 的 Android 设备上同时使用 DigitalClock 和 TextClock？

我正在为 API 级别 8 到 19 的设备制作应用程序其中包含时钟我尝试将 DigitalClock 进行布局我从 Eclipse 收到消息该类自 API 级别 17 起已弃用建议使用 TextClock 但是当我放置 Text
中止 `git stash apply` [重复]

这个问题在这里已经有答案了我很遗憾应用了存储错误的分支我如何撤消此操作并将我的存储返回到我的存储列表以便稍后将其应用到正确的分支如果你还没有承诺你应该能够git stash再次可能与git reset HEAD first A
A:Visited 未检测到 AJAX 链接

我注意到a visited样式不适用于通过 JavaScript 请求的链接但是在标准用户单击时会立即和随后的刷新时注册访问的完全相同的链接我不确定这是否是独一无二的jQuery 移动 http forum jquery com t
JavaScript 键码 46 是 DEL 功能键还是 (.) 句点符号？

我使用 jquery 在 JavaScript 中编写一些逻辑其中我必须根据 REGEX 模式检查输入内容例如 a zA Z0 9 Alpha numeric and 逻辑差不多完成了我只是在过滤功能键 DEL 时遇到了一点问题我的
为什么在 CSS3 中启用硬件加速会降低性能？

我在 css3 实验中将 10 000 个小 div 元素从浏览器视口的顶部移动到底部对于此测试我使用两种不同的方法使用 GPU 加速translate3D x y z or translateZ 0 无需 GPU 加速只需调整to
OpenCV Python 和 SIFT 功能

我知道有很多关于Python and OpenCV但我没有找到有关这个特殊主题的帮助我想提取SIFT关键点来自 python OpenCV 中的图像我最近安装了 OpenCV 2 3 可以访问 SURF 和 MSER 但不能访问 SIF
在 iOS 中对 Google 地图标记进行聚类

我有一个基于地图的应用程序使用 Google 地图的 iOS SDK 我需要在核心数据数据库中存储多达数千个项目并在地图上用标记显示它们出于性能和可用性的原因我需要在用户缩小时对这些标记进行聚类但我需要确保放置代表性标记以便用户
我在 Android Studio 中使用哪个版本的 JDK 有关系吗？

I know I can choose the SDK location in Android Studio s Project Structure 我有两个问题当我们已经使用Android SDK时为什么还需要JDK 毕竟我们不是为
Pandas 将 NULL 读取为 NaN 浮点数而不是 str [重复]

这个问题在这里已经有答案了给定文件 cat test csv a b c NULL d e f g h i j k l m n 其中第三列被视为str 当我对列执行字符串函数时 pandas已阅读NULLstr 作为一个NaN float

Pandas 将 NULL 读取为 NaN 浮点数而不是 str [重复]

Pandas 将 NULL 读取为 NaN 浮点数而不是 str [重复] 的相关文章

随机推荐

热门标签