使用 fread 导入数据后所有列均作为字符

2024-05-11

我导入了一个 CSV 文件（包含文本列和数字列）

x <- fread('myfile.csv', header = TRUE, verbose =T, na.strings = c("null", "'null'", ""))

但导入后，当我运行summary(x)时，所有列都被视为字符

mycolumn
Length:100000      
Class :character   
Mode  :character

有什么办法让它将数字列识别为数字吗？下面是详细输出（来自 nrows 运行），以使其更快。

Input contains no \n. Taking this to be a filename to open
File opened, filesize is 10.162 GB
File is opened and mapped ok
Detected eol as \n only (no \r afterwards), the UNIX and Mac standard.
Looking for supplied sep '\t' on line 30 (the last non blank line in the first 'autostart') ... found ok
Found 166 columns
First row with 166 fields occurs on line 1 (either column names or first row of data)
'header' changed by user from 'auto' to TRUE
Count of eol after first data row: 6513865
Subtracted 1 for last eol and any trailing empty lines, leaving 6513864 data rows
nrow limited to nrows passed in (100000)
Type codes: 4444444444444444444444444444444444444444444444444444444444444444444444444444444444444444441444444444444444444444444444444444444444414444444444444444444444444444444444 (first 5 rows)
Type codes: 4444444444444444444444444444444444444444444444444444444444444444444444444444444444444444441444444444444444444444444444444444444444414444444444444444444444444444444444 (+middle 5 rows)
Type codes: 4444444444444444444444444444444444444444444444444444444444444444444444444444444444444444441444444444444444444444444444444444444444414444444444444444444444444444444444 (+last 5 rows)
Type codes: 4444444444444444444444444444444444444444444444444444444444444444444444444444444444444444441444444444444444444444444444444444444444414444444444444444444444444444444444 (after applying colClasses and integer64)
Type codes: 4444444444444444444444444444444444444444444444444444444444444444444444444444444444444444441444444444444444444444444444444444444444414444444444444444444444444444444444 (after applying drop or select (if supplied)
Allocating 166 column slots (166 - 0 NULL)
Read 100000 rows and 166 (of 166) columns from 10.162 GB file in 00:00:04
   0.564s ( 15%) Memory map (rerun may be quicker)
   0.001s (  0%) sep and header detection
   1.613s ( 43%) Count rows (wc -l)
   0.030s (  1%) Column type detection (first, middle and last 5 rows)
   0.015s (  0%) Allocation of 100000x166 result (xMB) in RAM
   1.437s ( 38%) Reading data
   0.000s (  0%) Allocation for type bumps (if any), including gc time if triggered
   0.000s (  0%) Coercing data already read in type bumps (if any)
   0.080s (  2%) Changing na.strings to NA
   3.739s        Total

手动指定列类的方法是通过colClasses争论。但freads应该能够自动猜测数字列，这让我认为您的数字列中有些条目不是数字。

也许你还没有捕捉到所有类型的NA价值观？如果是这种情况，则未捕获的NA值将被读取为字符串，这将导致整列被设置为类型character.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

使用 fread 导入数据后所有列均作为字符的相关文章

R 中带有文件名的 For 循环

我有一个文件列表例如 nE pT sbj01 e2 2 csv nE pT sbj02 e2 2 csv nE pT sbj04 e2 2 csv nE pT sbj05 e2 2 csv nE pT sbj09 e2 2 csv nE
将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
从 R 中的向量中选择所有可能的元组

我正在尝试用 R 编写一个程序当给定一个向量时将返回所有可能的tuples http en wikipedia org wiki Tuples该向量中的元素例如元组 c a b c c a b c 出租车 c a c c b c c
将 Instagram/youtube 嵌入 Shiny R 应用程序

我想通过点击图表来播放 Instagram 或 Youtube 视频例如显示异常值等到目前为止明确告诉 Shiny 视频内容是有效的 require shiny require ggplot2 data df lt data fram
如何在R中删除重复项

我有一个非常大的数据集如下所示 df lt data frame school c a a a b b c c c year c 3 3 1 4 2 4 3 1 GPA c 4 4 4 3 3 3 2 2 school year GPA
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
是否可以通过扫描从控制台读取而不回显字符？

这是一个示例函数 passwordEntry lt function cat Enter your password pwd lt scan n 1 what character quiet TRUE invisible pwd 并测试该功
删除ggplot2中的负图区域[重复]

这个问题在这里已经有答案了如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域请参见下面的示例我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
我无法下载 R 中的 reshape2 包 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试安装 R 包时收到此响应 gt installed packages reshape2 Package LibPath V
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不

随机推荐

Javascript：将 JSON 字符串转换为 ES6 映射或其他形式以保留键的顺序

ES6 或后续版本 Javascript 或 TypeScript 中是否有原生内置方法将 JSON 字符串转换为 ES6 映射或者可以选择要实现的自制解析器目标是保留 JSON 字符串编码对象的键顺序 Note 我故意不使用解析
用于保护网站安全（使用 SSL）时，数字证书如何工作？

请帮助我了解整个过程是如何进行的据我了解 Web 浏览器包含 verisign Entrust Comodo 等证书颁发机构 CA 的根证书但是当用户访问安全页面时到底会发生什么 Web 浏览器是否向 CA 服务器发送请求来验证证书还
Scala Function.tupled 和 Function.untupled 等效于变量 arity，或者使用元组调用变量 arity 函数

昨晚我试图围绕接受和调用通用函数做一些事情即类型在调用站点上已知但可能因调用站点而异因此定义应该是跨参数通用的例如假设我有一个函数f A B C gt Z 其实这样的还有很多fs 我事先不知道所以我无法确定类型或数量A B C
PHP 在 IIS7 上未报告任何错误

我正在使用我们的 XAMPP 设置作为测试服务器来开发 PHP 应用程序一旦应用程序准备好部署我必须将其上传到客户端的服务器问题是客户端的服务器正在运行 IIS 7 每次出现 PHP 错误时它只会显示一个空白页面现在我的应用程序
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
省略号列表[...]并将列表连接到自身[重复]

这个问题在这里已经有答案了 EDIT 我在最初的例子中很粗心当我添加列表时不会发生该行为A本身而是当我添加一个列表时含有 list A to A本身请参阅下面更正的示例我试图理解省略号如何列出那些显示为当你有一个列表引用本身时发
Java-忽略字符串中的分隔符

我有一个使用管道符号作为分隔符的字符串但是字符串数据也contains管道符号有没有办法忽略这个 Example name address age John 123 Wood Road Street London 25 因此当我这
redis - 使用哈希

我正在使用 redis 为我的 Web 应用程序实现社交流和通知系统我是 redis 的新手我对哈希值及其效率有一些疑问我读过这篇很棒的文章Instagram 帖子 http instagram engineering tumblr
使用 C# 将 DateTime 转换为字符串的魔术字符串

今天我遇到了一个讨厌的错误该任务非常简单我所需要做的就是将 DateTime 对象转换为字符串 yyyymmdd 格式 yyyymmdd 部分在外部软件供应商的开发文档中进行了说明因此我方便地从他们的文件中复制了字符串并粘贴到我的代
从 iframe 访问 Session 变量

我有一个 jsp 我在其中设置了会话变量但是当我尝试读取另一个 jsp 中的会话变量 user 时该变量已加载到 iframe 同一主机服务器等中然后我得到 NullPointerException 如何在 iframe 中获取
C# - 挂钩现有 COM 对象

假设我们有一个现有进程或应用程序它从 ocx 文件例如 MyCOMLibrary ocx 调用 COM 对象有没有办法编写一个 C 库来精确复制 ocx 文件这样原始应用程序就可以调用您的 C 代码而不是原始 COM 对象当然
如何在 Jersey 容器中配置欢迎文件 (HTML/JSP)

我有一个 Jersey RESTful Web 服务项目我已经在中配置了 Jersey 容器web xml一切正常在同一个项目中我引入了一个 HTML 页面并包含在
显示 Facebook 墙上我网站上的帖子

我正在建立我的网站我想做的事情如下我想在我的网页上展示我最近在 Facebook 墙上发布的帖子但只是我自己的帖子不是其他人都只是我的 Here s an example of how I would like to do it 我
Solidity 中的地址(0)是什么

谁能向我解释一下什么address 0 是在 Solidity 中吗我在文档中找到了以下内容但对我来说并没有真正意义如果目标账户是零账户地址为0的账户则交易创建一个新合约如前所述该合约的地址不是零地址而是从发送方及其发送的交
Python 仪器驱动程序

我是一名实验物理学家并且是Python http en wikipedia org wiki Python 28programming language 29 我发现它非常适合数据分析和脚本编写实际上我还用它来连接实验室仪器网络分析仪
如何使用应用程序脚本在 Google 电子表格中移动工作表 [重复]

这个问题在这里已经有答案了我想使用应用程序脚本在电子表格中移动工作表怎么做最好的直播你看过吗文档 https developers google com apps script reference spreadsheet sprea
使用查询选择器从 VBA 中抓取

我使用了该网站的代码来提取数据site https bazashifer ru proflist profnastil Option Explicit Public Sub GetInfo Dim sResponse As String i
使用 Mail_Mime 发送附件到 GMail，收到“noname”附件

我有一个非常简单的网站表单可以包含附件它使用 gmail 的 smtp 发送到 gmail 地址一切工作都很好除了文件以 noname 形式到达没有文件名或扩展名如果您下载附件并使用正确的文件名重命名它则该文件可以正常打开我
输入字符串的格式不正确

下面的代码产生一个错误指出我的输入字符串的格式不正确为什么 private void button7 Click object sender EventArgs e string uriAddTagtoGroup string Form
使用 fread 导入数据后所有列均作为字符

我导入了一个 CSV 文件包含文本列和数字列 x lt fread myfile csv header TRUE verbose T na strings c null null 但导入后当我运行summary x 时所有列都被视为字

使用 fread 导入数据后所有列均作为字符

使用 fread 导入数据后所有列均作为字符 的相关文章

随机推荐

热门标签

使用 fread 导入数据后所有列均作为字符的相关文章