在 R 中读取格式错误的 csv - 引号不匹配

2023-12-06

我有数百个大型 CSV 文件（每个文件的大小从 10k 行到 100k 行不等），其中一些文件的描述格式不正确，引号内有引号，因此它们可能看起来像

ID,Description,x
3434,"abc"def",988
2344,"fred",3484
2345,"fr""ed",3485
2346,"joe,fred",3486

我需要能够将 R 中的所有这些行清晰地解析为 CSV。 dput() 并读取...

txt <- c("ID,Description,x",
    "3434,\"abc\"def\",988",
    "2344,\"fred\",3484", 
    "2345,\"fr\"\"ed\",3485",
    "2346,\"joe,fred\",3486")

read.csv(text=txt[1:4], colClasses='character')
    Error in read.table(file = file, header = header, sep = sep, quote = quote,  : 
      incomplete final line found by readTableHeader on 'text'

如果我们更改引用并且不包含带有嵌入式逗号的最后一行 - 它效果很好

read.csv(text=txt[1:4], colClasses='character', quote='')

但是，如果我们更改引用并包含带有嵌入逗号的最后一行...

read.csv(text=txt[1:5], colClasses='character', quote='')
    Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  : 
      line 1 did not have 4 elements

编辑x2：应该说不幸的是一些描述中有逗号 - 代码在上面进行了编辑。

改变quote环境：

read.csv(text=txt, colClasses='character',quote = "")

    ID Description    x
1 3434   "abc"def"  988
2 2344      "fred" 3484
3 2345    "fr""ed" 3485
4 2346       "joe" 3486

编辑以处理错误的逗号：

  txt <- c("ID,Description,x",
         "3434,\"abc\"def\",988",
         "2344,\"fred\",3484", 
         "2345,\"fr\"\"ed\",3485",
         "2346,\"joe,fred\",3486")

txt2 <- readLines(textConnection(txt)) 

txt2 <- strsplit(txt2,",")

txt2 <- lapply(txt2,function(x) c(x[1],paste(x[2:(length(x)-1)],collapse=","),x[length(x)]) )
m <- do.call("rbind",txt2)
df <- as.data.frame(m,stringsAsFactors = FALSE)
names(df) <- df[1,]
df <- df[-1,]

#     ID Description    x
# 2 3434   "abc"def"  988
# 3 2344      "fred" 3484
# 4 2345    "fr""ed" 3485
# 5 2346  "joe,fred" 3486

不知道这对于您的用例是否足够有效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Parsing

csv

在 R 中读取格式错误的 csv - 引号不匹配的相关文章

在另一个 Rmd 中运行选定的块

我已经在源 Rmd 文件中运行了分析并且希望仅使用few来自源的块我已经看到了一些关于从源 Rmd 中提取所有块的答案来自另一个 Rmd 中的 Rmd 文件的源代码 https stackoverflow com questions 4
根据另一列中的键累积一列中的值时出现问题

我有一个看起来像这样的数据框我需要使用 PROJ ID 列中的字符串创建一个新的值列并形成 PROJ NAME 列中的值字符串这里提供的解决方案根据 r 中另一列的键累积一列中的值 https stackoverflow com q
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
fread 将空导入为 NA

我正在尝试导入带有空白的 csv 读取为不幸的是他们都读作 NA now 为了更好地演示问题我还展示了如何NA NA and 都映射到同一事物除了最底部的示例这将妨碍简单的解决方法dt is na dt lt gt write cs
使用 ANTLR4 识别单行中的多行注释

我想用 ANTLR4 解析 PostScript 代码我完成了语法但是一种特定的语言扩展由其他人引入很难被识别一个简短的例子 1 This is a line comment 2 The next line just pushes
为绘图制作 2D 图例 - 双变量分区统计图

我一直在玩双变量 choropleth 地图并且一直在如何创建类似于 2d 图例的问题上陷入困境约书亚史蒂文斯 http www joshuastevens net cartography make a bivariate chorop
使用 R 进行项目组织 [重复]

这个问题在这里已经有答案了可能的重复统计分析和报告撰写的工作流程 https stackoverflow com questions 1429907 workflow for statistical analysis and repor
使用outer代替expand.grid

我正在寻找尽可能快的速度并留在基地做该做的事expand grid做我用过outer为过去类似的目的创建一个向量像这样的东西 v lt outer letters LETTERS paste0 unlist v lower tri v
r 中的 5 维图

我正在尝试在 R 中绘制 5 维图我目前正在使用rgl包以 4 个维度绘制数据使用 3 个变量作为 x y z 坐标另一个变量作为颜色我想知道是否可以使用这个包添加第五个变量例如空间中点的大小或形状这是我的数据和当前代码的示例
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
16 位以上整数的计算

我有两个大整数两者都超过 16 位确切地说是 20 位而且我知道由于双精度浮点运算我在使用这些数字进行计算甚至将它们存储在变量中独立于编程语言时受到限制不过我想也许gmp图书馆应该处理它们但不幸的是它没有可以计算更大的整
ggplot2、R 中的单条形条形图

我有以下数据和代码 gt ddf var1 var2 1 aa 73 2 bb 18 3 cc 9 gt gt dput ddf structure list var1 c aa bb cc var2 c 73L 18L 9L Names
更改计划的开始日期以优化资源

我有很多工作需要在特定的时间间隔执行然而我们每天完成这项工作的资源有限因此我正在尝试优化开始时间日期开始时间日期只能向前移动不能向后移动以便每天使用的资源与我们的预算更加不相似这些函数在下面的示例中使用 Function t
提取部分字符串值，创建新的列名称，并使数据框宽

我想提取字符串列的最后一部分始终用方括号括起来将它们作为新列的名称然后将数据从长调整为宽并用这些值填充新列例如如果我有这个数据框 whatihave lt data frame v1 c abc effort def effor
如何使用 Objective-C 解析 JSON？

我是 iPhone 新手谁能告诉我解析此数据并获取活动详细信息名字和姓氏的步骤 error false data activity id 35336 user id 1 user first name Chandra Bhusan us
使用许多特殊字符将 R 连接到 HANA 数据库时出现问题

我在将 HANA 数据读入 R 时遇到问题我已通过以下方式建立了连接 ch lt odbcConnect HANA uid USER pwd PW 并确认我已通过以下方式连接 sqlTables ch 这会调出我的表格列表对我想要拉取的
ggplot2 可视化/显示中的地图错误？

正如您在下面看到的我使用 ggplots 制作的地图上存在一个奇怪的显示问题任何投影似乎都会发生同样的问题这是代码仅包maps and ggplot2需要 mapWorld lt borders world colour gray5
在 R 中使用 nls 重新创建研究

我正在学习如何在 R 中使用 nls 函数但遇到了一些问题我现在只是试图重新创建研究论文中发现的曲线该模型拟合了 1987 年崩盘前股市走势的曲线我定义了一个函数func 如下 func lt function a b tc t a
使用函数参数作为 R 中新数据框的名称

这很简单但我已经搜索并未能找到这个小问题的解决方案我想使用函数的参数作为新数据框的名称例如 assign dataset lt function dataname x lt c 1 2 3 y lt c 3 4 5 dataname
Powershell 使用 ConvertFrom-Csv 解析带有换行符的管道 CSV 数据

当尝试解析字段内带有换行符的 CSV 数据时 ConvertFrom Csv 将无法正常工作这是一个例子 test csv name address John Doe 123 Easy Way Apt 10 Somewhere USA J

随机推荐

如何使用 REST API 在 Jira 中创建问题？

如何使用 REST API 在 Jira 中创建问题我已经尝试过使用curl 的示例但我需要使用 Java 和 REST API 在 Eclipse 中创建缺陷您想将 JIRA 集成到 Eclipse 中吗 See https con
这是一个合理的 Objective-C 块实现吗？

我想要 NSRegularExpression 的变体 stringByReplacingMatchesInString options range withTemplate 使用块而不是模板的方法该块的返回值将用作替换值正如您可以想象
使用 httplib POST 二进制数据导致 Unicode 异常

当我尝试使用 urllib2 发送图像时发生 UnicodeDecodeError 异常 HTTP 帖子正文 f open imagepath rb binary f read mimetype devnull mimetypes gue
localstorage：获取包含多个项目的特定localstorage值

在本地存储中我有密钥 results 有了这个values id item 1 href google com icon google com id item 2 href youtube com icon youtube com id i
Swift：SKSpriteKit，使用 Storyboards、UIViewController 和 UIButton 来设置游戏参数？

Context 新的默认代码SpriteKit游戏有一个故事板在启动屏幕之后所有的就是GameViewController这呼唤着GameScene 然而这对于许多游戏来说可能不太理想例如人们可能希望让用户从主菜单中选择难度然后
集合模型类的 EditorTemplate 命名约定

我有一个声明为类型的模型属性List
Google App 引擎上的 UTC 时间？

当我在谷歌应用程序引擎中的servlet被点击时计算出时间的最佳方法是什么如果我调用 System currentTimeMillis 并存储该信息它会可靠吗我不需要毫秒精度我只想存储一个实体及其到达日期 Thanks 不这不可
分配给单个属性的多个 JsonProperty 名称

我有两种格式的 JSON 我想将其反序列化为一个类我知道我们不能申请两个 JsonProperty 属性归于一个属性您能给我建议一种实现此目标的方法吗 string json1 field1 123456789012345 specif
Python SciPy 使用 pip install scipy 给出错误

C PY27 Scripts gt pip install no cache dir scipy Collecting scipy c py27 lib site packages pip vendor requests packages
如何检查两个数字是否在浮点类型精度限制的“x”个有效数字范围内？

假设我们有一个浮点类型 XType 其中有两个数字 XType const a 1 2345 XType const b 1 2300 然后我想要一个函数 IsClose XType const f1 XType const f2 unsi
避免 cmake 在 MacOS 中添加标志 -search_paths_first 和 -headerpad_max_install_names

我正在建立一个 elf归档ARM在 MacOS 中使用cmake CMake正在添加标志 Wl search paths first Wl headerpad max install name自动这会导致产生无效的 elf文件我得到错误
如何在 iPad 上的 Swift Playgrounds 中打印到控制台？

我想在 Swift Playground 中的 Sources 文件夹深处调试一个方法 public func wannaDebugThis let x 42 let text Debug message with useful infor
如何确保我使用 React 的第一次渲染具有 localStorage 中的值？

我的网站有浅色和深色主题默认主题是light 如果用户将主题更改为dark 它被保存到localStorage 在下次访问刷新组件树的根部时此代码将运行 useLayoutEffect gt let storedTheme local
在 Fortran 中我可以提前从函数返回值吗？

在 C 中我可以轻松地从函数返回一个值 int foo int b if b 0 return 42 int a calculate a return a 但在 Fortran 中RETURN语句用于错误处理我可以 integer fu
当 Gradle 具有更改 APK 名称的自定义逻辑时，Android Studio 会将无菌 APK 上传到设备

While using Android Studio I encountered the following error The date of the APK is 2 days older than the current one Gr
在 Visual Basic 6.0 中使用 Microsoft (Office) 365 工具

我正在开发一个用 Visual Basic 6 0 编写的应用程序该应用程序支持将 listView 导出到 Microsoft Excel 文档如果用户安装了旧版本的 Microsoft Office 一切都会正常工作现在我想为系统
jQuery 和原型事件

我有一个在加载事件上触发的原型代码 Event observe imageEl load this someFunction bind this 当我使用 jQuery 代码创建真实事件时例如 jQuery imageEl sel
FOUND_ROWS() 不断返回 0

result db con gt query SELECT SQL CALC FOUND ROWS FROM users LIMIT 0 10 count result db con gt query SELECT FOUND ROWS a
为什么-use-network=false

有人知道为什么我必须在 Flex Builder 中使用 use network false 吗这是在项目属性中设置的并且是附加编译器参数仅当我想读取 XML 等外部文件时才会出现这种情况我团队中的其他人不必有 use networ
在 R 中读取格式错误的 csv - 引号不匹配

我有数百个大型 CSV 文件每个文件的大小从 10k 行到 100k 行不等其中一些文件的描述格式不正确引号内有引号因此它们可能看起来像 ID Description x 3434 abc def 988 2344 fred 348

在 R 中读取格式错误的 csv - 引号不匹配

编辑以处理错误的逗号：

在 R 中读取格式错误的 csv - 引号不匹配 的相关文章

随机推荐

热门标签

在 R 中读取格式错误的 csv - 引号不匹配的相关文章