我想包括一个示例数据集(Twitter
推文和metadata
) in an R
我正在写的包。
我使用下载了一个示例 data.frameTwitter API
并将其另存为.RData
(与相应的 .R
数据描述文件)在我的包中。
当我跑步时R CMD
检查一下,我得到以下注释,
* checking data for non-ASCII characters ... NOTE
Note: found 287 marked UTF-8 strings
我尝试保存data.frame
with ASCII=TRUE
,希望这能解决问题。但它仍然存在。关于如何获得的任何想法R CMD
检查是否在没有注释的情况下运行?
(另外,我愿意删除所有UTF-8
如果这是解决方案,请从示例数据中标记字符串)。谢谢你!
data.frame 中的示例行:
First time in SF (@ San Francisco International Airport (SFO) - @flysfo in San Francisco, CA) https://t.co/1245xqxtwesr
favorited favoriteCount replyToSN created truncated replyToSID id replyToUID
1 FALSE 0 <NA> 2015-03-13 23:30:35 FALSE <NA> 576525795927179264 <NA>
statusSource screenName retweetCount isRetweet retweeted
1 <a href="http://foursquare.com" rel="nofollow">Foursquare</a> my_name93 0 FALSE FALSE
longitude latitude
1 -122.38100052 37.61865062
如果它对将来的任何人有用,我找到的解决方案是这样的:
UTF-8 标记的字符位于数据集中,因为 Twitter 推文有时包含表情符号。
我得到的建议是,没有一种简单的方法可以在不删除所有 UTF-8 标记字符串的情况下删除 PACKAGE CMD CHECK 中的注释。
为此,我使用了以下命令:
nonUTF <- iconv(df$TroubleVector, from="UTF-8", to="ASCII")
在具有表情符号等的矢量上。如果该值具有 UTF-8 标记的字符串,则此命令返回 NA。我用它来子集数据集 - 现在我得到了一个干净的构建。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)