分类导航

Linux 发布时间：2022-04-01 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了R data.table fread命令：如何读取带有不规则分隔符的大文件？，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

概述

我必须处理120个~2 GB(525600行×302列)文件的集合.目标是制作一些统计数据并将结果放在干净的sqlite数据库中. 当我的脚本使用read.table()导入时,一切正常,但速度很慢.所以我尝试使用fread,来自data.table包(版本1.9.2),但它给了我这个错误： Error in fread(txt, header = T, SELEct = c("YYY", "MM

我必须处理120个~2 GB(525600行×302列)文件的集合.目标是制作一些统计数据并将结果放在干净的sqlite数据库中.

当我的脚本使用read.table()导入时,一切正常,但速度很慢.所以我尝试使用fread,来自data.table包(版本1.9.2),但它给了我这个错误：

Error in fread(txt,header = T,SELEct = c("YYY","MM","DD",: 
Not positioned correctly after tesTing format of header row. ch=' '

我的数据的前2行和7行看起来像这样：

YYYY MM DD HH mm             19490             40790
 1991 10  1  1  0      1.046465E+00      1.568405E+00

因此,开头有第一个空格,日期列之间只有一个空格,其他列之间有任意数量的空格.

我试过用这样的命令来转换逗号中的空格：

DT <- fread(
            paste("sed 's/\\s\\+/,/g'",txt),header=T,SELEct=c('HHHH','MM','DD','HH')
)

没有成功：问题仍然存在,使用sed命令似乎很慢.

Fread似乎不喜欢“任意数量的空间”作为分隔符或开头的空列.任何的想法？

这是(可能)最小的可重复示例(40790之后的换行符)：

txt<-print(" YYYY MM DD HH mm             19490             40790
 1991 10  1  1  0      1.046465E+00      1.568405E+00")

testDT<-fread(txt,SELEct=c("YYY","HH")
)

谢谢你的帮助！

更新：
– data.table 1.8.*不会发生错误.在这个版本中,表被读作一个唯一的行,这并不是更好.

更新2
– 如评论中所述,我可以使用sed格式化表格,然后用fread读取它.我在上面的答案中放了一个脚本,在那里我创建了一个样本数据集,然后比较一些system.time().

解决方法

sed 's/^[[:blank:]]*//;s/[[:blank:]]\{1,\}/,/g'

为你sed

不可能将fread的所有结果收集到1(临时)文件中(添加源引用)并使用sed(或其他工具)处理此文件以避免在每次迭代时分叉工具？

大佬总结

以上是大佬教程为你收集整理的R data.table fread命令：如何读取带有不规则分隔符的大文件？全部内容，希望文章能够帮你解决R data.table fread命令：如何读取带有不规则分隔符的大文件？所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：data data.table fread r table 不规则分隔符命令大如何带有文件读取

上一篇: 输出文件,每行一个字节,十六进制... 下一篇:linux – 我如何告诉bash脚本从顶...

猜你在找的Linux相关文章

初试eCryptfs文件加密系统 2022-04-01
linux mail操作 2019-10-31
linux 下 ifcfg-ethx配置和解析 2019-10-31
couldn't resolve host api.weixin.qq.com 2019-10-31
查看linux 服务器还剩多少空间 2019-10-31
vim编辑器的设置 2019-10-31
什么是守护进程？ 2019-10-31
crontab命令行和日志查看 2019-10-31
crontab清理日志 2019-10-31
linux防火墙相关 iptables 2019-10-31