大佬教程收集整理的这篇文章主要介绍了Dask - 将时间戳列转换为日期并设置为索引终止了进程,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
我是 dask 的新手,
我有 152 个平均 200MB 的镶木地板文件。(32GB 机器 RAM)
每个文件都有时间戳列,我想将该列设置为分区(索引)。
如果我将 timestamp 列设置为索引,则分区过多, 所以我需要将它转换为 Date -->
ddf = dd.read_parquet('gs://bucket_name/*.parquet')
ddf['partition'] = dd.to_datetiR_191_11845@e(ddf['event_time'],format='%Y/%m/%d')
我成功运行了 groupby 等其他操作。
如果我想要带分区的镶木地板文件以便按分区快速查询,处理这种情况的最佳做法是什么?
这个 answer 会很有用。具体来说,您希望将时间戳列设置为具有特定频率的索引。
# note that specifying npartitions is optional,but
# can be useful if for some reason there are too
# many partitions
ddf = ddf.set_index('partition',npartitions=10)
# you can also repartition it to get the desired frequency
# (e.g. daily)
ddf = ddf.repartition(freq='1D')
请注意,如果您的数据已按日期时间排序,则可以使此过程更加高效,请参阅上面链接的答案中的详细信息。
以上是大佬教程为你收集整理的Dask - 将时间戳列转换为日期并设置为索引终止了进程全部内容,希望文章能够帮你解决Dask - 将时间戳列转换为日期并设置为索引终止了进程所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。