大佬教程收集整理的这篇文章主要介绍了Tabula-py read_pdf_with_template() 方法,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在尝试将文档的特定部分作为表格阅读。它的结构为表格,但单元格、行或列之间没有分隔线。
我成功地将 read_pdf()
方法与 area
和 column
参数一起使用。我可以准确指定表格的开始和结束位置以及列的分隔位置。
但我的 pdf 在每一页上都有多个不同大小的表格,没有明确的标记来识别它们,我必须使用这些参数。
我在 Github 存储库问题 here 中发现了 read_pdf_with_template()
方法,并在 documentation、pull request 和 {{3} }.
但没有提到如何构造 teamplate.Json
以及我可以使用哪些参数或它们的含义。
我尝试将 area
坐标插入 x1,y1,x2,y2
,在方法参数和 height
,wIDth
参数中传递带有表大小的列列表。
但它拾取了 pdf 的顶部中心部分,该部分不等于我在反向计算所有内容时插入的任何坐标。
这是我正在尝试阅读的页面(我删除了一些敏感数据) example notebook
这里是代码片段
import tabula
tables = tabula.read_pdf_with_template(input_path = "test.pdf",template_path = "template.Json",columns=[195,310,380])
print(tables[0])
[
{
"page": 1,"extraction_method": "stream","x1": 225,"x2": 35,"y1": 375,"y2": 565,"wIDth": 525,"height": 400
}
]
我只是个笨蛋。
模板不是您手动生成的。它们应该由上面提到的 tabula 应用程序生成here。
只需从 official website 下载 tabula。启动应用程序后,它非常简单。手动单击并拖动每个页面上的每个表格,然后单击顶部的下载模板按钮。
以上是大佬教程为你收集整理的Tabula-py read_pdf_with_template() 方法全部内容,希望文章能够帮你解决Tabula-py read_pdf_with_template() 方法所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。