分类导航

程序问答发布时间：2022-06-02 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了Tabula-py read_pdf_with_template() 方法，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

如何解决Tabula-py read_pdf_with_template() 方法？

开发过程中遇到Tabula-py read_pdf_with_template() 方法的问题如何解决？下面主要结合日常开发的经验，给出你关于Tabula-py read_pdf_with_template() 方法的解决方法建议，希望对你解决Tabula-py read_pdf_with_template() 方法有所启发或帮助；

我正在尝试将文档的特定部分作为表格阅读。它的结构为表格，但单元格、行或列之间没有分隔线。

我成功地将 read_pdf() 方法与 area 和 column 参数一起使用。我可以准确指定表格的开始和结束位置以及列的分隔位置。

但我的 pdf 在每一页上都有多个不同大小的表格，没有明确的标记来识别它们，我必须使用这些参数。

我在 Github 存储库问题 here 中发现了 read_pdf_with_template() 方法，并在 documentation、pull request 和 {{3} }.

但没有提到如何构造 teamplate.Json 以及我可以使用哪些参数或它们的含义。

我尝试将 area 坐标插入 x1,y1,x2,y2，在方法参数和 height,wIDth 参数中传递带有表大小的列列表。

但它拾取了 pdf 的顶部中心部分，该部分不等于我在反向计算所有内容时插入的任何坐标。

这是我正在尝试阅读的页面（我删除了一些敏感数据） example notebook

这里是代码片段

import tabula

tables = tabula.read_pdf_with_template(input_path = "test.pdf",template_path = "template.Json",columns=[195,310,380])

print(tables[0])

[
    {
        "page": 1,"extraction_method": "stream","x1": 225,"x2": 35,"y1": 375,"y2": 565,"wIDth": 525,"height": 400
    }
]

解决方法

我只是个笨蛋。

模板不是您手动生成的。它们应该由上面提到的 tabula 应用程序生成here。

只需从 official website 下载 tabula。启动应用程序后，它非常简单。手动单击并拖动每个页面上的每个表格，然后单击顶部的下载模板按钮。

@H_675_56@

大佬总结

以上是大佬教程为你收集整理的Tabula-py read_pdf_with_template() 方法全部内容，希望文章能够帮你解决Tabula-py read_pdf_with_template() 方法所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：read_pdf_with_template()Tabula-py 方法

上一篇: 通过 lambda 表达式映射后获取更... 下一篇:为什么 mypy 确定一个参数是可选...

猜你在找的程序问答相关文章

在烧瓶中重定向时发出POST请求 2022-06-02
从 CreateWindow() 返回的 HWND 的格式值是多少？ 2022-05-31
使用nodejs打印json对象内容 2022-05-31
useEffect 无限循环仅在测试时发生，否则不会发生 - 尽管使用 useReducer 2022-05-31
从雅虎财经检索 ESG 分数 2022-05-31
Gulp：获取“必须指定任务功能”错误，但我只有 1 个任务 2022-05-31
JavaScript 将平面数组转换为嵌套/分组和排序数组 2022-05-31
405 Method Not Allowed 当提交表单到 Flask 时，即使路由有 ['GET', 'PO... 2022-05-31
Mongodb 错误码和对应的 http 状态码 2022-05-31
连接到上游时 Nginx connect() 失败（111：连接被拒绝），客户端：192.168.128.1，服务... 2022-05-31