如何在AWS Lambda上使用tabula阅读pdf？

2023-12-21

“我知道我们必须下载 Java 才能运行，我在 IDE 上执行了该操作，并且成功了。但不知道如何在 AWS Lambda 上下载它。如果有人能帮助我，我将不胜感激。

我认为代码本身产生了我所期望的结果，但是，java正是我所需要的。

这是我收到的错误：

'[ERROR] JavaNotFoundError: javacommand is not found from this Python process.Please ensure Java is installed and PATH is set forjavaTraceback (most recent call last): File "/var/task/lambda_function.py", line 30, in lambda_handler tables = tabula.read_pdf(io.BytesIO(file_content), pages='all') File "/opt/python/tabula/io.py", line 425, in read_pdf output = _run(java_options, tabula_options, path, encoding) File "/opt/python/tabula/io.py", line 99, in _run raise JavaNotFoundError(JAVA_NOT_FOUND_ERROR)'

            import json
            import boto3
            import pandas as pd
            import io
            import re
            import tabula
            import numpy as np
            def f_remove_accents(old):
                """
            #    Removes common accent characters, lower form.
            #    Uses: regex.
                """
                new = old.lower()
                new = re.sub(r'[àáâãäå]', 'a', new)
                new = re.sub(r'[èéêë]', 'e', new)
                new = re.sub(r'[ìíîï]', 'i', new)
                new = re.sub(r'[òóôõö]', 'o', new)
                new = re.sub(r'[ùúûü]', 'u', new)
                new = re.sub(r'[ç]', 'c', new)
                return new
            def lambda_handler(event, context):
                s3 = boto3.client("s3")
                if event:
                    s3_records = event["Records"][0]
                    bucket_name = str(s3_records["s3"]["bucket"]["name"])
                    file_name = str(s3_records["s3"]["object"]["key"])
                    file_obj = s3.get_object(Bucket=bucket_name, Key=file_name)
                    file_content = file_obj["Body"].read()
            
                    tables = tabula.read_pdf(io.BytesIO(file_content), pages='all')
            
            
                    # Create an empty DataFrame to store all the modified tables
                    modified_tables = []
            
                    # Apply functions to the content of each table
                    for table in tables:
                        # Convert the DataFrame to a NumPy array
                        table_array = table.values.astype(str)
            
                        # Remove accents
                        remove_accents_func = np.vectorize(f_remove_accents)
                        table_array = remove_accents_func(table_array)
            
                        # Replace ';' with ' '
                        table_array = np.char.replace(table_array, ';', ' ')
            
                        # Convert to upper case
                        table_array = np.char.upper(table_array)
            
                        # Create a new DataFrame with the modified array
                        modified_table = pd.DataFrame(table_array, columns=table.columns)
            
                        # Append the modified table to the list
                        modified_tables.append(modified_table)
            
                    # Concatenate all the modified tables into a single DataFrame
                    final_df = pd.concat(modified_tables, ignore_index=True)
            
                    # Save the final DataFrame as a CSV file
                    name_of_return_file = f'{file_name[:-4]}_return.csv'
                    final_df.to_csv(name_of_return_file, sep=';', index=False)
            
                    # Read the CSV file content
                    with open(name_of_return_file, 'rb') as file:
                        csv_content = file.read()
            
                    # Upload the CSV file to the destination bucket
                    s3.put_object(Body=csv_content, Bucket='bucket-recebendo', Key=name_of_return_file)

这就是我如何在 Lambda 上建立并运行表格。我使用了Lambda的OCI能力来打包需求。

首先，我使用 VSCode 创建文件夹结构来放置 lambda 函数和 Docker 文件。

我创建了一个名为“lambda_function.py”的文件，其中包含上面列出的代码。我创建了一个 pip requests.txt 文件，其中包含以下库（您不应该使用它，而应该使用固定版本，我这样做只是为了速度）

我确实必须更改您的代码，并且我进行了以下更改（导入语句）

import json
import boto3
import pandas as pd
import io
import re
from tabula.io import read_pdf
import numpy as np
..
..

因为我收到错误“AttributeError: module 'tabula' has no attribute 'read_pdf'”

pandas
numpy
tabula-py
boto3

然后我创建了我的 Docker 文件（非常粗糙，没有优化，只是为了引导它并让它运行 - 你肯定想改进它）

FROM public.ecr.aws/lambda/python:3.10
COPY requirements.txt ${LAMBDA_TASK_ROOT}
COPY lambda_function.py ${LAMBDA_TASK_ROOT}
RUN yum install java-17-amazon-corretto-devel -y
RUN pip install --upgrade pip
RUN pip install --no-cache-dir -r requirements.txt
CMD [ "lambda_function.lambda_handler" ]

这就是我的布局：

├── Dockerfile
├── lambda_function.py
└── requirements.txt

然后，我运行以下命令在本地构建容器映像，然后将其上传到亚马逊 ecr（我创建了一个 ecr 存储库）

docker build -t lambda-tabula:1.0.0 . 
aws ecr get-login-password --region eu-west-1 | docker login --username AWS --password-stdin xxxx.dkr.ecr.eu-west-1.amazonaws.com
docker tag lambda-tabula:1.0.0 xxxx.dkr.ecr.eu-west-1.amazonaws.com/lambda-oci-demo:1.0.1
docker push xxxx.dkr.ecr.eu-west-1.amazonaws.com/lambda-oci-demo:1.0.1

我现在在 ECR 中有我的图像，我可以通过 arn 引用它（“xxxxx.dkr.ecr.eu-west-1.amazonaws.com/lambda-oci-demo:1.0.0”）

然后，我创建了一个新的 Lambda 函数，指定 OCI 图像，然后指向该图像。我为该函数创建了一个角色，该角色也将提供对此特定 S3 存储桶的权限。

您可以在以下位置获取更多详细信息文档在这里 https://docs.aws.amazon.com/lambda/latest/dg/python-image.html

这允许该函数运行，尽管由于当前函数想要写入只读文件系统而失败并出现不同的错误，因此我将 name_of_return_file = f'{file_name[:-4]}_return.csv' 更改为 name_of_return_file = f'/tmp/{file_name[:-4]}_return.csv'

一旦我解决了这个问题，效果就很好。这是更新后的代码

import json
import boto3
import pandas as pd
import io
import re
from tabula.io import read_pdf
import numpy as np
def f_remove_accents(old):
            new = old.lower()
            new = re.sub(r'[àáâãäå]', 'a', new)
            new = re.sub(r'[èéêë]', 'e', new)
            new = re.sub(r'[ìíîï]', 'i', new)
            new = re.sub(r'[òóôõö]', 'o', new)
            new = re.sub(r'[ùúûü]', 'u', new)
            new = re.sub(r'[ç]', 'c', new)
            return new
def lambda_handler(event, context):
            s3 = boto3.client("s3")
            if event:
                    #s3_records = event["Records"][0]
                    #bucket_name = str(s3_records["s3"]["bucket"]["name"])
                    #file_name = str(s3_records["s3"]["object"]["key"])
                    #file_obj = s3.get_object(Bucket=bucket_name, Key=file_name)
                    file_obj = s3.get_object(Bucket="tabula-demo", Key="invoice.pdf")
                    file_content = file_obj["Body"].read()
            
                    tables = read_pdf(io.BytesIO(file_content), pages='all')
            
            
                    # Create an empty DataFrame to store all the modified tables
                    modified_tables = []
            
                    # Apply functions to the content of each table
                    for table in tables:
                        # Convert the DataFrame to a NumPy array
                        table_array = table.values.astype(str)
            
                        # Remove accents
                        remove_accents_func = np.vectorize(f_remove_accents)
                        table_array = remove_accents_func(table_array)
            
                        # Replace ';' with ' '
                        table_array = np.char.replace(table_array, ';', ' ')
            
                        # Convert to upper case
                        table_array = np.char.upper(table_array)
            
                        # Create a new DataFrame with the modified array
                        modified_table = pd.DataFrame(table_array, columns=table.columns)
            
                        # Append the modified table to the list
                        modified_tables.append(modified_table)
            
                    # Concatenate all the modified tables into a single DataFrame
                    final_df = pd.concat(modified_tables, ignore_index=True)
            
                    # Save the final DataFrame as a CSV file
                    #name_of_return_file = f'{file_name[:-4]}_return.csv'
                    name_of_return_file = '/tmp/test_return.csv'
                    final_df.to_csv(name_of_return_file, sep=';', index=False)
            
                    # Read the CSV file content
                    with open(name_of_return_file, 'rb') as file:
                        csv_content = file.read()
            
                    # Upload the CSV file to the destination bucket
                    s3.put_object(Body=csv_content, Bucket='094459-lambda-libs', Key=name_of_return_file)

笔记！我必须修改上面的代码，因为我对文件进行了硬编码，因为我不知道您的输入文件是什么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在AWS Lambda上使用tabula阅读pdf？的相关文章

Terraform：如何附加服务器计数并将服务器分配给多个可用区？

main tf resource aws instance service ami lookup var aws winamis var awsregion count var count key name var key name ins
Ubuntu Python shebang 线不工作

无法让 shebang 线在 Ubuntu 中为 python 脚本工作我每次只收到命令未找到错误 test py usr bin env python print Ran which python usr bin python 在 sh
如何找到 api gateway stage 的 arn？

我正在尝试使用 awscli 将标签添加到我的 api 网关阶段https docs aws amazon com cli latest reference apigateway tag resource html https docs a
计算 for 循环期间的运行总计 - Python

编辑下面是我根据收到的反馈答案编写的工作代码这个问题源于我之前使用 MIT 的开放课件学习 Python CS 时提出的问题在这里查看我之前的问题 https stackoverflow com questions 4990159
SQLAlchemy 默认日期时间

这是我的声明模型 import datetime from sqlalchemy import Column Integer DateTime from sqlalchemy ext declarative import declarati
Python：动态向对象添加字段

我想知道是否可以动态向对象添加字段例如我希望能够添加如下内容 user object user first name John user last name Smith 当我在 Python 命令行解释器中执行该命令时我得到 Attr
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
计算二维笛卡尔坐标中不规则形状的边界

我正在寻找一种计算不规则形状边界的解决方案 Lats take a look at Square example 如果我有Minimum x and y and Maximum x and y like MaxX 5 MinX 1 MaxY
pip-tools 的干净设置不会编译非常基本的 pyproject.toml

使用全新的pip tools设置总是会导致Backend subprocess exited error pyproject toml project dependencies openpyxl gt 3 0 9 lt 4 在仅包含上述 p
如何使用 Python Pandas 制作 DataFrame 切片并在特定切片中“fillna”？

问题让我们从 Kaggle 获取泰坦尼克号数据集我有包含 Pclass 性别和年龄列的数据框我需要用特定组的中位数填充年龄列中的 NaN 如果是来自一等的女性我想用一等女性的中位数填写她的年龄而不是整个年龄列的中位数问
Python：如何使用生成器来避免 sql 内存问题

我有以下方法来访问 mysql 数据库并且查询在服务器中执行我无权更改有关增加内存的任何内容我对生成器很陌生并开始阅读更多有关它的内容并认为我可以将其转换为使用生成器 def getUNames self globalUserQu
在 Django 中翻译文件时的 Git 命令

我在 Django 中有一个现有的应用程序我想在页面上添加翻译在页面上我有 trans Projects 在 po 文件中我添加了 templates staff site html 200 msgid Projects msgid P
找到图像特征宽度的正确方法和Python包

输入是一个在黑色背景上带有彩色抱歉垂直线的光谱给定该带的近似 x 坐标用 X 标记我想找到该带的宽度我对图像处理不熟悉请引导我前往正确的方法图像处理和Python图像处理package也能起到同样的作用我认为 PIL Ope
如何在 Flask 中获取 POSTed JSON？

我正在尝试使用 Flask 构建一个简单的 API 现在我想在其中读取一些 POSTed JSON 我使用 Postman Chrome 扩展进行 POST 我 POST 的 JSON 很简单 text lalala 我尝试使用以下方法读取
检测计算机何时解锁 Windows

我用过这个优秀的方法 https stackoverflow com questions 20733441 lock windows workstation using python 20733443锁定 Windows 计算机那部分工作
在 Mac (Catalina) 上安装 PyGame 时出错 [重复]

这个问题在这里已经有答案了我一直在尝试将 PyGame 安装到 Catalina 上的 Mac 上但不知道如何安装我收到的错误消息是 SystemExit error command gcc failed with exit stat
为什么 Python exec 中的模块级变量无法访问？

我正在尝试使用Pythonexec in a project https github com arjungmenon pypage执行嵌入的Python代码我遇到的问题是在模块级 in an exec声明是难以接近的来自同一模块中定义的
“ModuleNotFoundError：我的 Docker 容器中没有名为的模块”

我正在尝试在 Docker 容器中运行 python 脚本但我不知道为什么 python 找不到任何 python 模块我认为它与 PYTHONPATH 环境变量有关所以我尝试将其添加到 Dockerfile 中如下所示 ENV P
透视包含字符串的 Pandas Dataframe - “没有要聚合的数字类型”错误

关于此错误有很多问题但环顾四周后我仍然无法找到解决解决方案我正在尝试用字符串旋转数据框以使一些行数据变成列但到目前为止还没有成功我的 df 的形状
Pymongo 批量插入

我正在尝试批量插入文档但批量插入时不会插入超过 84 个文档给我这个错误 in insert pymongo errors InvalidOperation cannot do an empty bulk insert 是否可以批量插入

随机推荐

PHP中的短语分割算法

不知道如何解释让我们举个例子说我想拆分句子今天是个好日子 into today today is today is a today is a great today is a great day is is a is a great
如何将图像调色板缩小为特定颜色？

我正在使用 Python 程序来创建十字绣方案并且需要将图像中的颜色减少为特定的牙线颜色像这样 http www dmc usa com Products Needlework Threads Embroidery Threads med
javascript方法链中的输入参数是如何填充的？

我正在尝试真正了解 javascript 工作原理的细节在方法链接期间有时一个方法会返回到另一个具有命名输入参数的方法例如在 D3 中模式如下所示 d3 select body selectAll p data dataset e
使用 Backbone.js 的 JS 模板系统

我正在寻找一些好的模板系统可以与 Backbone js 等 MVC 框架一起使用我知道这样一个系统 jQuery 模板然而由于某些原因它已经停止因此我正在寻找其他一些不错的选择请建议从视图角度足够灵活的东西例如基于某些逻
Spring Boot属性在初始化时加载，并尊重所有属性并根据属性文件中的值控制@Aspect

我们正在使用从外部文件加载属性 PropertySources 现在我想启用禁用 Aspect基于属性我尝试使用 ConditionalOnExpression这不起作用我通过创建一个 bean 进行了同样的尝试propertypla
“您可能需要一个额外的加载器来处理这些加载器的结果。”

我目前正在尝试为 ReactJs 构建一个状态管理库但是一旦我将它实现到我的 React 项目中使用create react app 它开始丢弃此错误 Failed to compile path to agile dist runti
QProcess 在未 waitForFinished() 时不发出信号

下面的代码中省略了waitForFinished 使 QProcess 停止发出信号这到底是怎么回事这是 Qt 的错误吗 5 7 请注意此代码与 QtConcurrent 并行运行但这不应该改变任何事情不是吗 Afaik 在其他线
[decl.constexpr].5 到底是什么意思？

该标准关于常量表达式函数 decl constexpr 第 5 点规定对于非模板非默认 constexpr 函数或非模板非默认非继承 constexpr 构造函数如果不存在参数值则函数或构造函数的调用可以是核心常量的计算子表达式
导出到 Excel 不适用于 SSL (https) 下的 IE

我一直在尝试修复安全网站 https 上的某些内容该网站是一个生成 CSV 文件的导出到 Excel 按钮它适用于 Firefox Chrome 等但不适用于 Internet Explorer 我已经更改了标头消除了无缓存还编
自移动批处理文件

我正在寻找一种方法让批处理文件在执行后将其自身移动到已知位置自动移动似乎是最恰当的名字但我确信它有一个技术术语我想移动批处理文件after所有其他代码都已运行 move C temp move me bat D temp move
溢出的签名/未签名作业及其结果

我正在阅读 Stroustrup 的书 C 编程语言第 4 版并且有三个关于溢出赋值的问题特别是对有符号无符号字符如书中所示首先根据标准5 4段如果在计算表达式时结果不是数学定义或不在可表示值的范围内它的类型行为未定义
HTML5 svg 不工作

我使用的是 Chrome 版本 5 0 375 55 和 Firefox 版本 3 5 9 但我无法获取下面的 HTML5 代码来显示一个框
VBA/VB6 集合到底是什么？

对于整数键索引速度为O N 所以看起来它是一个列表但显然 wqw 的评论无法在 VB6 For Each 循环中正确循环键和值 https stackoverflow com q 57066954 1261153 字符串键的访问时间是O
subversion authz 路径包含空格

如何为包含空格的路径设置 authz 文件我尝试了各种方法来逃离这个空间但都不起作用 some path some 20path some path some path 我刚刚检查了 svn 源代码和文件解析器在 libsvn sub
词干提取的逆过程

我使用 lucene 雪球分析器来执行词干提取结果是没有意义的话我提到了这个question https stackoverflow com questions 190775 stemming algorithm that produc
电话格式的 HTML 电话链接 [重复]

这个问题在这里已经有答案了我正在为手机制作一个 html 链接这就是我所拥有的 a href 1 888 888 8888 a 手机会识别这一点还是我需要将其更改为 a href 1 888 888 8888 a uri 中允许使用视
ASP.Net Core 上具有自动再生功能的内存缓存

我想没有内置的方法可以实现这一点我有一些缓存数据需要始终保持最新间隔几十分钟它的生成大约需要 1 2 分钟因此有时会导致请求超时为了优化性能我将其放入内存缓存中使用Cache GetOrCreateAsync 所以我确信可以
Haskell 中的随机整数 [重复]

这个问题在这里已经有答案了我正在学习 Haskell 并学习我想生成一个随机的 Int 类型我很困惑因为下面的代码有效基本上我想要一个 Int 而不是 IO Int 在 ghci 中这是有效的 Prelude gt import
如何使用 Spring Cloud 和 Netflix OSS 在微服务之间路由

在使用 Spring Cloud 开发微服务期间我们开始使用 Zuul 作为从外部到微服务的任何连接以及任何需要联系另一个微服务的微服务的代理一段时间后我们得出结论 Zuul 被设计为边缘服务仅代理从外部到微服务的流量并且不应用于
如何在AWS Lambda上使用tabula阅读pdf？

我知道我们必须下载 Java 才能运行我在 IDE 上执行了该操作并且成功了但不知道如何在 AWS Lambda 上下载它如果有人能帮助我我将不胜感激我认为代码本身产生了我所期望的结果但是 java正是我所需要的这是我收到的

如何在AWS Lambda上使用tabula阅读pdf？

如何在AWS Lambda上使用tabula阅读pdf？ 的相关文章

随机推荐

热门标签

如何在AWS Lambda上使用tabula阅读pdf？的相关文章