做封面网站,阿里外贸平台,做网站的天津,品牌设计广告公司使用Gradio创建一个提取pdf、excel中表格数据的demo
最近需要对pdf、excel文件中的表格进行提取#xff0c;用于一些分析#xff0c;所以使用python完成了一个小工具#xff0c;可以处理上传的pdf、excel文件#xff0c;将其中所有表格提取出后存入数组输出#xff1a;
…使用Gradio创建一个提取pdf、excel中表格数据的demo
最近需要对pdf、excel文件中的表格进行提取用于一些分析所以使用python完成了一个小工具可以处理上传的pdf、excel文件将其中所有表格提取出后存入数组输出
import gradio as gr
import pdfplumber
import os
import openpyxldef process_pdf(file):file_extension os.path.splitext(file.orig_name)[-1]tables []if file_extension .pdf:with pdfplumber.open(file.orig_name) as pdf:for page in pdf.pages:table page.extract_tables()tables.append(table)elif file_extension .xlsx:excel openpyxl.load_workbook(file.orig_name)for name in excel.sheetnames:sheet excel[name]max_row sheet.max_rowmax_column sheet.max_columnfor row in sheet.iter_rows(values_onlyTrue):row_data []for cell_value in row:row_data.append(cell_value) # 将单元格值添加到当前行的数据列表tables.append(row_data) # 将当前行的数据列表添加到主数组return tablesiface gr.Interface(fnprocess_pdf,inputsgr.inputs.File(typefile),outputstext,title上传 PDF/Excel 文件,description提取上传文件中的所有表格并以数组形式输出,
)iface.launch()其中使用到了几个库
提取 pdf 使用到的pdfplumber提取 excel 使用到的openpyxl
两个库的使用方法不难文档可以直接在github上找到