当前位置: 首页 > news >正文

制作一个网站的费用是多少外贸有哪些网站

制作一个网站的费用是多少,外贸有哪些网站,wordpress直接,wordpress主题评论制作转载请注明#xff1a;陈熹 chenx6542foxmail.com (简书号#xff1a;半为花间酒)若公众号内转载请联系公众号#xff1a;早起Python本例可以学到的知识点#xff1a;使用 pdfplumber 提取 PDF 中的文字和表格使用 fitz 提取 PDF 中的图片之前我们已经详细介绍了批量 PDF 文…转载请注明陈熹 chenx6542foxmail.com (简书号半为花间酒)若公众号内转载请联系公众号早起Python本例可以学到的知识点使用 pdfplumber 提取 PDF 中的文字和表格使用 fitz 提取 PDF 中的图片之前我们已经详细介绍了批量 PDF 文件的处理包括合并、拆分、水印、加密等 批量PDF文件的处理在文章中详细剖析了每一行的原理。这里要说明的是针对 PDF 的模块较多且有些模块功能并不完善代码也没有类似 OFFICE 三件套操作那般简洁今天学习的 PDF 图片提取亦如是。因此更多时候以理解为主不需要完全掌握代码书写会用会改即可今天讲解的练习数据是一份年度报告里面有大量的文字、表格、图片构成一、模块安装需要安装两个模块第一个是 pdfplumber在 Windows 中调出命令行pip install pdfplumber第二个是 fitz, 它是 pymupdf 中的一个模块在 Windows 中调出命令行pip install pymupdf二、 PDF 文字提取代码思路利用 pdfplumber 打开一个 PDF 文件获取指定的页或者遍历每一页利用 .extract_text() 方法提取当前页的文字用上述代码尝试提取示例数据中第 12 页的文字import pdfplumberfile_path rC:\xxxx\practice.PDFwith pdfplumber.open(file_path) as pdf:page pdf.pages[11]print(page.extract_text())提取的内容可以通过导入 python-docx 并借助 wordfile.add_paragraph() 写入 Word 文件三、PDF 表格提取提取单个表格和提取单页文字的代码非常类似用的是 .extract_table()需要注意.extract_table() 默认提取指定页面的第一个表格如果当前页面有多个表格都需要提取则要直接使用 .extract_tables()例如示例文件中第 13 页有 2 个表格我们分别利用 .extract_table() 和 .extract_tables() 观察输出情况import pdfplumberfile_path rC:\xxxx\practice.PDFwith pdfplumber.open(file_path) as pdf:page pdf.pages[12]print(page.extract_table())是一个嵌套列表熟悉这种格式的人会理解想到可以用 pandas 或者遍历该嵌套列表后借助 openpyxl 的 sheet.append(list) 写入 Excel 文件中import pdfplumberfile_path rC:\xxxx\practice.PDFwith pdfplumber.open(file_path) as pdf:page pdf.pages[12]print(page.extract_tables()).extract_tables() 提取当前页所有表格会产生了一个三级嵌套列表第一层的列表就代表每一个表格四、PDF 图片提取对于图片提取现在没有任何一个模块可以做到百分之百的提取。这边只介绍基于 fitz 模块的代码基本思路是通过正则查找图片并将其输出import fitzimport reimport osfile_path rC:\xxx\practice.PDFdir_path rC:\xxx # 存放图片的文件夹def pdf2pic(path, pic_path):checkXO r/Type(? */XObject)checkIM r/Subtype(? */Image)pdf fitz.open(path)lenXREF pdf._getXrefLength()imgcount 0for i in range(1, lenXREF):text pdf._getXrefString(i)isXObject re.search(checkXO, text)isImage re.search(checkIM, text)if not isXObject or not isImage:continueimgcount 1pix fitz.Pixmap(pdf, i)new_name fimg_{imgcount}.pngif pix.n 5:pix.writePNG(os.path.join(pic_path, new_name))else:pix0 fitz.Pixmap(fitz.csRGB, pix)pix0.writePNG(os.path.join(pic_path, new_name))pix0 Nonepix Nonepdf2pic(file_path, dir_path)成功提取了图片但 PDF 中的图片远不止这些。欢迎有兴趣的读者交流
http://www.zqtcl.cn/news/138881/

相关文章:

  • 品牌网站建设的意义建站公司联系电话
  • 网站建设 备案什么意思哪里有做效果图的网站
  • 教你免费申请个人网站html网站建设方案
  • 网站运营方案怎么写?在线制作手机网站
  • 微信html5模板网站哪个网站有手机
  • 网站知名度网站广东省备案系统
  • 柯桥区网站建设湖南人文科技学院
  • 建设一个网站需要哪些福田企业网站推广哪个好
  • 网站外链建设的15个小技巧中国农业建设中心网站
  • 交易平台网站怎么做wordpress 置顶 函数
  • 义乌市场官方网站jsp做就业网站
  • 推荐网站在线看兄弟们企业概况简介
  • 软装设计方案网站网站制作排名优化
  • 网站前端模板专业建站报价
  • 站长工具星空传媒怎么做游戏网站编辑
  • 大兴手机网站建设深圳小程序开发公司
  • c 大型网站开发案例电销系统线路
  • 鸿扬家装网站建设谈谈对seo的理解
  • 七米网站建设做网站也分内存大小的吗
  • 丝足网站的建设南宁关键词排名公司
  • 上饶商城网站建设亚马逊海外购官方网
  • 做网站代理商好赚吗高端品牌男鞋有哪些
  • 农产品网站建设及优化项目商务网站建设 视频
  • 北京兼职做网站建设百度app平台
  • 网站建设头部代码网站怎么做咨询
  • 网站运营 网站建设北京公司网站制作要多少钱
  • 郑州看妇科最好的医院是哪里南宁百度seo软件
  • 深圳市住房与建设局实名制网站手机网站打不开被拦截怎么办
  • 公司做网站的价格几千元wordpress 修改页脚
  • 专业网站建设公司在线咨询宁波网站推广公司价格