当前位置: 首页 > news >正文

做淘宝客要建网站吗影视网站怎么做

做淘宝客要建网站吗,影视网站怎么做,元气森林网络营销案例,网站正在建设中页面下载作者使用的是Python3.6版本。pdfminer在Python2和Python3中的安装和使用有一定的区别#xff0c;本文以Python为例。首先安装pdfminerpip install pdfminer3k官网对PDFMiner的介绍如下#xff1a;PDFMiner is a tool for extracting information from PDF documents. Unlike …作者使用的是Python3.6版本。pdfminer在Python2和Python3中的安装和使用有一定的区别本文以Python为例。首先安装pdfminerpip install pdfminer3k官网对PDFMiner的介绍如下PDFMiner is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing text data. PDFMiner allows to obtain the exact location of texts in a page, as well as other information such as fonts or lines. It includes a PDF converter that can transform PDF files into other text formats (such as HTML). It has an extensible PDF parser that can be used for other purposes instead of text analysis.PDF的格式不是规范的很多情况下没有逻辑结构不能自适应页面大小的调整。PDFMiner是通过尝试猜测PDF的布局来重建其结构有时候效果并不理想。import importlib import sys import timeimportlib.reload(sys) time1 time.time()import os.path from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal,LAParams from pdfminer.pdfinterp import PDFTextExtractionNotAlloweddef parse(pdf_path,txt_path):解析PDF文本并保存到TXT文件中fp open(text_path,rb)# pdf1 urlopen(http://www.tencent.com/20160321.pdf)#用文件对象创建一个PDF文档分析器parser PDFParser(fp)#创建一个PDF文档doc PDFDocument()#连接分析器与文档对象parser.set_document(doc)doc.set_parser(parser)#提供初始化密码如果没有密码就创建一个空的字符串doc.initialize()#检测文档是否提供txt转换不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:#创建PDF资源管理器来共享资源rsrcmgr PDFResourceManager()#创建一个PDF设备对象laparams LAParams()device PDFPageAggregator(rsrcmgr,laparamslaparams)#创建一个PDF解释其对象interpreter PDFPageInterpreter(rsrcmgr,device)#循环遍历列表每次处理一个page内容# doc.get_pages() 获取page列表for page in doc.get_pages():interpreter.process_page(page)#接受该页面的LTPage对象layout device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象# 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等# 想要获取文本就获得对象的text属性for x in layout:if(isinstance(x,LTTextBoxHorizontal)):with open(txt_path,a) as f:results x.get_text()print(results)f.write(results n)if __name__ __main__:pdf_path ./test.pdftxt_path ./test.txtparse(pdf_path,txt_path)time2 time.time()print(总共消耗时间为:,time2-time1)上述代码只能解析正常的PDF内容在实际应用场景中很多PDF文档可能是加密的如何处理解密的PDF文件也是我们需要get的技能。pydf2这个库能够实现对PDF文件进行加密和解密。
http://www.zqtcl.cn/news/423156/

相关文章:

  • 辽宁省住房和城乡建设厅网站换了淮安做网站公司
  • 天津商业网站建设搜狗排名优化工具
  • 阿里服务器可以做多少个网站在家怎么利用电脑赚钱
  • 免费建设一个网站google官方版下载
  • 心馨人生珠海网站建设外贸型企业网站建设
  • 好网站建设公司昆明乐清网站优化推广
  • 哪些网站用天平做logo站长工具app官方下载
  • 做餐厅logo用什么软件网站手机自适应网站源码
  • 股票网站模板辽宁工程建设信息网站
  • 毕业设计某网站开发的开题报告范文广西建设教育网站
  • 浏览小城镇建设的网站商丘网站公司
  • python学习网站做好网络推广的技巧
  • 网站有几种类型小说网站开发源码
  • 给城市建设提议献策的网站网站建设可研报告
  • 常德论坛网站陕西建设官方网站
  • 怎么做网站访问量上海网站排名提升
  • 新乡企业网站建设胶州做网站公司
  • 网站后台权限分配说明什么网站是做家教的
  • 网站备案 空间备案 域名备案网站制作与管理技术标准实训教程
  • 东莞免费企业网站模板推广有没有专门做线下活动的网站
  • 驾校网站制作郑州手机网站建设多少钱
  • c2c网站建设策划书怎么看网站关键词密度
  • 网站在线支付方案网站建设 sam大叔排名三天上首页
  • 温岭新站seo网站免费进入窗口软件有哪些
  • 网站未备案什么意思网站 php .net
  • 网站开发第三方登录设计七牛图床 wordpress
  • 大连网站设计案例宁波品牌网站设计价格
  • 响应式表白网站源码黑龙江建设网电话
  • wordpress企业建站生产企业做网站的费用怎么做账
  • 天都城网站建设wordpress pluings