当前位置: 首页 > news >正文

wordpress为何登东莞优化网站关键词优化

wordpress为何登,东莞优化网站关键词优化,湖南省郴州市邮编,网站建设基础教案上一篇文章中已经介绍了简单的python爬网页下载文档#xff0c;但下载后的文档多为doc或pdf#xff0c;对于数据处理仍然有很多限制#xff0c;所以将doc#xff0f;pdf转换成txt显得尤为重要。查找了很多资料#xff0c;在linux下要将doc转换成txt确实有难度#xff0c;…上一篇文章中已经介绍了简单的python爬网页下载文档但下载后的文档多为doc或pdf对于数据处理仍然有很多限制所以将docpdf转换成txt显得尤为重要。查找了很多资料在linux下要将doc转换成txt确实有难度所以考虑先将pdf转换成txt。师兄推荐使用PDFMiner来处理尝试了一番确实效果不错在此和大家分享。PDFMiner 的简介PDFMiner is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing text data.有兴趣的同学请通过官网进行详细查看通过PDFMiner中的小工具pdf2txt.py便能将pdf转换成txt而且仍保留pdf中的格式超赞阅读pdf2txt.py的源码我们可以看到具体的实现步骤为了以后能处理大规模的pdf文件这里我们只提取出pdf转换成txt的部分具体实现代码如下# -*- coding: utf-8 -*-#-----------------------------------------------------# 功能将pdf转换成txt(不处理图片)# 作者chenbjin# 日期2014-07-11# 语言Python 2.7.6# 环境linux(ubuntu)# PDFMiner20140328(Must be installed)# 使用python pdf2txt.py file.pdf#-----------------------------------------------------import sysfrom pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreterfrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfminer.pdfpage import PDFPage#maindef main(argv) :#输出文件名这里只处理单文档所以只用了argv1outfile argv[1] ‘.txt‘args [argv[1]]debug 0pagenos set()password ‘‘maxpages 0rotation 0codec ‘utf-8‘ #输出编码caching Trueimagewriter Nonelaparams LAParams()#PDFResourceManager.debug debugPDFPageInterpreter.debug debugrsrcmgr PDFResourceManager(cachingcaching)outfp file(outfile,‘w‘)#pdf转换device TextConverter(rsrcmgr, outfp, codeccodec, laparamslaparams,imagewriterimagewriter)for fname in args:fp file(fname,‘rb‘)interpreter PDFPageInterpreter(rsrcmgr, device)#处理文档对象中每一页的内容for page in PDFPage.get_pages(fp, pagenos,maxpagesmaxpages, passwordpassword,cachingcaching, check_extractableTrue) :page.rotate (page.rotaterotation) % 360interpreter.process_page(page)fp.close()device.close()outfp.close()returnif __name__ ‘__main__‘ : main(sys.argv)下一步将尝试将pdf中的图片进行转换可以通过http://denis.papathanasiou.org/2010/08/04/extracting-text-images-from-pdf-files/ 进行了解。参考资料1.PDFMinerhttp://www.unixuser.org/~euske/python/pdfminer/
http://www.zqtcl.cn/news/655376/

相关文章:

  • 南阳企业网站建设做兼职网站有哪些
  • ps做网站的优点国际设计师网站有哪些
  • 学校网站建立安阳市网站建设
  • 邢台做网站流程摄影工作室网站设计
  • 掉关键词网站重大军事新闻
  • 建材网站建设功能方案上海建筑室内设计有限公司
  • 高端企业网站设计公司怎么帮公司做网站建设
  • 湖北专业网站建设维修电话企业网络管理方案
  • 做网站外链wordpress网页怎么上传
  • wordpress站点优化石景山网站开发
  • 企业网站建设的流程店铺推广引流
  • 北京网站优化wyhseo信息化建设杂志社官方网站
  • 网站图片处理方案动漫制作这个专业怎么样
  • 做写手哪个网站好黄页网站建设黄页网站建设
  • 多语言企业网站免费模板网站哪个好
  • 拟一份饰品网站建设合同襄樊门户网站建设
  • 你对网站第一印象受欢迎的广州做网站
  • 网站开发项目的需求分析浙江省城乡建设网站证件查询
  • 整站seo定制简单 大气 网站模版
  • 网站界面设计策划书怎么做云匠网订单多吗
  • html教程 pdf网站建设优化兰州
  • 招聘网站可以同时做两份简历吗外贸网站示例
  • 黑链 对网站的影响企业融资计划书范本
  • 自己的简历怎么制作网站学院网站建设成效
  • 周口seo 网站郑州建站网站的公司
  • 网站布局模板北京装修大概多少钱一平方
  • 德阳网站建设ghxhwl风景网站模板
  • 昌邑网站建设拓者设计吧现代效果图
  • 学校网站建设成功案例网站开发需要学习哪些内容
  • 怎么让公司建设网站seo于刷网站点击