当前位置: 首页 > news >正文

西宁贴吧泰安seo培训

西宁贴吧,泰安seo培训,大连做环评网站,嵌入式软件开发流程规范一 几年前用 Python 写过一个程序#xff0c;自动抓取各市文化局网站相关栏目文章#xff0c;然后把抓到的文章#xff0c;写成离线网页#xff0c;发到指定邮箱。 当时针对每个网页写一个爬虫#xff0c;对每一个网页都进行分析。比如#xff0c;标题是什么#xff0… 一 几年前用 Python 写过一个程序自动抓取各市文化局网站相关栏目文章然后把抓到的文章写成离线网页发到指定邮箱。 当时针对每个网页写一个爬虫对每一个网页都进行分析。比如标题是什么发布时间在哪正文内容如何保存等等。因为工作量慢慢变大后来就把它放到代码库里吃灰。 现在每天要采集整理各地文旅信息去年年底又重新捡起之前的代码。 重构了一遍代码大体实现自动抓取全省16个市局、文化报、旅游报、相关文化机构、多数省级文旅部门网站的每日更新信息。最后写了一个网页动态呈现抓取信息。 现在每天早上程序自动运行逐个查看各地文旅网站更新了没有更新了什么并对信息库进行同步。 二 总体实现步骤如下 第一步用查看每一个信息源网站的更新情况只抓取主页上的两项信息即链接标题、链接地址以文本文件形式保存到本地。 通过多个程序分别对全省16市文旅部门及相关机构、省级文旅部门、文化报、旅游报、副省级城市文旅部门网站进行访问。 第二步将信息保存到本地与数据库表已有记录进行比对如果数据库表中不存在相同的记录则对数据库表进行更新。 第三步所有代码及数据更新后同步到代码库。 第四步写一个网页内网使用对数据库中信息分类呈现并提供检索功能。 第五步通过脚本windows 环境的自动批处理文件依次调用第一步、第二步里的多个程序加入操作系统的任务计划程序定时运行。 工作流程共五个环节获取、更新、同步、呈现、运行。 三 以上工作量最大的是第一步即信息获取。 由于每个信息源的最新信息、主要信息一般会在网站主页呈现所以只需关注主页更新即可。 这里的技术难点主要有两个 1、不同的信息源网站保存信息的方式不同需要分别处理。 2、少数信息源网站采用特殊设置要避开这些特殊设置需要对网站进行深入分析和调试这给自动获取信息带来一些困难有些甚至解决不了。 四 这是一个非常小的、相当简陋的项目实现过程中有一些收获。 其中最大的收获是可以更方便地了解各地文旅动态不用再逐个翻看网站节省了不少时间。 其次在实现过程中也进一步熟悉了相关技术。比如如何用 python Selenium 模拟网页访问如何避开网站的一些特殊设置如何使用 python Sqlite 操作数据库如何用 python flask 写动态网页包括网页模板、检索功能实现等如何使用 Git如何自动化工作流程等等。此外通过代码重构还加深了对程序模块化设计的理解。 五 信息采集是一个常见的需求。 大的搜索引擎如百度、谷歌、搜狗、必应等都是基于信息采集而发展起来的“重型武器”。对大多数行业来说可能不需要这大的“火力”仅需要自身行业的信息库。 基于浩如烟海的网络信息建立属于行业自身的信息库并不断更新是必要且必须之事。 还可以做哪些扩展  从内网到外网使用从PC端到移动端搜集更多数据整理更多信息挖掘更多知识呈现更多智慧......
http://www.zqtcl.cn/news/347728/

相关文章:

  • wordpress固定链接 中文建设网站优化
  • 东莞地产网站建设简述建设iis网站的基本过程
  • 外贸网站建设 公司价格怎样在手机上制作网站
  • 网站建设电话销售录音企业做网站有什么用
  • 网站布局设计软件软件工程大学排名
  • 自己的网站做防伪码深圳软件开发公司招聘
  • 网上购物网站大全wordpress文本悬停变色
  • 科技类公司网站设计如何做各大网站广告链接
  • 深圳做h5网站制作奢侈品网站设计
  • 用什么程序做网站佛山网站建设慕枫
  • 萍乡网站建设哪家公司好惠州开发做商城网站建设哪家好
  • 2021半夜好用的网站在菲做平台网站
  • 国家排污许可网站台账怎么做wordpress表单位插件
  • 如何构建成交型网站wordpress搭建英文网站
  • 阿里云网站建设方案书怎么写四川做网站公司哪家好
  • 提供衡水网站建设wordpress游客看小图登陆查看大图
  • 网站开发优势wordpress 密码破解
  • 做网站空间需要多大深圳服装网站建设
  • 建网站wordpress制作app多少钱一个
  • 怎么做装修网站torrentkitty磁力猫
  • 网站建立站点wordpress手机网站模板制作
  • 宁夏建设工程招标投标信息网站教师做网站赚钱
  • 潍坊网站制作价格网站维护入门教程
  • 微信网站怎么做下载附件wordpress英文主题汉化
  • 桂平网站设计python基础教程第二版
  • wordpress hermit杭州企业seo网站优化
  • 贵州做团队培训的网站法学网站阵地建设
  • 网站死链是什么西宁高端网站开发公司
  • 做团购网站的公司wordpress附件存放位置
  • 成都最专业做网站的仿win8网站模板