当前位置: 首页 > news >正文

给单位建设网站简述网页的制作流程

给单位建设网站,简述网页的制作流程,网站关键词密度怎么计算的,h5制作软件紫色logo整站下载保存为mhtml 代码 MHTML格式具有独特的优点#xff0c;它可以完整保留原始网页的所有布局元素以及嵌入图片#xff0c;无需外部依赖即可呈现原始网页内容#xff0c;增强了可读性和便捷性。下文将展示如何运用自动化技术#xff0c;从一个网站的首页出发#xff0… 整站下载保存为mhtml 代码 MHTML格式具有独特的优点它可以完整保留原始网页的所有布局元素以及嵌入图片无需外部依赖即可呈现原始网页内容增强了可读性和便捷性。下文将展示如何运用自动化技术从一个网站的首页出发采用递归爬取的方式遍历整个站点并将抓取到的各个页面悉数保存为MHTML格式同时按照URL的层级结构将这些页面对应地存储到相应的目录层级中。 代码 # coding: utf-8 import requests import re from bs4 import BeautifulSoup import codecs import json import time import datetime import os import sys from tqdm import tqdm from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import Bydef replace_url(name):for i in [S:, -, , , /, \\, |, :, *, ?, ,·,,”,\,”]:name name.replace(i, )return namedef replace_dir(name):for i in [, , |, :, *,·,,”,”,“, ,..]:name name.replace(i, )return namedef get_dirname(path):if os.path.dirname(path) :return os.path.basename(path)return os.path.dirname(path) def get_href_recursive(loginreqsession,Todo,Finished,Files,black_list): 递归获取所有的链接,采用set去重if len(Todo)0:returnfor url in list(Todo):if url in Finished or url in black_list:Todo.remove(url)continuepage_html_text loginreqsession.get(url).content.decode(utf-8)soup BeautifulSoup(page_html_text, html.parser)hrefssoup.find_all(a)for s in hrefs: hrefs[href]excludes[http,#,.,javascript,u下载]skipFalsefor prefix in excludes:if href.startswith(prefix):skipTruebreakif skip:continueprint(href)Todo.add({}{}.format(url,href))Finished.add(url)Todo.remove(url)get_href_recursive(loginreqsession,Todo,Finished,Files,black_list)def create_href_list(home_page):loginreqsession requests.session()Finishedset()Todoset()Files[]black_listset()Todo.add(home_page)loginreqsession requests.session() get_href_recursive(loginreqsession,Todo,Finished,Files,black_list)with open(list.txt,w) as f:for link in Finished:f.write({}\n.format(link))def save_page_as_mhtml(home_page,driver, wait, url):pagenameurl.replace(home_page,home).strip()[:-1]output_path{}.mhtml.format(pagename)output_pathos.path.join(replace_dir(os.path.dirname(output_path)).strip(),replace_url(os.path.basename(output_path)).strip())base_dir get_dirname(output_path)if not os.path.exists(base_dir):os.makedirs(base_dir)if os.path.exists(output_path):return True#等待页面加载完成 driver.set_page_load_timeout(120)driver.set_script_timeout(120)try:driver.get(url)except:print(timeout:,url) return True time.sleep(10) #非必要res driver.execute_cdp_cmd(Page.captureSnapshot, {})try:with open(output_path, w, newline) as f:f.write(res[data])except:return Truereturn Truedef save_pages(home_page):options webdriver.ChromeOptions()driver webdriver.Chrome()wait WebDriverWait(driver, 10)with open(list.txt,r) as f:for link in tqdm(f.readlines()):save_page_as_mhtml(home_page,driver, wait,link)def main():home_pagehttp://192.168.1.100 create_href_list(home_page)save_pages(home_page)if __name__ __main__:main()
http://www.zqtcl.cn/news/926149/

相关文章:

  • 外网网址可以做英语阅读的网站怎么原创视频网站
  • 宁波网站建设流程图自己做网站可以揽业务吗
  • 赤峰市建设网站东胜做网站
  • 有口碑的坪山网站建设微信扫一扫登录网站如何做
  • 自己建网站要花多少钱蓟县网站建设
  • 兖州中材建设有限公司网站wordpress免签约接口
  • 湖北网站seo设计成都疾控最新通告
  • 商丘网站建设推广公司配资网站建设多少钱
  • 手机网站怎么做SEO优化gzip压缩 wordpress
  • 上下框架 网站app营销的核心是什么
  • 网站开发哪里有培训wordpress 主题 网址导航
  • 深圳市宝安区怎么样百度禁止seo推广
  • 手机电商网站 模板常熟做网站优化
  • 免费的logo设计网站网页设计与制作dw
  • 线上调研问卷在哪个网站上做网页设计学生作业
  • 云南高端网站建设网页设计工作室选址依据
  • 免费的编程自学网站互联网公司网站建设ppt
  • 免费发帖的网站网站空间服务器费用
  • 商城类的网站一般怎么做做ps从哪个网站上下载图片大小
  • 怎么做网站链接支付免费推广网站搭建
  • 威海 网站建设刚刚北京传来重大消息
  • 深圳返利网站开发做网站版权怎么写
  • 上传网站内容做社交电商第一步怎么做
  • 网站icp查询系统wordpress 页面 首页
  • wordpress安装教程wamp搜索引擎优化的英文缩写是什么
  • 成都旅行社网站建设网站建设包含哪些方面
  • 找不到网站后台怎么办韩国网站域名分类
  • 建设商务网站作用积极参与网站信息建设工作
  • 网站开发阶段Oss怎么做静态网站
  • 做科学小制作的视频网站怎么才能建立自己的网站啊