当前位置: 首页 > news >正文

地方门户网站建设要求怎么做网站下单

地方门户网站建设要求,怎么做网站下单,搭建网站有什么用,青岛房产网站建设爬虫原理 浏览器获取网页内容的步骤#xff1a;浏览器提交请求、下载网页代码、解析成页面#xff0c;爬虫要做的就是#xff1a; 模拟浏览器发送请求#xff1a;通过HTTP库向目标站点发起请求Request#xff0c;请求可以包含额外的header等信息#xff0c;等待服务器响应…爬虫原理       浏览器获取网页内容的步骤浏览器提交请求、下载网页代码、解析成页面爬虫要做的就是 模拟浏览器发送请求通过HTTP库向目标站点发起请求Request请求可以包含额外的header等信息等待服务器响应获取响应内容如果服务器正常响应会得到一个响应Response响应的内容便是所要获取的页面内容类型可能是HTML,Json字符串二进制数据图片或者视频等解析响应内容获取响应内容后解析各种数据如解析html数据正则表达式第三方解析库解析json数据json模块解析二进制数据:进一步处理或以wb的方式写入文件保存数据保存为文本数据库或者保存特定格式的文件简单例子利用Urllib库爬取w3c网站教程 1、urllib的request模块可以非常方便地抓取URL内容也就是发送一个GET请求到指定的页面然后返回HTTP的响应例如对百度的一个w3c发送一个GET请求并返回响应 # coding:utf-8 import urllib.requestmy_urlhttps://www.w3cschool.cn/tutorial#要获取课程的网址 page urllib.request.urlopen(my_url) html page.read().decode(utf-8) print(html) 把发送一个GET请求到指定的页面返回HTTP的响应写成一个函数   def get_html(url):#访问urlpage urllib.request.urlopen(url)html page.read().decode(utf-8)return html   将返回如下内容这与在浏览器查看源码看到的是一样的接下来可以根据返回的内容进行解析 2、利用正则表达式的分组提取课程名称、课程简介、课程链接导入python里面的re库 reg ra href([\s\S]*?) title[\s\S]*?h4(.)/h4\np([\s\S]*?)/p#运用正则表达式分组提取数据 reg_tutorial re.compile(reg)#编译一下正则表达式运行更快 tutorial_list reg_tutorial.findall(get_html(my_url))#进行匹配 到现在代码如下 # coding:utf-8 import urllib.request import remy_urlhttps://www.w3cschool.cn/tutorial#要获取课程的网址def get_html(url):#访问urlpage urllib.request.urlopen(url)html page.read().decode(utf-8)return htmlreg ra href([\s\S]*?) title[\s\S]*?h4(.)/h4\np([\s\S]*?)/p#运用正则表达式分组提取数据 reg_tutorial re.compile(reg)#编译一下正则表达式运行更快 tutorial_list reg_tutorial.findall(get_html(my_url))#进行匹配print(一共有课程数 str(len(tutorial_list)))#打印出有多少课程for i in range(len(tutorial_list)):#把课程名称、课程简介、课程链接写到excelpython里面excel从0开始计算print (tutorial_list[i]) 运行打印结果 3、保存数据保存数据到excel里面用到excel第三方库xlwt也可以只用openpyxl库的使用可以参照官网http://www.python-excel.org/ 本次需要新建一个Excel把课程名称、课程简介、课程链接写到Excel里面课程链接用xlwt.Formula设置超链接Excel第一行设置为宋体加粗写一些课程内容外的东西 import xlwt excel_pathrtutorial.xlsx#excel的路径 book xlwt.Workbook(encodingutf-8, style_compression0)# 创建一个Workbook对象这就相当于创建了一个Excel文件 sheet book.add_sheet(课程,cell_overwrite_okTrue)# 添加表 style xlwt.XFStyle()#初始化样式 font xlwt.Font()#创建字体 font.name 宋体#指定字体名字 font.bold True#字体加粗 style.font font#将该font设定为style的字体 sheet.write(0, 0, 序号,style)#用之前的style格式写第一行行、列从0开始计算 sheet.write(0, 1, 课程,style) sheet.write(0, 2, 简介,style) sheet.write(0, 3, 课程链接,style) 写课程内容到Excel for i in range(len(tutorial_list)):#把课程名称、课程简介、课程链接写到excelpython里面excel从0开始计算print (tutorial_list[i])sheet.write(i1, 0, i1)sheet.write(i1, 1, tutorial_list[i][1])sheet.write(i1, 2, tutorial_list[i][2])sheet.write(i1, 3, xlwt.Formula(HYPERLINK( https: tutorial_list[i][0])))#把链接写进去并用xlwt.Formula设置超链接book.save(excel_path)#保存到excel   Excel内容 全部代码如下 # coding:utf-8 import urllib.request import re import xlwt excel_pathrtutorial.xlsx#excel的路径 my_urlhttps://www.w3cschool.cn/tutorial#要获取课程的网址 book xlwt.Workbook(encodingutf-8, style_compression0)# 创建一个Workbook对象这就相当于创建了一个Excel文件 sheet book.add_sheet(课程,cell_overwrite_okTrue)# 添加表 style xlwt.XFStyle()#初始化样式 font xlwt.Font()#创建字体 font.name 宋体#指定字体名字 font.bold True#字体加粗 style.font font#将该font设定为style的字体 sheet.write(0, 0, 序号,style)#用之前的style格式写第一行行、列从0开始计算 sheet.write(0, 1, 课程,style) sheet.write(0, 2, 简介,style) sheet.write(0, 3, 课程链接,style)def get_html(url):#访问urlpage urllib.request.urlopen(url)html page.read().decode(utf-8)return htmlreg ra href([\s\S]*?) title[\s\S]*?h4(.)/h4\np([\s\S]*?)/p#运用正则表达式分组提取数据 reg_tutorial re.compile(reg)#编译一下正则表达式运行更快 tutorial_list reg_tutorial.findall(get_html(my_url))#进行匹配print(一共有课程数 str(len(tutorial_list)))#打印出有多少课程for i in range(len(tutorial_list)):#把课程名称、课程简介、课程链接写到excelpython里面excel从0开始计算print (tutorial_list[i])sheet.write(i1, 0, i1)sheet.write(i1, 1, tutorial_list[i][1])sheet.write(i1, 2, tutorial_list[i][2])sheet.write(i1, 3, xlwt.Formula(HYPERLINK( https: tutorial_list[i][0])))#把链接写进去并用xlwt.Formula设置超链接book.save(excel_path)#保存到excel  转载于:https://www.cnblogs.com/fish-dream/p/10560010.html
http://www.zqtcl.cn/news/231324/

相关文章:

  • 国外展览展示设计网站沧州网络推广管理公司
  • 物流信息平台网站建设深圳做手机网站建设
  • 品牌型网站的特点领导视察网站建设
  • 如何自己做网站推广淘宝客佛山小程序开发公司
  • 天津市建设局网站口碑营销相关案例
  • 怎么有自己的网站厂字形网页布局网站
  • 广州市财贸建设开发监理网站工程建设企业等采用
  • 网站建设规模设想自己建立网站教程
  • 兰溪建设局网站门户网站建设招标
  • 用wp做网站备案怎么查自己的邮箱号
  • 苏州企业网站建设公司价格数字媒体应用 网站开发
  • 西宁做网站seo四川省的住房和城乡建设厅网站首页
  • 响应式网站 有哪些弊端可以发广告的网站
  • wordpress 漫画站wordpress加目录
  • 天津商城网站制作深圳品牌网站设计公司
  • 初学网站开发上海市普陀区建设规划局网站
  • 网站开发完成后如何发布做网站用vs还是dw
  • 怎么看网站是否备案可信赖的菏泽网站建设
  • 做网站的优点系统软件开发服务
  • 深圳品牌营销网站建设尚品中国网站
  • 新建网站怎么做关键词南阳手机网站制作
  • 宁波网站建设应届生公司网站备案需要每年做吗
  • 汽车设计网站论坛网站 备案
  • 网站源码带手机版展示型网站首页设计解析
  • 备案的网站名称能重复备案吗为什么打开Wordpress很慢
  • vps网站建设个人网站二级域名做淘宝客
  • 用cms织梦做网站图文教程wordpress分类文章排序
  • 台州网站策划云南招聘网
  • 网站如何设定关键词wordpress 文章关联
  • 京津冀网站建设公司建设监理工程师网站